Biostatistiques Pour Le Clinicien-Springer

Michel Huguier et Pierre-Yves Bolle
Biostatistiques
pour le clinicien
www.biblio-scientifique.net
Biostatistiques pour le clinicien
Springer
Paris
Berlin
Heidelberg
New York
Hong Kong
Londres
Milan
Tokyo
Biostatistiques
pour le clinicien
Michel Huguier et Pierre-Yves Bolle
Springer
Michel Huguier
Service de chirurgie digestive
Hpital Tenon
4, rue de la Chine
75970 Paris Cedex 20
Pierre-Yves Bolle
INSERM U 707
Hpital Saint-Antoine
184, rue du Faubourg-Saint-Antoine
75571 PARIS CEDEX 12
ISBN 978-2-8178-0463-7 Springer Paris Berlin Heidelberg New York

Springer-Verlag France, Paris, 2013
Cet ouvrage est soumis au copyright. Tous droits rservs, notamment la reproduction et la reprsentation, la
traduction, la rimpression, lexpos, la reproduction des illustrations et des tableaux, la transmission par voie
denregistrement sonore ou visuel, la reproduction par microlm ou tout autre moyen ainsi que la conservation
des banques de donnes. La loi franaise sur le copyright du 9 septembre 1965 dans la version en vigueur nautorise
une reproduction intgrale ou partielle que dans certains cas, et en principe moyennant le paiement des droits.
Toute reprsentation, reproduction, contrefaon ou conservation dans une banque de donnes par quelque procd
que ce soit est sanctionne par la loi pnale sur le copyright.
Lutilisation dans cet ouvrage de dsignations, dnominations commerciales, marques de

fabrique, etc. mme sans spcication ne signie pas que ces termes soient libres de la lgis-
lation sur les marques de fabrique et la protection des marques et quils puissent tre utiliss
par chacun.
La maison ddition dcline toute responsabilit quant lexactitude des indications de dosage
et des modes demplois. Dans chaque cas il incombe lusager de vrier les informations
donnes par comparaison la littrature existante.
Maquette de couverture : Jean-Franois Montmarch

Mise en page : Desk
Sommaire
Introduction .................................................................................... 1
Premire partie
Les donnes fondamentales.
Les diffrentes variables et leur mesure
Introduction .................................................................................... 5
1. Les donnes fondamentales ................................................... 9
Le matriel dtude ..................................................................... 9
Comment a-t-on travaill ? ......................................................... 12
Ce que lon a cherch valuer ................................................... 15
Critres de jugement .................................................................. 16
2. Les variables qualitatives ....................................................... 19
Mesure ................................................................................................ 19
Quelques remarques .......................................................................... 20
3. Les variables quantitatives .................................................... 23
Variables continues. Distributions. Reprsentations graphiques ... 23
Mesures descriptives. La loi normale (Laplace-Gauss).................. 27
La loi binomiale ......................................................................... 32
La loi de Poisson......................................................................... 35
4. Les variables censures .......................................................... 37
Dnitions ................................................................................. 37
Mesures ..................................................................................... 39
La mthode de Kaplan-Meier ...................................................... 41
La mthode actuarielle ............................................................... 44
5. Les variables subjectives ........................................................ 49
Moyens de mesure ...................................................................... 50
Deuxime partie
Les comparaisons
Introduction .................................................................................... 55
1. Protocole mdical dun essai randomis.............................. 59
Le pralable tout essai randomis ............................................. 60
Inclusion des sujets dans ltude.................................................. 60
VI Biostatistiques pour le clinicien
Prcautions concernant les traitements

que lon cherche valuer ........................................................... 61
Les critres de jugement.............................................................. 63
Les liens entre ces diffrentes donnes ......................................... 64
2. Protocole statistique dun essai randomis ......................... 65
Le tirage au sort.......................................................................... 65
Problmes particuliers ................................................................ 70
3. Rgles thiques, considrations rglementaires
et nancement dun essai randomis ................................... 73
Rgles thiques ........................................................................... 73
Dispositions rglementaires ........................................................ 74
Financement .............................................................................. 75
Enregistrement de lessai............................................................. 76
4. Comparaisons cherchant montrer une diffrence ............. 77
Le risque de premire espce ....................................................... 77
Le risque de deuxime espce...................................................... 92
Le risque de troisime espce ...................................................... 97
La multiplication des tests statistiques ......................................... 97
5. Autres types dessais randomiss .......................................... 101
Essais dans lesquels les sujets sont leurs propres tmoins ;
essais croiss............................................................................... 101
Les analyses squentielles ............................................................ 103
6. Comparaisons cherchant montrer
une quivalence ...................................................................... 107
Le principe ................................................................................. 108
Calcul du nombre de sujets ncessaires ....................................... 110
Technique de recherche dquivalence ......................................... 110
Conclusions ............................................................................... 113
Conclusions ..................................................................................... 115
Les malfaons des essais randomiss ........................................... 115
Troisime partie
Forces dassociation, tudes multifactorielles,
mesures dimpact, causalit
Introduction .................................................................................... 121
1. Les tudes unifactorielles. La rgression linaire
et la corrlation ....................................................................... 123
La corrlation ............................................................................. 123
La rgression linaire .................................................................. 125
Sommaire VII
Risque relatif et odds ratio .......................................................... 127

Les limites des tudes unifactorielles ........................................... 132
2. Les tudes multifactorielles ................................................... 137
Les modles descriptifs ............................................................... 141
Les modles prdictifs ................................................................ 142
Les malfaons des tudes multifactorielles ................................... 151
Les autres utilits des analyses multifactorielles ........................... 152
3. La causalit .............................................................................. 155
Les mesures dimpact ................................................................. 155
La causalit ................................................................................ 158
Quatrime partie
Le diagnostic
Introduction .................................................................................... 163
1. Les outils de mesure .......................................................... 165
Sensibilit et spcicit ............................................................... 166
Valeurs prdictives...................................................................... 167
Le lien entre ces quantits ........................................................... 168
2. Remarques sur la sensibilit, la spcicit,
les valeurs prdictives. Les courbes ROC ............................. 171
Les trois grandes dnitions ....................................................... 171
Les courbes ROC ........................................................................ 174
Rle de la prvalence de la maladie ............................................. 178
Effectifs ncessaires pour contrler la valeur des intervalles
de conance et des indices informationnels des examens ............. 180
3. La dmarche diagnostique, choix dun examen,
attitude dcisionnelle ............................................................. 183
La dmarche diagnostique .......................................................... 183
Le choix dun examen ................................................................. 187
4. Utilisation des mthodes multifactorielles
dans une dmarche diagnostique ......................................... 195
5. Concordance ........................................................................... 199
Ce que nest pas la concordance .................................................. 199
La concordance ........................................................................ 201
Cinquime partie
Les valuations thrapeutiques
Introduction .................................................................................... 211
1. Les comparaisons thrapeutiques ne reposant pas
sur des essais randomiss ...................................................... 213
Les tudes non contrles ........................................................... 213
VIII Biostatistiques pour le clinicien
Les comparaisons historiques ................................................ 214

tudes prospectives non randomises ......................................... 215
Leffet placebo ............................................................................ 216
Lamlioration des tudes observationnelles ................................ 217
2. Lorsquun essai randomis nest pas possible ..................... 221
Les tudes multifactorielles ......................................................... 221
Les scores de propension ............................................................ 223
La recherche dun consensus : la mthode Delphi ................... 224
3. Revue systmatique et mta-analyses
des essais randomiss ............................................................. 227
Les biais rencontrs dans les mta-analyses.................................. 228
Htrognit des essais randomiss inclus
dans une mta-analyse................................................................ 229
Lvaluation des rsultats : lutilisation des odds ratio ................... 230
Qualit des mta-analyses ........................................................... 232
4. Choix dun traitement ........................................................... 233
Bnces et contreparties mdicales des traitements .................... 233
Les tudes de cot-avantage ........................................................ 234
Les tudes cot-efcacit ............................................................ 236
Sixime partie
Les valuations pronostiques
Introduction .................................................................................... 241
1. Exemple utilisant le modle de Cox ...................................... 245
2. Exemple utilisant lanalyse discriminante ........................... 249
Septime partie
Epidmiologie
Introduction .................................................................................... 255
1. Lpidmiologie descriptive :
les enqutes transversales ...................................................... 257
Mesure de frquence (ou de risque absolu) ................................. 257
Rptition des mesures de frquence ........................................... 259
2. Lpidmiologie analytique ................................................... 261
Les enqutes cas-tmoins ............................................................ 261
Les enqutes de cohortes, exposs-non-exposs ........................... 264
Les biais ..................................................................................... 267
Remarques ................................................................................. 268
Sommaire IX
3. Prvention et dpistage .......................................................... 271

Prvention ................................................................................. 271
Dpistage ................................................................................... 271
4. pidmiologie thorique ....................................................... 273
Les logiciels de biostatistiques ....................................................... 275

Quelques notations en biostatistiques.......................................... 277
Lexique ............................................................................................. 279
Les auteurs
Michel Huguier est professeur honoraire de chirurgie digestive. Il sest

initi aux biostatistiques pour mener bien des travaux de recherche
clinique avec la collaboration de biostatisticiens, Franois Grmy,
Claude Chastang, Jean-Claude Manderscheid, Antoine Flahault. Il a fait
des enseignements de biostatistiques pour des cliniciens Beyrouth,
Bucarest, Hanoi, Montevideo, Paris, Saigon, Strasbourg, Toulouse,
Tours.
Il est auteur de 240 publications dans des revues avec comits de
lecture dont 80 dans des priodiques internationaux anglo-saxons.
Pierre-Yves Bolle est ingnieur civil des Mines, professeur de biosta-

tistiques luniversit Paris 6. Il enseigne les biostatistiques la
facult de mdecine, depuis la premire anne jusquau master. Il a
collabor avec de nombreux cliniciens pour lanalyse dtudes dans
des domaines aussi varis que la ranimation, lanatomopathologie,
lorthopdie, loncologie, les maladies infectieuses, etc. Il est galement
chercheur dans une unit INSERM spcialise dans la surveillance et
la modlisation des maladies transmissibles.
Il est auteur de 120 publications dans des revues avec comits de
lecture.
Michel Huguier et Pierre-Yves Bolle, Biostatistiques pour le clinicien

ISBN : 978-2-8178-0463-7, Springer-Verlag Paris 2013
Introduction
La plupart des ouvrages de biostatistiques ont un abord trs math-

matique. Des remarques sur la toile montrent quils ne sont pas tou-
jours aisment accessibles, mme des tudiants en mdecine dont la
quasi-totalit vient de passer un baccalaurat scientifique. De plus, leur
finalit mdicale napparat pas toujours clairement. Le prsent livre a
pour but de pallier, au moins en partie, cette double constatation.
Son originalit est davoir t crit par un clinicien en collaboration
avec un biostatisticien.
Un ouvrage indispensable. Pourquoi ?

Les progrs de la mdecine sont le fruit dinnovations. Cependant,
les innovations ne font pas toujours progresser llaboration dun dia-
gnostic ou bien lefficacit et la tolrance dun traitement ou encore
la connaissance des facteurs de risque dapparition dune maladie ou
dun pronostic. Lhistoire de la mdecine montre que ce qui avait paru
tre un progrs na pas toujours t confirm.
Lvaluation des innovations est indispensable. Elle seule vite ou
rduit le temps pendant lequel on sengage sur de fausses pistes, cest-
-dire o lon croit faire bnficier les malades dun progrs mdical,
alors quil nen est rien. De plus, ces errements sont de plus en plus
coteux, notamment pour la solidarit nationale qui prend en charge
les dpenses individuelles de soins.
La connaissance des mthodes dvaluation est indispensable pour les
auteurs dun travail afin de le raliser avec un maximum de rigueur
mthodologique. Mais elle permet aussi aux lecteurs de se faire une
opinion plus critique, plus scientifique sur les publications qui les sub-
mergent ou les sollicitations dont ils font lobjet. Pour les tudiants en
mdecine, cest bien lobjectif dune des preuves de lexamen classant
national la fin du deuxime cycle des tudes.

2 Biostatistiques pour le clinicien
Un ouvrage accessible tous. Comment ?

Nous avons voulu que ce livre soit accessible tout lecteur, mme
sil na pas suivi une classe prparatoire de mathmatiques suprieures
ou sil a, en partie, oubli ce qui avait pu lui tre enseign au lyce.
Pour ce faire, nous avons choisi de traiter la mthodologie de faon
plus explicative que mathmatique ; la comprhension des concepts
nous a paru plus importante que la connaissance des dmonstrations
mathmatiques sur lesquelles elle sappuie.
Partie
Les donnes fondamentales
Les direntes variables
1
et leur mesure
Introduction
Tout travail scientifique, quil soit exprimental ou clinique, doit

reposer sur quatre dfinitions clairement prtablies qui dfinissent le
protocole de ltude (ou plan exprimental lorsque lon est en situation
dexprience). Un de ses buts est dassurer la possibilit pour dautres
groupes dinvestigateurs de reproduire le travail qui a t ralis.
Il rpond aux quatre questions suivantes (tableau I) :
sur quoi a-t-on travaill ?
comment a-t-on travaill ?
qua-t-on cherch valuer ?
quels ont t les critres de jugements de cette valuation (ainsi
que la manire dont ils ont t analyss, cest--dire les mthodes
statistiques utilises).
Tableau I Les quatre dfinitions fondamentales.
Sur quoi a-t-on travaill ?

Le matriel dtude (par exemple des souris, des hommes).
Comment a-t-on travaill ?
Mthode de travail (par exemple comment les donnes ont t recueillies,
prospectivement ou rtrospectivement).
Ce que lon a cherch valuer ?
Un examen biologique avec la dfinition de sa normalit, un traitement avec la
dfinition de sa posologie, de son mode dadministration, un facteur de risque, etc.
Quels ont t le(s) critre(s) de jugement ?
Maladie ou absence de maladie, efficacit et toxicit dun mdicament, rcidive,
survie, etc. ainsi que la faon dont ils ont t analyss (mthodes statistiques).
En corollaire, pour un lecteur, le contrle de la qualit de ces dfini-

tions est un lment essentiel de la lecture critique et de linterpr-
tation des rsultats. Ce contrle est ais. Il se fait en lisant la section
Matriel et mthodes de larticle. Il sagit de vrifier que les quatre
dfinitions fondamentales ont bien t donnes, de faon prcise. Il

est ais, mme pour un lecteur un peu entran, de reconnatre facile-

ment les travaux dans lesquels ces dfinitions sont prcises et claires.
Dans le cas contraire, il sagit de travaux qui sont habituellement mal
conus ds le dpart. De ce fait, ils nont gure de chances dapporter
des informations utiles. Il est alors conseill, sans grand risque, den
arrter la lecture.
Ensuite, dans les sciences exprimentales, la mesure des phnomnes
est un point fondamental , crivait Claude Bernard [1]. De faon
gnrale, lvaluation biologique doit tre aussi prcise que possible.
Elle se fait par lapprciation de variables dont les valeurs observes
dpendent de lchantillon que lon a constitu. Pour cette raison,
ces variables sont dites alatoires. Les variables se diffrencient des
constantes dont une des plus connues est le nombre = 3,14116
pour calculer la circonfrence dun cercle partir de la valeur de son
rayon. Rappelons aussi, en art, le nombre dor ) qui est gal 1,618.
Cest un rapport entre largeur et hauteur, baptis divine proportion
que lon trouve dans des temples grecs anciens, ou dans le dessein de
lhomme de Vitruve par Lonard de Vinci, celui qui est inscrit dans un
cercle et un carr.
On peut distinguer les variables selon des caractristiques qui ne sont
pas exclusives, mais qui appelleront des traitements ou des interprta-
tions appropries (tableau II).
Tableau II Les caractristiques des variables.
Les variables qualitatives et quantitatives

Les variables qualitatives (ou catgorielles) sont des variables qui sont apprcies
selon quelles sont prsentes ou absentes, par exemple, lexistence ou non dune
rcidive dans une maladie ; ou qui correspondent une caractristique non
quantitative de lindividu, par exemple, le dpartement de rsidence ou le pays de
naissance.
Les variables quantitatives (ou numriques) sont des variables dont les valeurs sont
apprcies sous une forme numrique ; par exemple, la taille en centimtres, le poids
en grammes, la glycmie en millimoles.
Les variables objectives et subjectives
Les variables objectives sont mesurables directement comme les variables qualitatives
et quantitatives.
Les variables subjectives nont pas de rfrentiel absolu partag pour toutes les
observations. Ce sont, par exemple, une douleur ou encore la qualit de vie.
Les variables observes et censures
Les variables observes sont celles dont la valeur est connue par lobservation.
Les variables censures sont des variables pour lesquelles on nobserve pas exacte-
ment la valeur. Ce sont surtout des variables dont lobservation renvoie au temps,
par exemple, la survie ou la survenue dune rcidive de maladie. Mais cela peut tre
galement des dosages lorsque la valeur est infrieure au seuil de dtection.
Introduction 7
La description que lon fait dune variable rsulte dun choix. Il est
parfois possible de modifier les caractristiques dune variable.
1. Une variable quantitative peut tre transforme en variable qualita-
tive, en choisissant une (ou des) valeur(s) seuil qui dfinira des classes ;
ainsi, une variable quantitative, comme un amaigrissement, peut tre
transforme en variable qualitative deux classes : amaigrissement de
moins de 4 kg, ou de plus de 4 kg. De mme, une variable censure,
comme la survie, peut, dans certaines conditions, tre transforme en
variable qualitative : survie cinq ans ou non. Ces transformations
font nanmoins perdre de linformation.
2. Une variable subjective peut tre transforme en variable objective
si lon parvient trouver un rfrentiel commun aux observations. Il
existe pour cela plusieurs mthodes que nous indiquerons.
3. Dautres transformations peuvent tre souhaitables ou habituelles.
Dans linfection VIH, par exemple, on prsente souvent les charges
virales (nombre de copies de virions/mL) en logarithme base 10,
cest--dire quune charge virale de 1 million (= 106) est reprsent
par 6 sur lchelle log. Lutilisation de telles transformations permet de
modifier la distribution, par exemple pour la rendre plus proche de la
loi normale (de Laplace-Gauss).
Dernire notion : des variables sont dites dpendantes si leurs valeurs
changent conjointement, par exemple, les valeurs du cholestrol total
et du cholestrol estrifi. Dans le cas contraire, on parle de variables
indpendantes comme la numration des hmaties dune part, et le
dosage des phosphatases alcalines dans le sang dautre part.
Rfrence
1. Bernard C (1865) Introduction la mdecine exprimentale. Baillire, Paris,
p. 226
Les donnes fondamentales
1
Tout travail doit tre labor avec un objectif prcis, dfini dans
lintroduction du compte rendu de la recherche. Ensuite, comme nous
lavons indiqu, le chapitre Matriel et mthodes doit comprendre
quatre descriptions fondamentales :
ce sur quoi on a travaill ;
quelle a t la mthode de travail ;
ce que lon a cherch valuer ;
quels ont t les critres de jugement de cette valuation.
Ces donnes sont fondamentales pour permettre, soit de reproduire
ltude, soit pour chercher expliquer des diffrences de rsultats avec
ceux dune autre tude qui avait un objectif similaire ou assez proche.
Pour un lecteur, les principes de la lecture critique ne sont que le corol-
laire des mmes principes de llaboration dun travail scientifique.
Le matriel dtude
Le matriel dune tude est constitu par ce sur qui (personnes,
animaux, bactries, virus, etc.) ou ce sur quoi (prlvement tissulaire,
srum, urines, etc.) le travail a port.
Des personnes
Quil sagisse dune tude clinique ou pidmiologique, il convient
de prciser deux donnes : lune concerne les critres dinclusion des
sujets dans ltude, lautre, la description de la population tudie.
Les critres qui ont permis linclusion de chaque sujet dans ltude
dfinissent les caractristiques de lchantillon. Il est parfois ncessaire,
surtout sils ne sont pas symtriques, de dfinir des critres dexclusion
de ltude. Il est vident que la porte des rsultats ne pourra concerner

quune population similaire celle qui a t dfinie par les critres

1 dinclusion. En pidmiologie, comme nous le verrons, ces notions
sont particulirement importantes dans les enqutes cas-tmoins ou
dans les tudes de cohortes qui doivent tre le plus reprsentatives
possible des populations tudies.
Citons quelques exemples de critres dinclusion ou dexclusion
courants. Dans des tudes cliniques, portant sur lvaluation dune
chimiothrapie, la dfinition de la population incluse doit prciser
sil y a eu ou non une limite dge. Dans le cas dune chimioth-
rapie cardio-toxique, il convient dindiquer les critres cardiolo-
giques dexclusion de ltude. Si la population tudie concerne des
malades, ce qui est le plus souvent le cas, il est indispensable que les
critres sur lesquels on a fait le diagnostic de la maladie soient bien
prciss. Toutes ces remarques semblent aller de soi, mais ne sont
pas toujours videntes en pratique. Ainsi, une tude prospective
randomise sur le traitement chirurgical des pancratites aigus
biliaires avait t ralise pour savoir sil tait prfrable doprer
dans les 48 heures ou de faon diffre. Le protocole prvoyait trois
critres dinclusion :
lexistence dune douleur aigu de type pancratique dont le sige,
les irradiations, les modalits dapparition avaient t prciss ;
une lvation de lamylasmie au-dessus dun certain seuil ;
une lithiase biliaire reconnue sur un examen morphologique, en
gnral une chographie abdominale.
Or, aprs inclusion dune vingtaine de malades, les auteurs se sont
aperus que prs de la moiti dentre eux navaient pas de signes
macroscopiques de pancratite aigu lintervention [1]. Les critres
de diagnostic de pancratite aigu qui semblaient corrects et suffisants
ne ltaient pas pour deux raisons. Dune part, des lithiases biliaires
sans pancratite peuvent entraner une lvation de lamylasmie ;
dautre part, des coliques hpatiques peuvent donner des douleurs
dont les caractres peuvent tre similaires ceux dune pancratite. Il
eut t souhaitable, dans ce type dtude, et pour ces raisons, dexiger
comme critre dinclusion supplmentaire la preuve dune pancratite
par la constatation dune augmentation de volume du pancras par un
examen morphologique propratoire, chographie ou scannographie
par exemple.
Il convient encore dindiquer si les sujets, qui rpondent bien aux
critres dinclusion, ont t inclus dans ltude de faon cons-
cutive ou, dans le cas contraire, si des sujets qui auraient pu tre
inclus ne lont pas t en prcisant leur nombre et les raisons de
non-inclusion, mme si elles peuvent paratre triviales. Ainsi, dans
une tude prospective dont lobjectif tait de comparer, chez des
malades qui avaient un cancer de la tte du pancras, les rsultats de
Les donnes fondamentales 11
lcho-endoscopie et de lcho-Doppler pour valuer lenvahissement

ventuel de la veine porte, des malades qui remplissaient bien tous
les critres dinclusion nont pas t inclus dans ltude parce que
lappareil dcho-Doppler tait en panne. Ces exclusions doivent tre
indiques avec leur(s) raison(s) car elles peuvent entraner des biais
dans lanalyse des rsultats.
La priode sur laquelle a port ltude doit encore tre prcise. Les
rsultats peuvent diffrer si une tude a commenc en lanne 2005 ou
bien a t ralise partir de lanne 2010. En effet, des changements
parfois imperceptibles, de toute nature, ont pu survenir entre ces deux
priodes.
Les critres dinclusion et, le cas chant, dexclusion ayant t prciss,
il faut ensuite dcrire la population qui a t retenue dans ltude, par
exemple lge moyen (avec lintervalle de confiance ou les extrmes),
la rpartition entre hommes et femmes, etc. dans la mesure o ces l-
ments descriptifs peuvent avoir un intrt, cest--dire sont pertinents.
Des animaux
Dans un travail portant sur des animaux, il convient de prciser
lespce, la souche, lge, le sexe, le poids des animaux. Leur origine,
leurs conditions dlevage peuvent encore tre utiles connatre. Un
laboratoire avait cru dcouvrir une souche de chats sujette losto-
porose. Les rhumatologues avaient t trs intresss par ce modle
animal jusquau jour o ils se sont aperus que les animaux qui leur
taient fournis avaient une ostoporose due une malnutrition svre
avant leur arrive au laboratoire.
Des prlvements
Tout travail portant sur des chantillons doit indiquer sur qui le
prlvement a t ralis (tre humain ou animal) et sur quoi (tissu,
sang, scrtion, etc.). Dans certains travaux, il est encore nces-
saire de prciser la technique de prlvement elle-mme, ainsi que
les conditions ventuelles de conservation si lchantillon na pas
fait lobjet dun examen immdiat (conglation, fixation, milieu de
culture, etc.).
1 Matriel dtude clinique

Comment la population tudie a-t-elle t slectionne ?
Critres dinclusion
En fonction des sujets eux-mmes (ge, sexe, etc.).
En fonction de leur maladie.
Critres dexclusion
Nombre de sujets exclus.
Raisons de lexclusion.
Divers
Inclusions : conscutives, sinon pourquoi ?
Priode sur laquelle a port ltude ?
Consentement clair des sujets ayant t inclus dans une tude prospective.
Description de la population : ge, sexe, etc.

Une donne fondamentale concerne la manire dont les donnes
ont t recueillies :
dans le temps, en diffrenciant les tudes rtrospectives, transver-
sales, prospectives et longitudinales ;
dans lespace, en prcisant sil sagit dune tude unicentrique ou
multicentrique.
Dans le temps
Examen rtrospectif de donnes
Il est possible de faire un travail sur lexamen rtrospectif de donnes
recueillies avant la conception dune tude, par exemple sur des dos-
siers plus ou moins anciens. Linconvnient de ce type dtude est que,
par dfinition, le recueil des donnes na pas t tabli dans la perspec-
tive de la ralisation dun travail donn. De ce fait, certaines donnes
peuvent manquer pour quelques sujets ou ne pas tre pertinentes car
la technologie a volu pendant la priode dtude. Nanmoins, de
telles tudes, si elles sont bien faites, sont utiles pour la connaissance
de lhistoire naturelle de certaines maladies et sont presque indispen-
sables avant dlaborer des tudes prospectives.
tudes transversales
Les tudes transversales (cross-sectional en anglais) consistent
recueillir des observations une date donne. Elles servent le plus
souvent quantifier limportance dun problme de sant dans
une population donne. Rptes dans le temps et dans les mmes
conditions, elles permettent de suivre lvolution, par exemple de

survenue dinfections nosocomiales dans un tablissement hospitalier.
tudes prospectives
Les tudes prospectives recueillent les donnes au fur et mesure
de linclusion de nouveaux cas dans ltude. Elles limitent les inconv-
nients des tudes rtrospectives. Leur principal inconvnient est sou-
vent leur dure, qui dpend du rythme avec lequel il est possible de
raliser les inclusions.
tudes longitudinales
Les tudes longitudinales consistent suivre dans le temps des
cohortes de sujets, par exemple en pidmiologie, de sujets exposs et
non exposs un facteur de risque potentiel.
Dans lespace
Afin daugmenter le nombre de cas inclus dans une tude rtrospec-
tive ou de rduire le temps des inclusions dans une tude prospective,
il est possible de faire des tudes multicentriques, cest--dire menes
de faon concomitantes par plusieurs quipes diffrentes. Ces tudes
ont comme autre avantage llaboration de protocoles, discuts en
commun et qui doivent tre particulirement prcis. En contrepartie,
elles comportent un risque dhtrognit quil convient de rduire
le plus possible. Par exemple, dans un travail prospectif chirurgical
multicentrique dont lobjectif est de comparer deux techniques chirur-
gicales, il est ncessaire de dfinir avec une grande prcision les pro-
tocoles opratoires afin dassurer une bonne homognit dans leur
ralisation par les diffrents chirurgiens.
Un avantage majeur de ces tudes multicentriques, en pratique cli-
nique, est que, tant ralises par plusieurs participants, leurs conclu-
sions sont plus largement extrapolables que les rsultats dune tude
ralise dans un seul centre, trs spcialis, avec un petit nombre
doprateurs particulirement entrans.
Qui a fait quoi ?

Les tudes multicentriques posent, avec une particulire acuit, la
question de leur publication. Il convient, en effet, quil y ait un (ou
deux) matre(s) duvre qui est (ou sont) linvestigateur principal .
Celui-ci est, en gnral, lorigine de lide du travail, de llaboration
du projet de protocole, du suivi des inclusions et de leur validation

1 et, en fin dtude, du recueil des donnes et de la rdaction du texte
qui sera publi. Une partie de ces tches peut tre accomplie par des
assistants de recherche clinique. Mais les diffrents participants seront
dautant plus actifs quils nont pas de sentiment de frustration par
rapport cet investigateur. Pour ce faire, il y a tout intrt prciser,
ds llaboration du protocole, les rgles dventuelles publications et
de communications des congrs, du travail commun.
Il y a diffrentes faons de procder.
Lune consiste signer la publication sous le nom du groupe qui a
ralis ltude multicentrique ; par exemple Gastro-intestinal tumor
study group (GITS) ou Veteran administration (VA) ou Association
franaise de recherche en chirurgie (FRENCH), etc. Une note en bas
de premire page ou en fin darticle prcise alors le rle de chacun :
investigateur(s) principal(aux), participants par ordre alphabtique
ou par importance dcroissante de cas inclus dans ltude, autres
collaborateurs (statisticien, radiologue, anatomopathologiste, etc.).
Nanmoins, il est plus encourageant et plus motivant pour ceux qui
ont travaill le plus dtre mieux gratifis : linvestigateur principal
devient alors le premier signataire du travail, suivi des noms des quatre
ou cinq principaux participants, puis du sigle du groupe ; le nom et les
coordonnes des autres participants tant indiqus en note.
Signalons enfin que, dans le mme tat desprit, lAssociation univer-
sitaire de recherche en chirurgie (lAURC qui avait prcd FRENCH)
avait prvu que les rsultats dun travail commun ne pourraient tre
prsents dans un congrs international sous forme de communica-
tion orale plus de deux fois par un mme membre de lassociation afin
dviter que quiconque ne tire un profit personnel excessif dun travail
collectif.
Les statistiques
Les statistiques et les tests font lobjet des autres chapitres de cet
ouvrage. Ils doivent toujours tre prciss. En effet, des auteurs uti-
lisent parfois des logiciels danalyse et des tests statistiques inadapts
aux donnes quils ont recueillies et quils cherchent interprter.

Type dtude
Recueil des donnes : rtrospectif, transversal, prospectif, longitudinal.
Unicentrique, multicentrique.
Recherche exprimentale (essai randomis) ou observationnelle (transversale,
cohorte, cas-tmoin).
Statistique
Dans des comparaisons, seuil des risques accepts et nombre de sujets inclure.
Traitement de linformation.
Tests dinfrence statistique, etc.
Ce que lon a cherch valuer

Les travaux cliniques portent sur trois principaux types dvaluation.
Les valuations dun outil diagnostique

Les valuations dun outil diagnostique doivent prciser toutes
les donnes concernant cet outil , quil sagisse dun symptme, dun
signe clinique, dun examen radiologique, isotopique ou biologique.
Ainsi, dans une tude sur le diagnostic du pemphigus mdicamen-
teux par un immunomarquage, il convient de prciser la technique de
limmunomarquage et de fabrication des ractifs qui ont t utiliss.
Sil sagit dun examen radiologique, le type dappareil et la rfrence
du fabricant doivent tre indiqus, les appareils et leurs performances
voluant avec les progrs technologiques.
La dfinition de la normalit nest pas toujours vidente et mrite tou-
jours dtre prcise. Par exemple, deux tudes sur la valeur des signes
biologiques anormaux dans le diagnostic de mtastases hpatiques
ont montr des rsultats assez diffrents. En fait, ces diffrences sexpli-
quaient par la raison suivante : dans une tude, les valeurs considres
comme anormales taient celles indiques par le laboratoire [2], alors
que dans lautre tude, le rsultat tait considr comme anormal sil
tait suprieur la valeur moyenne plus deux carts types chez les sujets
inclus dans ltude et qui navaient pas de mtastases hpatiques [3].
Les valuations thrapeutiques

Les valuations thrapeutiques sont assez faciles prciser pour un
mdicament : posologie, mode dadministration, horaires de prise. Le
maximum de difficults se rencontre dans la description et la ralisa-
tion des actes techniques dans une tude multicentrique pour assurer
une homognit dans la ralisation de ce que lon cherche valuer.
Par exemple, dans une tude multicentrique nerlandaise sur le curage
ganglionnaire dans le cancer de lestomac, outre le protocole crit,
les chirurgiens disposaient dun film sur la technique quils devaient
appliquer [4]. De plus, les premiers malades que chaque chirurgien

1 oprait ntaient pas inclus dans ltude pour viter une htrognit
lie ce que lon appelle la courbe dapprentissage . Dans ce type
dtude, il nen reste pas moins que certains malades sont oprs par
des chirurgiens qui sont de meilleurs oprateurs que dautres. Les
consquences de ces facteurs dhtrognit, appels effet centre
ou effet oprateur , doivent tre contrles en fin dtude.
Les facteurs de pronostic et les facteurs de risque

Un troisime type dtudes concerne les facteurs de pronostic et les
facteurs de risque. Il peut sagir dtudes cliniques cherchant valuer
des covariables qui sont lies un bon ou un mauvais pronostic. Il
peut encore sagir dtudes pidmiologiques concernant des facteurs
de risque dapparition dune maladie. Dans une tude pidmiolo-
gique sur les causes dobsit, par exemple, il est ncessaire de prciser
les variables qui sont tudies et la manire dont elles sont mesures :
alimentaires, comportementales, gntiques, etc.
Ce que lon cherche valuer

Un outil diagnostique qui peut tre un symptme, un signe clinique, un examen
biologique, un examen radiologique, etc.
Un traitement qui peut tre mdical, chirurgical, par des agents physiques, etc.
Un facteur de pronostic dune maladie ou un facteur de risque dapparition dune
maladie, etc.
Critres de jugement
Assez curieusement, cette dernire partie du chapitre Matriel et
mthodes dun travail et plus encore dun projet de recherche est
parfois lacunaire, alors quelle devrait tre aussi prcise que les autre
parties de ce chapitre [5].
Les critres de jugement diffrent selon ce que lon a cherch valuer.
Si lvaluation a port sur la valeur dun outil diagnostique, le
critre de jugement est la prsence ou labsence de maladie dans la
population sur laquelle cette valuation a port. En fait, ce rfrentiel
externe , cet examen de certitude, ce gold standard, nest pas toujours
vident. Si lon cherche estimer la valeur du Pet-Scan dans le dia-
gnostic de mtastases hpatiques, il faut savoir comment le diagnos-
tic de mtastases a t fait et surtout comment on a pu dterminer
quil ny avait pas de mtastases ? En effet, une tumeur bnigne peut
simuler une mtastase et des mtastases de moins de quelques mil-

limtres peuvent chapper tout autre examen morphologique que
celui qui est test. En revanche, si lon prcise que les mtastases ont
t reconnues par un examen anatomopathologique et que labsence
de mtastases a t confirme avec un recul minimal de six mois, les
choses deviennent plus convaincantes.
Dans un essai thrapeutique, le critre de jugement sera la survie ou le
dcs, la gurison ou la poursuite de la maladie, la rcidive ou non, la
dure dhospitalisation, etc. Mais sil sagit dune mortalit postopra-
toire, par exemple, sagit-il de la mortalit au cours de lhospitalisation
qui suit lintervention chirurgicale, mme si elle survient deux mois et
demi aprs, parce que le malade a fait des complications ou bien de la
mortalit dans le mois qui a suivi cette intervention, mme si lopr
est sorti de lhpital ? Rien nest simple. Tout doit tre prcis. Bien
souvent, les critres de jugement sont multiples. Dans une chimio-
thrapie pour tumeur solide, ce sera la survie, la rgression tumorale
(comment la-t-on mesure ?), les contreparties hmatologiques, diges-
tives, la qualit de vie. Dans cet ensemble, il convient de distinguer le
critre de jugement principal qui permettra finalement de conclure
lefficacit ou non de lintervention thrapeutique, des autres critres
de jugement. Cest encore partir du critre de jugement principal
que lon estime leffectif des sujets quil est ncessaire dinclure dans
ltude pour limiter le risque de deuxime espce (cf. p. 92). Au bout
du compte, la dcision sera parfois difficile prendre. Si une chimio-
thrapie nouvelle par rapport une chimiothrapie de rfrence
fait gagner une dure mdiane de survie de cinq semaines au prix
dune mauvaise tolrance, exprime par un pourcentage plus lev de
vomissements ou de leucopnies et dune moins bonne qualit de vie,
apprcie sur des critres prcis, sera-t-il judicieux de proposer ou non
un tel traitement au malade ? videmment, un abord purement tho-
rique du problme serait dexpliquer les avantages et les inconvnients
au malade. Mais est-il psychologiquement souhaitable de lui faire part
de la gravit du pronostic dautant plus, comme nous le verrons, que
ce pronostic ne fait quexprimer des probabilits ? Enfin, si des tudes
montrent quaprs tel type dinfarctus du myocarde, les probabilits
de survie cinq ans taient de 60 %, il est impossible de prdire chez
un malade dtermin sil sera dans les 60 % de survivants ou dans les
40 % de patients qui vont dcder.
Dans ltude dun facteur de risque, le critre de jugement sera le
risque quil convient de dfinir clairement ainsi que les donnes sur
lesquelles lapparition ou labsence de survenue du risque ont t ta-
blies. Si ce facteur de risque concerne le pronostic dune maladie, le
critre de jugement sera la gurison, la survie ou bien, au contraire, le
dcs, la rcidive.
1 Les critres de jugement

Dans un outil diagnostique : le rfrentiel externe.
Pour un traitement : la gurison, la survie, la rcidive, etc. sans oublier les
contreparties du traitement.
Il convient de bien distinguer :
le critre de jugement principal ;
les critres de jugement secondaires.
Pour un facteur de risque : dans un pronostic : la survie, la rcidive, etc. En
pidmiologie, la survenue ou non dune maladie.
Rfrences
1. Mackie CR, Wood RAB, Preece PE, Cushieri A (1995) A surgical pathology at
early elective operation for suspected acute gallstone pancreatitis: preliminary
report of a prospective clinical trial. Br J Surg 72: 179-81
2. Adloff M, Arnaud JP (1985) tude prospective critique des diffrentes mthodes
de dtection des mtastases hpatiques. Ann Gastroenterol Hepatol 21: 31-4
3. Molkhou JM, Lacaine F, Houry S, Huguier M (1989) Dpistage des mtastases
hpatiques des cancers digestifs. Place des dosages enzymatiques et de
lchographie. Presse Med 18: 1370-4
4. Bonenkamp JJ, Hermans J, Sasako M, et al. (1999) Extended lymph-node
dissection for gastric cancer. N Engl J Med 340: 908-14
5. Chan AW, Altman DG (2005) Identifying outcomes reporting bias in randomised
trials on PubMed : review of publications and survey of authors. BMJ 330: 753
Les variables qualitatives
2
Il existe plusieurs sortes de variables qualitatives (tableau I).
Tableau I Les variables qualitatives.

Exemples
deux modalits (ou dichotomiques)
Vomissement : Oui/Non.
Infection urinaire : Oui/Non.
plusieurs modalits
Ordonnes. Indice de masse corporelle*
entre 18,5 et 24,9 (normal) :
de 25 29 (surpoids) ;
de 30 35,9 (obsit) ;
40 (obsit svre).
Non ordonnes. Infarctus du myocarde
antrieur :
antro-septal ;
postrieur.
* Lindice de masse corporelle, chez ladulte, est gal au poids en kilogrammes divis par le carr
de la taille en mtres (il existe des corrections chez lenfant en fonction de lge).
Les variables qualitatives sont dites ordonnes sil existe un ordre

naturel des modalits. Par exemple, dans un cancer de lestomac, lexis-
tence dun envahissement ou non de la muqueuse, de la musculeuse,
de la sreuse ou au-del de la sreuse. Un autre exemple est le score
METAVIR dans les hpatites chroniques [1].
Les variables qualitatives ne sont pas ordonnes sil ny a pas de relation
dordre entre elles comme dans lexemple du tableau I sur linfarctus
du myocarde.
Mesure
Dans un chantillon, par exemple chez un groupe de patients,
une variable qualitative se mesure, comme chacun sait, par un pour-
centage : sur 76 enfants, si huit ont eu la rougeole, le pourcentage

denfants ayant eu la rougeole est de huit sur 76, soit 10,5 % que lon
2 peut encore crire 0,105.
En fait, ce pourcentage a t estim sur cet chantillon de 76 enfants. Il
est probable que, sur un autre groupe denfants, on aurait observ un
pourcentage diffrent. Si lon faisait des mesures sur un grand nombre
dchantillons, les valeurs des pourcentages observs se rpartiraient
selon une loi normale (cf. p. 17). Ces variations destimation de pour-
centages dun chantillon lautre suggrent de rapporter aussi lin-
tervalle de confiance (confidence interval en anglais) qui donne une
fourchette dans laquelle, partir dune mesure sur un chantillon, on
estime que se situe la ralit. En gnral, cette fourchette est estime
de telle sorte quil y ait 95 chances sur 100 pour que la ralit se situe
dans ses limites. Cest la couverture de lintervalle de confiance
(tableau II). On peut dire aussi que cet intervalle est au risque de
5 % ; cest--dire quil y a 5 % de risque que la ralit se situe en
dehors des limites de la fourchette qui a t estime.
Tableau II Lintervalle de confiance (approximation de la loi normale).

Exemple : sur un chantillon de 76 enfants, huit ont eu la rougeole (10,5 %).
p reprsente la proportion observe dans lchantillon (dans notre exemple 10,5 %
ou 0,105).
q est le complment 1 p (soit 89,5 % ou 0,895).
n est leffectif de lchantillon (ici 76).
zD est un coefficient dont la valeur dpend de lintervalle de confiance que lon
souhaite calculer. Pour un intervalle de confiance 95 %, la valeur de zD est de 1,96.
Lintervalle de confiance (1 D)% (IC ; confidence interval ou CI en anglais) se
calcule ainsi :
IC = p r zD p u q
n
soit dans notre exemple :

0,105 u 0,895
IC = 0,105 1,96 = 0,105 0,069
76
La valeur 0,069 reprsente la prcision de lintervalle de confiance.
partir du pourcentage observ dans lchantillon observ, lintervalle de
confiance 95 % se situe donc entre (0,105 0,069), soit 0,036 et (0,105 + 0,069),
soit 0,174.
Les valeurs de lintervalle de confiance sexpriment alors ainsi : IC = [0,036 ; 0,174].
Quelques remarques
Pour tre valide, cette approximation par la loi normale ncessite
que np et nq soient t 5.
Les variables qualitatives 21
On devine intuitivement que, plus lchantillon est important (dans

la formule du tableau II, le n du dnominateur), plus lintervalle de
confiance est petit, et rciproquement.
Si lon souhaitait avoir une estimation de lintervalle de confiance avec
une probabilit suprieure 95 %, par exemple 99 %, le coefficient z
serait diffrent ; en loccurrence, plus lev (2,575) ; inversement, si
lon souhaitait se donner, par exemple, seulement 90 % de chances que
lintervalle de confiance contienne le vrai pourcentage, il serait moins
lev : 1,645 (tableau III).
Tableau III Valeurs du coefficient zD en fonction de la probabilit

que lon souhaite se donner pour le calcul de lintervalle de confiance.
Probabilit souhaite 90 % 95 % 99 % 99,5 % 99,9 %
Valeurs du coefficient za 1,645 1,960 2,576 2,807 3,291
Dans tout travail faisant tat de variables qualitatives, mesures par

un pourcentage de leur prsence dans lchantillon tudi, ce dernier
doit tre assorti de son intervalle de confiance 95 %. On saperoit
alors, bien souvent, quune ou des dcimales dans lexpression dun
pourcentage sont drisoires. Ces dcimales suggrent que les auteurs
nont gure rflchi la notion dintervalle de confiance. Dans notre
exemple de rougeole, la dcimale du pourcentage observ, 10,5 %, est
drisoire par rapport ltendue de lintervalle de confiance qui va de
4 % (trs prcisment 3,6 %) 17 % (trs prcisment 17,4 %), ce qui
suggre que lon aurait pu arrondir 11 %.
On se rend encore compte que, pour un mme nombre de cas tudis
(n), plus les pourcentages se rapprochent de 50 %, plus pq est grand et
plus lintervalle de confiance est important. Dans les sondages dopi-
nion qui, pour des raisons de cot, portent sur environ un millier de
personnes, si le nombre dopinions en faveur de A est de lordre de
45 % (et en faveur de B de 55 %), la prcision est de lordre de 3 % et
IC = [42 ; 48].
Rfrence
1. The French METAVIR cooperative study group (1994) Intraobserver and
interobserver variations in liver biopsy interpretation in patients with chronic
hepatitis C. Hepatology 20: 15-20
Les variables quantitatives
3
Comme leur nom lindique, les variables quantitatives servent

reprsenter des quantits. Ces variables, lorsquelles prennent des
valeurs relles, cest--dire correspondent un continuum de valeurs
exprimes avec des dcimales, comme le poids en kilogrammes
(63,38 kg), la taille en mtres (1,76 m) sont appeles des variables
continues1. Entre deux valeurs proches lune de lautre, il peut toujours
en exister une troisime.
Si des variables quantitatives ont des valeurs entires comme lge en
annes, un nombre de journes dhospitalisation ou, chez un malade
qui a de la diarrhe, le nombre de selles par 24 heures, ces variables
sont appeles discrtes.
Les variables quantitatives. Exemples
Variables continues : cratinmie en micromoles par litre exprime avec dcimales.
Variables discrtes : nombre de grossesses.
Variables continues. Distributions.

Reprsentations graphiques
Distribution
La distribution des variables continues suit, souvent, une courbe en
cloche. La loi normale, au sens biostatistique du terme, encore appele
loi de Laplace-Gauss2 peut alors tre utilise. Il y a dautres lois pour
1 Rappelons ce propos 1) que les abrviations internationales des units de mesure ne peuvent tre
utilises quaprs un nombre ; 2) quelles doivent tre crites en lettres minuscules avec quelques
exceptions, (IC pour intervalle de conance, DS pour dviation standard, L pour litre, Gy pour Gray,
Pa pour Pascal) ; 3) quelles sont invariables ; 4) et que labrviation de minutes est min et non mn
comme on le voit crit trop souvent.
2 Pierre-Simon, marquis de Laplace (1749-1817) tait un mathmaticien, physicien et astronome
franais. Carl Friedrich Gauss (1777-1865) exerait dans les mmes disciplines et tait allemand.

variables continues, comme la loi log-normale qui est souvent appro-

3 prie pour les dosages biologiques, ou la loi de Weibull pour la survie.
La distribution des variables quantitatives discrtes peut se rapprocher
dune distribution normale, mais, par dfinition, elles suivent des lois
pour variables discrtes comme la loi binomiale ou la loi de Poisson3.
Reprsentation et mesure
Si lon veut reprsenter les valeurs dune variable quantitative conti-
nue en portant en abscisse des valeurs de la variable (par exemple le
taux sanguin dacide urique srique pour 100 mL chez des sujets sains)
et en ordonnes le nombre de sujets qui ont une valeur donne de ce
taux dacide urique, on obtiendrait ce que montre la figure 1. En effet,
la probabilit davoir exactement la mme valeur chez deux sujets
est faible. Elle serait mme nulle si lon tait capable de mesurer les
valeurs avec une prcision aussi grande que possible. Cest, du reste, ce
qui dfinit une variable quantitative continue. En pratique, on calcule
plutt un tableau de frquence (ou de distribution) en comptant les
valeurs dans des classes de mme largeur comme le montre le tableau I.
Tableau I Distribution de la concentration dacide urique srique

chez 267 hommes sains [1].
Taux dacide Frquences
Frquence
urique Nombre de sujets relatives
relative
(mg/100 mL) cumules (%)
3,0 3,4 2 0,8 0,8
3,5 3,9 15 5,6 6,4
4,0 4,4 33 12,3 18,7
4,5 4,9 40 15,0 33,7
5,0 5,4 54 20,2 53,9
5,5 5,9 47 17,6 71,5
6,0 6,4 38 14,2 85,8
6,5 6,9 16 6,0 91,8
7,0 7,4 15 5,6 97,4
7,5 7,9 3 1,1 98,5
8,1 8,4 1 0,4 98,9
8,5 8,9 3 1,1 100,0
3 Simon Poisson (1781-1840) tait un mathmaticien franais.
Les variables quantitatives 25
Fig. 1 Reprsentation graphique dune variable quantitative continue dite

rug-plot .
Les valeurs observes peuvent alors tre reprsentes sous forme

dhistogramme (fig. 2).
Fig. 2 Histogramme reprsentant la distribution des concentrations de lacide

urique srique dans une population de 267 hommes sains (daprs Morton
et al. [1]).
Certains histogrammes sont parfois reprsents avec des largeurs de

colonnes qui diffrent dune colonne lautre (fig. 3). Dans ce cas,
cest la surface de la colonne qui doit correspondre leffectif du sous-
groupe reprsent, et non sa hauteur. Dans la figure 3, la premire
colonne correspond deux malades qui ont entre 20 ans et 40 ans, la
seconde trois malades qui ont entre 40 ans et 50 ans, la troisime
colonne quatre malades et la dernire colonne quatre malades.
Fig. 3 Histogramme avec des largeurs de colonnes diffrentes : les effectifs

correspondent la surface de la colonne et non sa hauteur. Il y a deux sujets
correspondant la premire colonne, trois dans le deuxime, quatre dans la
troisime, et quatre dans la quatrime.
Il est encore possible de faire une courbe de frquences relatives

cumules dont les valeurs sont indiques dans la dernire colonne
du tableau I (fig. 4). Cest ce que lon appelle la fonction de rpar-
tition. Dans cette courbe, laxe des abscisses reprsente les valeurs de
la variable tudie, et laxe des ordonnes correspond au nombre de
cas cumuls. La valeur correspondant 50 % des frquences relatives
cumules (encore appele le 50e percentile) est la valeur mdiane dans
cette population.
Fig. 4 Frquences relatives cumules (encore appeles fonction de rpar-

tition) des concentrations de lacide urique srique dans une population de
267 hommes sains (daprs Morton et al. [1]).
Dans la figure 2 des histogrammes en fonction du taux dacide urique,

si lon avait fait des mesures sur plusieurs milliers de sujets et que lon
avait pris des largeurs de colonnes correspondant non pas des carts
de 0,5 mg/100 mL dacide urique, mais de 0,1 mg/100 mL, on aurait eu
une figure qui se rapprocherait dune courbe de Laplace-Gauss (fig. 5).
Fig. 5 Courbe de Laplace-Gauss. Distribution normale et pourcentages de la

population sous la courbe (aires sous la courbe).
Mesures descriptives. La loi normale (Laplace-Gauss)

Il existe plusieurs outils de mesures descriptives des variables
quantitatives.
La moyenne (mean en anglais)

La moyenne arithmtique (dsigne par la lettre m) de plusieurs
variables quantitatives est gale la somme des valeurs observes divi-
se par le nombre de mesures qui ont t faites (tableau II).
Tableau II La moyenne arithmtique m.
m= xi n
o :
m est la moyenne (dans notre exemple 7 mois) ;
xi sont les valeurs observes chez chaque sujet (dans notre exemple 8, 10, 5, etc.) ;
n est le nombre de sujets tudis (dans notre exemple 10).
Si, sur dix malades atteints dun cancer de trs mauvais pronostic, les
dures de survie en mois sont de 8, 10, 5, 12, 5, 4, 7, 6, 8 et 5 mois, la
dure moyenne de survie de ce groupe de malade est de :
8 10 5 12 5 4 7 6 8 5
3 = 7 mois.
10
Si leffectif de lchantillon est faible, comme dans cet exemple, il suffit
dun vnement inusuel pour changer notablement la moyenne. Par
exemple, si la dure de vie du dernier malade avait t de 35 mois
au lieu de 5 mois, le calcul montre que la dure moyenne de survie
serait de 10 mois au lieu de 7 mois. Il convient ainsi de se mfier dun
rsultat exprim par une moyenne lorsque le nombre de mesures qui
a permis son calcul est petit.
Un autre inconvnient de la moyenne est quil faut attendre que tout
ce que lon cherche mesurer puisse ltre, cest--dire la survenue
du dernier lment : dans notre exemple, il faut attendre que tous les
malades soient dcds pour pouvoir calculer la dure moyenne de
survie de cette population.
La mdiane
La mdiane est la valeur pour laquelle 50 % des mesures sont

plus grandes et 50 % plus petites. Dans lexemple qui a t pris, la
mdiane est la valeur observe entre le 5e et le 6e malade, cest--dire
entre 6 mois et 7 mois (par convention, cest la moyenne de ces deux
valeurs, soit 6,5 mois lorsque lon a un nombre pair dobservations).
Lorsque la distribution des valeurs est normale (courbe de Laplace-
Gauss), la mdiane et la moyenne se confondent (fig. 5).
La mdiane a lavantage sur la moyenne de pouvoir tre estime
sans attendre que tous les vnements se soient produits : dans notre
exemple, il suffirait que la moiti des malades soient dcds.
La variance et lcart-type (standard deviation en anglais, SD)
La variance mesure la dispersion de la distribution des valeurs

autour de la moyenne (et ceci, aussi bien dans la loi de Laplace-Gauss
que dans la loi binomiale ou que dans la loi de Poisson) (tableau III).
Elle est dsigne par s.
Lcart-type est la racine carre de la variance. Il est encore appel
dviation standard et dsigne par la lettre s. De mme que pour la
variance, un cart-type faible signifie que les valeurs observes sont
peu disperses autour de la moyenne. Inversement, un grand cart-
type traduit une dispersion importante (fig. 6).
Fig. 6 Courbes de Laplace-Gauss pour des valeurs diffrentes dcarts-types (V).
Tableau III Variance et cart-type.
Pour chaque valeur observe (x), il est possible de calculer la diffrence ou cart (d)
avec la moyenne (m) : d = x m. Lestimation de la variance (s) est la moyenne des
carrs des carts autour de la moyenne.
2 x
2
x m ou d ou encore x
2 2
Variance s 2 n
n 1 n 1 n 1
Lcart-type est la racine carre de la variance : s = s2 .
La moyenne plus ou moins s englobe 68,26 % de la population (fig. 5).

La moyenne plus ou moins 1,96 u s, 95 % de la population4. Les deux
paramtres que sont la moyenne et lcart-type (ou la variance) suf-
fisent caractriser la loi de probabilit de distribution des valeurs qui
suivent une loi normale.
La valeur de lcart-type s ne dpend pas de la taille de lchantillon
contrairement lerreur standard de la moyenne (standard error of the
mean SEM). Cette dernire est gale s n .
Moyenne et mdiane
Comme il est dit plus haut, lorsquune distribution est symtrique,
sa moyenne et sa mdiane sont confondues. Dans le cas contraire,
on peut trouver des exemples comme dans la figure 7, o mdiane
semblable correspondent des moyennes diffrentes et vice-versa.
4 Si lon arrondi 1,96 2, lintervalle englobe 95,44 % de la population.
Moyenne et mdiane sont deux outils de mesure qui permettent de

3 communiquer de manire simple quelle est la valeur typique dune
observation. La moyenne est un bon outil descriptif lorsque la distri-
bution des valeurs est symtrique. Dans les autres cas, on pourra pr-
frer la mdiane. Cette apprciation est cependant avant tout visuelle.
Mais souvent les deux quantits donneront raisonnablement la mme
ide des donnes, comme une mdiane de survie de 4 mois ou une
dure moyenne de survie de 5 mois.
Fig. 7 Exemples montrant que des courbes de survie diffrentes peuvent avoir
la mme mdiane de survie et que des survies assez similaires peuvent avoir des
mdianes diffrentes.
La loi de Laplace-Gauss permet destimer des probabilits comme

lindique le tableau ci-dessous.
Loi de Laplace-Gauss
x P
2
1
p(x ) e 2 V2
2SV
p(x) est la probabilit dobserver une valeur dans un intervalle infinitsimal autour de x.
V est lcart-type.
est la moyenne arithmtique.
Rappelons que e indique une exponentielle.
Dans une distribution normale, les valeurs sont symtriques par rap-
port la moyenne (). On dit encore que la distribution est rduite si
sa variance est gale 1 et quelle est centre si sa moyenne est gale
0. Dans une distribution centre, rduite, les probabilits sont donc
dfinies par la formule simplifie :
Loi de Laplace-Gauss (distribution centre rduite)

x2
1 2
p(x ) e
2S
En pratique, on peut estimer la probabilit dvnements au-dessus ou

au-dessous dune valeur, en calculant lcart rduit z, en divisant son
cart par rapport la moyenne, par lcart type V, puis en rapportant
la valeur calcule z0 une table qui donne cette probabilit (tableau IV).
Loi standardise
(x P)
z
V
V indique la vraie valeur de lcart-type.
Tableau IV Table de la loi normale rduite.

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
3 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
Par exemple, si la distribution dune valeur biologique normale (poids

dun nouveau-n) a une moyenne de 3,3 kg et un cart-type de 0,5,
la probabilit que des valeurs se situent au-dessous de 2,5 kg donne
z gal 2,5 3,3/0,5, soit 1,6. On cherche cette valeur (au signe prs)
dans la premire colonne et ligne du tableau IV, en dcomposant en
dcimale (ici 1,6) et centsimale (ici 0,00). lintersection se trouve
la valeur 0,9452 qui donne la probabilit quune loi normale centre
soit infrieure 1,6. En exploitant la symtrie de la loi normale, on en
dduit quil y avait 1 0,9452 = 0,055 soit 5,5 % de chances dobserver
une valeur plus petite que 1,6 et donc un poids infrieur 2,5 kg ;
autrement dit, que cet enfant est au 5e percentile des poids de nais-
sance. Si lon voulait estimer la probabilit que des valeurs se situent
entre 2,5 et 3,0 kg, ce qui peut sexprimer par p (2,5 d x d 3). De mme
que nous avons fait le calcul pour un poids de 2,5 kg, le calcul pour un
poids de 3 kg donne (3,0 3,3)/0,5, soit 0,6. Comme prcdemment,
le tableau IV donne la probabilit davoir une valeur infrieure 3 de
1 0,725 La probabilit que le poids se situe entre 2,5 kg et 3 kg est
donc de 0,945 0,725, soit 0,220 ou 22 %.
Des calculs similaires pourraient tre faits pour toutes les variables
quantitatives continues, des examens biologiques par exemple, qui
suivent une loi normale.
La loi binomiale
Lorsque la variable dintrt compte un nombre de succs parmi
n tentatives semblables, il sagit dune variable binomiale. Cest, par
exemple, dans des familles de deux enfants dont les parents ont une
anomalie gntique autosomique rcessive, le cas de distribution des
tares observes chez les enfants, certains enfants ayant la tare, dautres
non. Dans certaines familles, les deux enfants peuvent ne pas avoir
hrit de la tare. Dans dautres familles, ce sera un enfant, dans dautres
encore les deux enfants. Lexpression graphique dune loi binomiale est
celle dun diagramme en btons (fig. 8). Il est possible de calculer la
moyenne et lcart-type dune distribution binomiale. En revanche, ces
deux paramtres, contrairement ce que nous avons indiqu pour la
loi normale, ne suffisent pas dcrire une distribution binomiale.
Fig. 8 Expression graphique dune distribution de variables quantitatives

discontinues qui suivent une loi binomiale.
Exemple
Lutilit de la loi binomiale est, comme toute loi de distribution,
de permettre le calcul des probabilits. Elle sert aussi laborer des
tests statistiques exacts pour des variables qualitatives comme le test de
Fisher (cf. page 84). Cette utilisation fait appel deux notions : celle de
factorielle et celle de combinatoire.
La factorielle dun nombre est le rsultat de la multiplication de tous
les nombres entiers gaux et infrieurs ce nombre. Par exemple, la
factorielle de 6 est gale 6 u 5 u 4 u 3 u 2 u 1, soit 720. Ceci scrit
6 ! = 720, le ! signifiant factorielle . Par convention, 0 ! = 1.
Une combinatoire (C) est le nombre de faons davoir k vnements,
parmi n. Cela scrit C kn 5. Par exemple, dans le Tournoi de rugby
des six nations reprsentes par lcosse, le pays de Galles, lAngle-
terre, lIrlande, la France, et lItalie, les quipes jouant deux deux
lune contre lautre (k), la combinatoire C kn est le nombre de matchs
ncessaire pour que chacune des six quipes (n = 6) rencontre cha-
cune des autres quipes (k = 2). Cela peut se calculer assez facile-
ment dans notre exemple, mais devient dautant plus difficile que le
nombre dvnements est important. La formule est donne dans le
tableau V.
5 On note plutt actuellement une combinatoire en la faisant gurer entre parenthses : (nk).
Tableau V Formule gnrale dune combinatoire

3 et exemple avec le Tournoi de rugby des six nations.
n
C kn , soit dans notre exemple :
k !(n k )
6! 6 u 5 u 4 u 3 u 2 u 1 720
15
2 !(6 2) 2 u 1(4 u 3 u 2 u 1) 48
Dans le Tournoi des six nations, il est donc ncessaire dorganiser

15 matchs pour que chaque quipe rencontre lautre.
Voyons maintenant un exemple dapplication de la loi binomiale. Sup-
posons quun examen soit dot de valeurs normales qui corres-
pondent 95 % de la population saine, en bonne sant. Ces limites
nincluant que 95 % (q) des sujets normaux, les 5 % (p) restants
auront une valeur hors de ces limites. Si on fait plusieurs examens (n)
indpendants entre eux un sujet normal, la loi binomiale permet
de calculer la probabilit que k de ces examens soient anormaux ,
cest--dire sortent de la fourchette des 95 % (tableau VI).
Tableau VI Exemple dapplication de la loi binomiale.
Les donnes
Les seuils adopts dans un examen biologique nincluent que 95 % des valeurs des
sujets sains (p) et 5 % des examens ont un rsultat qui sort des valeurs considres
comme normales (p = 1 q).
Si lon ralise cinq examens biologiques (n = 5) indpendants (non lis entre eux)
chez un sujet normal, la probabilit que lun de ces examens soit anormal (k = 1)
peut tre estime par la loi binomiale.
Lapplication de la loi binomiale donne le rsultat :
p (X = k) = C kn p k qn, soit : C51 p1 q5, ce qui donne : C51 0,051 0,955 = 0,19.
Cet exemple montre que si lon demande cinq examens biologiques

indpendants, dont les valeurs normales correspondent 95 % des
cas, il y a 19 % de chances que le rsultat de lun de ces cinq examens
soit apparemment anormal . Il serait facile de dmontrer que si
lon demandait, non plus cinq, mais dix examens indpendants entre
eux, la probabilit que lun dentre eux soit apparemment anormal
slverait 30 %. Cela prouve labsurdit de ces bilans qui sont trop
souvent demands en pratique, notamment hospitalire, ou qui sont
raliss au nom de la facilit de leurs dosages. Cette notion biostatis-
tique montre, a contrario, que des examens biologiques doivent tre
demands en fonction dhypothses cliniques pralablement formules
afin den rduire le nombre et partant, le risque de ces faux positifs .
La loi binomiale tant moins connue et moins utilise que la loi de

Laplace-Gauss, nous en donnons un autre exemple dapplication : sup-
posons quun traitement anticancreux de rfrence soit connu pour
sa neurotoxicit : 10 % des malades traits dveloppent une neuropa-
thie priphrique. Supposons quun autre traitement, de mme effica-
cit, ait t mis au point, et que lon espre cet autre traitement moins
neurotoxique que le traitement de rfrence. Si lon traite 50 malades
avec ce nouveau mdicament, dans les mmes conditions que le trai-
tement de rfrence, et quil napparat aucun cas de neurotoxicit, il
convient dinterprter ce rsultat. Cest ce que permet la loi binomiale.
En effet, le nombre de cas de neuropathie peut tre dcrit par une
variable alatoire X qui suit une loi binomiale, car on compte le nombre
de malades qui nont pas eu de neuropathies (k), et ceux qui auraient eu
une neuropathie (n k), zro dans notre exemple, chaque malade ayant
la mme probabilit (p) davoir une neuropathie. On peut, grce la loi
binomiale, calculer la probabilit que lon aurait eue, avec lanticanc-
reux de rfrence, dobserver sur 50 malades (n), k cas de neuropathie.
Cette probabilit scrit on la vu (tableau VI), P(X = k) = C kn u p k u qn
o k est le nombre de cas observs (zro dans notre exemple).
Le calcul donne :
p(X = 0) = C 500 . 0,10 . 0,950, soit 0,005.
Autrement dit, avec le traitement de rfrence, il ny avait que cinq
chances sur 1 000 de nobserver aucune neuropathie sur les 50 malades
traits. On pourra donc penser que le nouveau traitement ne donne
pas autant de neuropathies que le traitement de rfrence. Comme on
le verra, on a en fait bti ici un test statistique non paramtrique exact,
dont on reverra les principes ultrieurement (cf. page 84).
Lorsque la taille dune population dans laquelle on mesure une variable
quantitative discontinue est suffisante (en pratique ds que np et nq
sont > 5), on peut faire lapproximation que la distribution se rap-
proche dune loi normale et la probabilit en est grande, ce qui simpli-
fie les calculs et permet dutiliser des tests paramtriques (cf. page 84)
dans les comparaisons.
La loi de Poisson
La loi de Poisson est, elle aussi, utilise pour des variables discrtes.
Son application la plus courante est lapproximation de la loi binomiale
lorsque les vnements sont rares et lchantillon suffisamment grand.
La formule gnrale en est :
Ok O
p(X k) e
k!
o O est le paramtre de la loi de Poisson. Il est gal la moyenne de X

3 ainsi qu sa variance (la moyenne et la variance tant gales dans la loi de
Poisson). Si la loi de Poisson est utilise en approximation de la loi bino-
miale, on a O = n . p ; n tant leffectif de la population tudie et p la
probabilit de survenue de lvnement, e est la fonction exponentielle.
Dans notre exemple concernant les examens biologiques (tableau VI),
n tait gal 5, p tait gal 5 %. On a donc (tableau VII) :
Tableau VII Exemple dapplication de la loi de Poisson

en reprenant les donnes du tableau VI.
Ok O (5 u 0,05)1 0,25
p(X k) e ue 0,25 u 0,78 0,195
k! 1!
La probabilit que lon a calcule avec la loi de Poisson est trs proche
de celle calcule avec la loi binomiale qui tait de 0,19. On peut en
effet dmontrer que lorsque p est suffisamment petit devant n, la loi de
Poisson se rapproche de la loi binomiale. La loi de Poisson a lavantage
dtre mathmatiquement plus simple que la loi binomiale.
Autre illustration, dans notre exemple concernant le risque de neuro-
pathie, on aurait :
50 5
p(X 0) e 1u 7 10 3 0,007.
0!
Un autre exemple dutilisation de la loi de Poisson est celui du comptage
des colonies dans une boit de Ptri. Si une suspension bactrienne
contient 5 000 bactries par litre et que lon ensemence une bote de
Ptri partir de cette suspension, raison de 1 cm3 de solution, la
probabilit quil ny ait pas de colonie ensemence est :
50 5
p(X 0) e
0!
et la probabilit quil y ait au moins une colonie par bote de Ptri est de :
P(X > 0) = 1 P(X = 0) = 1 0,0067 = 0,9933.
Rfrence
1. Morton RF, Hebel JR (1990) pidmiologie et biostatistique. Une introduction
programme. Doin, Paris, p 68-9
Les variables censures
4
La censure intervient lorsque lon nobserve pas exactement la valeur

de la variable laquelle on sintresse. Lexemple type est celui de la survie,
ce qui requiert la survenue de lvnement dcs . Par extension, cette
notion de dcs peut sappliquer tout vnement non rcurrent
qui survient dans le temps, par exemple, lapparition dune rcidive
ou dune mtastase dans un cancer. La notion de survie sapplique
alors au temps coul sans lapparition dune rcidive ou dune mta-
stase. Les courbes qui en rsultent dcroissent avec le temps, comme une
courbe de survie. Nanmoins, on a plus souvent tendance faire figurer
les taux de rcidives ou dapparition dun vnement pathologique, par
une courbe croissante, ces taux ntant que le complment des taux sans
rcidives. Ces courbes croissantes dincidences cumules sont galement
appropries lorsque lon sintresse une cause de mortalit, mais quil
peut y avoir dautres causes (mortalits comptitives).
Les notions de temps jusqu lvnement ncessitent la dfinition
dun temps zro (date dorigine) qui correspond un mme vne-
ment chez chaque personne, par exemple, la date de diagnostic ou de
dbut dun traitement.
De mme quune variable quantitative peut tre transforme en
variable qualitative, on peut transformer une variable censure en
variable qualitative : pourcentage de patients survivants cinq ans.
Pour ce faire, il faut que le suivi minimum pour chaque patient soit
au moins de cinq ans. Une variable censure peut devenir simplement
quantitative si la dure de survie est obtenue pour chaque individu
dans une population. La transformation de variables censures en
variables quantitatives ou qualitatives fait perdre de linformation et
peut introduire des biais.
Dfinitions
Des dfinitions sont importantes prciser.

La date dorigine. Il sagit de la date de lentre dans ltude dun sujet

4 comme la date de survenue dun infarctus du myocarde ou dune
intervention chirurgicale.
La date des dernires nouvelles. Il peut sagir ou bien de la date
laquelle le sujet a t vu la dernire fois ou bien de la date de la sur-
venue de lvnement que lon cherche valuer comme la date dun
dcs ou de lapparition dune rcidive.
Le temps de participation ltude. Il sagit du dlai entre la date des
dernires nouvelles et la date dorigine.
La date de point. Cest la date laquelle on fait le bilan des dernires
nouvelles pour lensemble de la population que lon tudie. Lidal est
que la date de point se confonde avec la date des dernires nouvelles
pour les sujets en vie (ou sans rcidive).
Les perdus de vue . Ce sont des malades en vie (ou sans rcidive)
lors de la date des dernires nouvelles si elle est infrieure la date de
point. Cette dfinition de lantriorit peut dpendre de lhistoire natu-
relle de ce que lon cherche valuer sur lchantillon qui est tudi. Par
exemple, lors dune maladie grave dans laquelle la dure de survie est
habituellement limite quelques mois, un malade qui na pas t revu
dans le mois qui prcde la date de point doit tre considr comme
perdu de vue. Au contraire, lors dune affection moins grave, dans
laquelle le taux de survie cinq ans est de lordre de 60 %, un malade
pourra ntre considr comme perdu de vue que si lintervalle entre la
date des dernires nouvelles et la date de point excde six mois.
Bien entendu, un des critres de qualit dune tude est le faible pour-
centage de perdus de vue. Sinon, des biais dans les rsultats peuvent
sintroduire, les sujets perdus de vue ne se comportant pas forcment
comme les autres malades (tableau I). Compte tenu de la masse din-
formation dont on dispose, on peut recommander dviter de lire des
articles dans lesquels le pourcentage de perdus de vue nest pas prcis
ou si ce pourcentage dpasse 10 %. Dans ce cas, il convient en effet
dinterprter les rsultats avec la plus grande prudence.
Les exclus-vivants ou exposs au risque. Ce sont des sujets qui ne
sont pas dcds au moment des dernires nouvelles (mthode de
Kaplan-Meier) ou dans le dernier intervalle allant jusqu la date des
dernires nouvelles (mthode actuarielle). Les exclus-vivants com-
portent les sujets perdus de vue et les sujets vivants la date de point.
Mme si leur temps de participation ltude est relativement bref,
ces sujets sont pris en compte car les rsultats les concernant contri-
buent lacquisition de la connaissance. Ainsi, le fait de savoir quun
patient a vcu six mois ou un an sans rcidive ni mtastase de son
cancer apporte une information qui, bien que limite, doit tre prise
en compte.
Les variables censures 39
Tableau I Les perdus de vue . Exemple de problmes quils posent.

Les donnes
Une tude avait port sur les rsultats dune technique chirurgicale de traitement
de hernies inguinales. Elle avait inclus 280 malades oprs depuis plus de deux ans.
Il a t observ 14 rcidives. Trente-quatre malades avaient t perdus de vue, six
malades taient dcds dans les deux ans, de cause sans rapport avec lintervention.
Commentaires
Les auteurs estimaient leur taux de rcidives 14/280, soit 5 % (il aurait t
souhaitable quils indiquent aussi lintervalle de confiance pour viter davoir le
calculer). En fait :
Si le calcul du taux de rcidive avait t fait chez les 240 oprs qui avaient deux ans
de recul, soit 14/240, on aurait trouv 5,8 % de rcidives.
Mais, si tous les oprs perdus de vue ou dcds avaient fait une rcidive, il y aurait
eu 14 + 40 rcidives et le taux de rcidives aurait alors t de 54/280, soit 19 %.
Ce nest que si les 40 oprs perdus de vue ou dcds navaient pas fait de rcidive
deux ans quil y aurait eu 14 rcidives pour lensemble des 280 oprs, soit 5 %,
valuation la plus optimiste quil soit possible de faire.
La prsentation des rsultats par les auteurs de ce travail avait, au moins, le mrite
dindiquer avec prcision le nombre de malades perdus de vue ou dcds avant la
date de point. Cela permet un lecteur critique, comme nous venons de le montrer,
de nuancer linterprtation des rsultats.
Mesures
Des logiciels permettent de tracer les courbes de survie. Nous allons
en dcrire sur des exemples simples pour bien en faire comprendre
le mcanisme, tout en sachant que la mthode couramment utilise
aujourdhui est celle de Kaplan-Meier.
La mthode directe
La mthode directe nest rappele qu titre historique. En effet,
elle ne prend en compte, dans les calculs, que les sujets pour lesquels le
recul est suffisant. Les autres sujets, ainsi que les sujets perdus de vue,
sont exclus de lanalyse.
Voici un exemple simple (tableau II). Si lon veut valuer le taux de
survie deux ans dun groupe de dix malades pour lequel le recul
pour deux malades est de moins de deux ans, ces derniers ne peuvent
tre pris en compte dans le taux du calcul du taux de survie deux
ans. Si, sur les huit autres malades, avec deux ans de recul, six sont
vivants et deux sont dcds, le taux de survie deux ans est de 6/8,
soit 75 % (le calcul de lintervalle de confiance 95 % montre quil va
de 45 % 100 % !).
Tableau II Calcul dun taux de survie avec la mthode directe .

4
Calcul du taux de survie deux ans de dix malades (S/T).
Dix malades
Pour deux malades, le recul est < 2 ans : Pour huit malades, le recul est 2 ans :
Ils ne peuvent pas tre pris en compte Six malades sont vivants (V/T)
Deux malades sont dcds (D/T)
La survie deux ans est donc de 6/8 = 75 %
De faon gnrale :
V /T
S /T
V /T D /T
De la mme faon, il est possible de mesurer le taux de survie trois ans,

quatre ans, etc. Il sagit destimations ponctuelles qui, en fait, peuvent
tre assimiles lvaluation de variables qualitatives. Elles ne doivent
pas tre relies entre elles par une courbe. Du reste, cette mthode
expose parfois au paradoxe dun taux de survie cinq ans suprieur
celui observ quatre ans. Cest le cas si le nombre de malades, pour les-
quels le recul est de cinq ans, est rduit et que, par le jeu du hasard, leur
mortalit est moindre que celle observe dans le groupe qui a quatre ans
de recul (fig. 1). Pour ces raisons, la mthode directe ne doit plus tre
utilise pour mesurer une variable censure, au profit de mthodes qui
reposent sur des probabilits conditionnelles.
Fig. 1 Expression dune survie par la mthode directe . Dans cette tude,
la survie chez la femme parat augmenter entre 4 ans et 5 ans de recul (daprs
Maillard et al. >1@).
Les probabilits conditionnelles

Leur principe est facile comprendre en prenant lexemple dun jeu
de cartes (tableau III).
Tableau III Le principe des probabilits conditionnelles.
Dans un jeu de 52 cartes,

la probabilit de tirer las de pique est de 1/52.
En fait, cette probabilit peut se dcomposer ainsi : cest la probabilit de tirer un
pique qui est de 1/4, multiplie par la probabilit de tirer las si lon a tir un pique
qui est de 1/13.
1/4 multipli par 1/13 est bien gal 1/52.
Dans la survie,
la probabilit de survie deux ans est gale la probabilit de survie entre un et
deux ans si lon a survcu au moins un an.
Si la probabilit de survie un an est de 87 %, et que la probabilit de survie entre
un et deux ans est de 75 %, la probabilit de survie deux ans est de 87 % u 75 %,
soit 65 %.
La mthode de Kaplan-Meier [2]
Cette mthode est la mthode de choix pour lanalyse dune variable

censure. Elle a lavantage dinclure dans lanalyse tous les sujets, quel
que soit le recul dobservation. Elle constitue le moyen le plus prcis
et le plus clair dexprimer la survenue dvnements qui dpendent du
temps. Une courbe de Kaplan-Meier se prsente, en fait, comme
des marches descalier qui seraient de hauteurs et de largeurs diff-
rentes (fig. 2).
La construction dune courbe de Kaplan-Meier, traduction gra-
phique de la survie dune population, permet de bien comprendre son
principe et ce quelle reprsente.
Prenons comme exemple une population (ou un chantillon) fic-
tif de neuf malades qui ont t oprs et chez lesquels on cherche
apprcier la survie. Il faut les classer par ordre croissant de recul
(tableau IV).
Fig. 2 Expression dune survie estime par la mthode de Kaplan-Meier.

Chaque marche de la courbe correspond un dcs (ou plusieurs dcs la
mme date. Les petites barres verticales recoupant les horizontales reprsentent
les malades exclus-vivants et le recul pour ces patients.
Tableau IV Population fictive de neuf malades dont on va

construire la courbe de survie selon la mthode de Kaplan-Meier.
0 3 6 9 12
Recul
(mois)
_______________________________________________________________________
Malades
1 ------------- dcd
2----------------------- vivant
3------------------------------vivant
4-------------------------------------------dcd
5-------------------------------------------dcd
6------------------------------------------------ vivant
7------------------------------------------------------------vivant
8------------------------------------------------------------------- dcd
9---------------------------------------------------------------------------- vivant
Il convient ensuite de dresser le tableau suivant (tableau V).
Tableau V Population fictive de neuf malades dont on va construire

la courbe de survie selon la mthode de Kaplan-Meier.
d
Temps de a probabilit e
c
partici- vivants b de survie survie
exclus-
Malades pation en dbut dcd (a b/a) cumule
vivants
(mois) d'intervalle condi- (d.e)
tionnelle
1 2 9 1 0 8/9 = 0,89 0,89
2 4 8 0 1 1 0,89
3 5 7 0 1 1 0,89
4 7 6 1 0 1 0,89
5 7 6 1 0 4/6 = 0,68 0,60
6 8 4 0 1 1 0,60
7 10 3 0 1 1/2 = 0,50 0,30
8 11 2 1 0 1 0,30
9 12 1 0 1 1 0,30
Pour tracer la courbe de Kaplan-Meier (fig. 3), on part de labscisse

temps zro et de lordonne 100 % de survie.
Fig. 3 Trac dune courbe de Kaplan-Meier partir de lexemple thorique

du texte.
Deux mois aprs lopration, un malade est dcd. La courbe de

survie, horizontale jusque-l, chute de 100 % 89 % (il ne reste plus
que huit survivants sur les neuf malades), ce qui se traduit par une
premire marche descalier .
Entre deux et sept mois de recul, deux patients sont exclus-vivants,

4 lun avec quatre mois de recul, lautre avec cinq mois. Il est souhaitable
de les faire figurer sur la courbe par une petite barre verticale sur
lhorizontale de survie 89 %, correspondant en abscisse au temps de
participation ltude du malade.
sept mois, deux malades dcdent. La survie cumule chute alors
60 % (4/6 u 8/9), ce qui dtermine une nouvelle marche descalier
horizontale correspondant en ordonnes 60 %, etc.
Ainsi, la longueur des marches reprsente des intervalles pendant les-
quels il ny a pas eu dvnements que lon cherche estimer : dcs
ou rcidive ou apparition dune complication, etc. La descente dune
marche reprsente la chute du taux de survie lorsquun vnement
survient ; la survie, rappelons-le, dans le jargon statistique tant le
dlai qui spare la date dinclusion dans ltude, de lvnement.
La mthode actuarielle
Dans la mthode actuarielle, les taux de survie, contrairement lestima-
tion de Kaplan-Meier, sont valus intervalles rguliers, par exemple
un an deux ans, trois ans, etc. comme dans la mthode directe (fig. 4).
Fig. 4 Courbe de survie actuarielle. Les taux sont calculs pour des reculs
intervalles prdtermins (daprs Petrequin et al. >3@).
Nous allons construire une courbe actuarielle pour la comprendre

en prenant comme exemple une population fictive de huit malades
chez lesquels on a diagnostiqu un cancer et chez lesquels on cherche
apprcier la survie (tableau VI).
Tableau VI Population fictive de huit malades

dont on va construire la courbe de survie actuarielle.
0 1 2 3 Recul
(ans)
____________________________________________________________________
Malades 1 -------- dcd

2 --------------------------------------------------- vivant
3 ---------------------------- dcd
4 -----------------------------------dcd
5 -------------------------------vivant
6 ----------------------------------------------- vivant
7 ----------------------------------------- vivant
8 -----------------------------vivant
Pour construire une courbe actuarielle, il convient ensuite de dresser le

tableau suivant (tableau VII).
Tableau VII Construction dune courbe actuarielle :

le calcul des survies.
a b c e f
d
Vivants Dcds Vivants Survie en fin
Inter- Exclus- risque dans
en dbut dans en fin d'intervalle
valle vivants : l'intervalle
d'inter- l'inter- d'inter- eb
a (b + c) b + c + (d/2)
valle valle valle 2
1- 2 ans 7 2 1 7 (2 + 1) = 4 2 + 1 + ( 4/2) = 3 3/5 = 60 %
Un malade dcde dans la premire anne. Le taux de survie un

an est donc de 7/8, soit 89 %. Entre la premire anne et la seconde
anne, il y a quatre malades exclus-vivants (malades 5, 6, 7 et 8). Chez
ces malades, les temps de participation ltude diffrent cependant
les uns des autres : il est assez court pour les malades 5 et 8. Il est plus
long pour les malades 6 et 7. Cela permet destimer quen moyenne,
un patient exclu-vivant sur deux est expos au risque de dcder pen-
dant lintervalle ou, ce qui revint au mme, quun patient exclu-vivant
est expos pendant la dure dun demi-intervalle. De ce fait, le nombre
de malades exposs au risque de dcder dans lintervalle est consi-
dr comme gal au nombre de malades vivants en dbut dintervalle
(n = 7), moins la moiti des exclus-vivants (4/2 = 2), soit 5. Cette prise
en compte de la moiti des patients exclus-vivants chaque intervalle
de temps est sous-tendue par lhypothse que les malades entrent

4 rgulirement dans ltude ou que les intervalles de temps sont suffi-
samment brefs. Cette hypothse ne serait pas vrifie si, par exemple,
les intervalles taient longs et que tous les patients exclus-vivants
ltaient, soit au dbut, soit en fin dintervalle.
Le taux de survie en fin dintervalle est gal au nombre de survivants
en fin dintervalle (n = 1) plus la moiti des exclus-vivants (4/2 = 2),
soit 3 sur le nombre dexposs au risque (n = 5), soit 3/5 = 60 %. La
survie cumule est ensuite calcule comme dans la courbe de Kaplan-
Meier. La survie un an tant de 89 %, la survie deux ans est de
89 % u 60 %, soit 53 %, etc.
Quelques remarques doivent tre faites :

1. Dans les deux mthodes, Kaplan-Meier et actuarielle, il est possible
et souhaitable de calculer et de reprsenter lintervalle de confiance
95 % (habituellement par des pointills comme sur la fig. 5). Parfois,
on se contente dindiquer lintervalle de confiance en quelques points
de la courbe, par exemple autour de la mdiane de survie (correspon-
dant lordonne 50 %) ou autour dautres qui font lobjet de la dis-
cussion par exemple un taux de survie deux ans ou cinq ans, etc.
(fig. 6).
Fig. 5 Courbe de Kaplan-Meier sur laquelle les exclus-vivants sont indiqus,

les courbes en pointills, reprsentant les limites des intervalles de confiance
95 %.
Fig. 6 Courbes de Kaplan-Meier sur lesquelles les intervalles de confiance

sont indiqus par des barres verticales (daprs Petrequin et al. >3@).
2. Il est encore souhaitable dindiquer, sous laxe des abscisses, le

nombre de malades exposs au risque, par exemple un an, deux
ans, etc. (fig. 4).
3. Plus le taux de censure est important, plus les estimations seront
imprcises.
4. Pour une mme population, si lon dressait et superposait la courbe
de Kaplan-Meier et la courbe actuarielle, elles se confondraient
dautant plus que la population tudie serait nombreuse et que,
dans la courbe actuarielle, les intervalles de temps entre deux mesures
seraient courts ; on peut presque dire quune courbe actuarielle est le
lissage dune courbe de Kaplan-Meier.
Rfrences
1. Maillard JN, Huguier M, Conte-Marti J, Lortat-Jacob JL (1972) Pronostic
loign de la rsection pour cancer de lsophage. Nouv Presse Med 1: 2737-41
2. Kaplan EL, Meier P (1958) Non-parametric estimation from incomplete
observation. Am Stat Ass J 53: 457-81
3. Ptrequin P, Huguier M, Lacaine F, Houry S (1997) Cancers de lsophage
rsqus. Modle prdictif de survie. Gastroenterol Clin Biol 21: 12-6
Les variables subjectives
5
ct des variables qualitatives, quantitatives et censures, on peut

tre amen prendre en compte, dans une valuation, des notions sub-
jectives comme lintensit dune douleur, le confort ou bien, de faon
plus gnrale, la qualit de vie, en particulier chez un malade qui a un
cancer trait par exrse chirurgicale, radiothrapie et chimiothrapie
dont il subit, ct des avantages attendus, des contreparties.
Pour valuer ces variables subjectives, on cherche les transformer en
variables objectives, quantitatives. Un des exemples les plus anciens est
lindice de Karnofsky en cancrologie >1@.
Lindice de Karnofsky en cancrologie

Dfinition % Critres
Activit normale, travail normal 100 Pas de symptmes ni de signes
de maladie
Aucun soin ncessaire 90 Activit normale, symptmes minimes
80 Activit normale, quelques symptmes
Incapacit de travailler, vie 70 Soins personnels, mais incapacit
domicile possible dactivit professionnelle
Aide ncessaire pour la plupart 60 Assistance temporaire mais possibilit
des besoins dassumer la plupart de ses besoins
personnels
50 Ncessit dune assistance et de soins
mdicaux frquents
Perte dautonomie 40 Handicap, ncessit de soins spciaux
Soins hospitaliers 30 Handicap majeur, soins hospitaliers
ou quivalents, maladie ncessaires
progression rapide
20 Traitement mdical de soins palliatifs
10 Moribond
0 Dcs

5 Moyens de mesure
Dans un phnomne douloureux, il est non seulement utile de

savoir si un malade a mal ou non. Mais sil a mal, il est encore plus
utile de pouvoir apprcier lintensit de la douleur. La transformation
de donnes subjectives en variables quantitatives se fait gnralement
par des procds dauto-valuation lorsque cela est possible, afin dli-
miner le biais que pourrait constituer lapprciation par un tiers. Deux
outils de mesure sont habituellement utiliss.
Avec lchelle visuelle analogique, on mesure (au sens propre) linten-
sit de la douleur par la distance entre le point situ entre le zro qui
reprsente labsence de douleur et le trait indiqu par le sujet sur un
segment de droite dont lautre extrmit serait le maximum de
douleur.
chelle visuelle analogique

La ligne ci-dessous reprsente un thermomtre de votre douleur.
Indiquez par un train vertical le niveau de votre douleur :
Pas de douleur Maximum de douleur
Il est encore possible de faire une quantification par une cota-

tion (chelle de Likot).
Quantification par une cotation

Absente ou pas du tout 0
Faible ou un peu 1
Modre ou moyennement 2
Forte ou beaucoup 3
Extrmement forte ou extrmement 4
Donnez une valeur votre douleur _______
Dans ce type de cotation, des tudes ont suggr quil y avait peu de
gain proposer une cotation plus de cinq niveaux couvrant unifor-
mment la gamme des possibilits pour coter un phnomne subjectif.
Il est vident que ces quantifications dun phnomne subjectif laissent
une part linterprtation. Elles constituent toutefois une approche
intressante pour mesurer ces phnomnes. Il sera important de
Les variables subjectives 51
raliser des mesures du niveau de base (baseline en anglais) afin de

pouvoir apprcier, patient par patient, lvolution de la variable. On
saffranchira ainsi de la subjectivit existant dans le niveau de base
entre les patients.
Dautres mesures de phnomnes subjectifs sont plus complexes,
comme lvaluation de la qualit de vie. Ce type de mesure devient
de plus en plus important avec le vieillissement de la population.
En effet, on attache une importance plus grande lesprance de
vie en bonne sant qu lesprance de vie globale. Ainsi, en France,
si lesprance de vie tait en 2006 de 85 ans chez la femme et de
77 ans chez lhomme, en bonne sant, elle ntait que de 73 ans
(pour 75 ans au Japon et 70 ans aux tats-Unis). Ces apprciations
prennent en compte plusieurs variables subjectives qui peuvent tre
regroupes en rubriques (composantes psychologiques, comporte-
mentales, sociales, motrices, etc.). chaque variable, il est possible
daffecter un coefficient en fonction de limportance subjective qui
lui est accorde ou qui est estim partir des rsultats de vastes
enqutes [2].
valuation de qualit de vie

Composantes dune valuation >3@
1 Ractions motionnelles
2 nergie
3 Douleur
4 Sommeil
5 Isolement social
Avec le vieillissement des populations, des systmes de mesure de

lautonomie fonctionnelle des personnes ges (SMAF) sont de plus
en plus utiliss. Lun dentre eux comporte ainsi 29 items dvalua-
tion regroups en cinq catgories : les activits de la vie quotidienne,
la mobilit, la communication, les fonctions mentales et les activits
de la vie domestique. Chaque item est cot sur une chelle de cinq
degrs >4@. Ce type dvaluation permet de rendre plus objectives les
allocations de ressources aux tablissements qui prennent en charge les
personnes ges.
Un autre outil de mesure est lanne de vie ajuste sur la qualit
(QALY) >5@. Il concerne uniquement ltat de sant. Cest la somme
des qualits de vie par anne, la qualit de vie pouvant aller de 1
(tat ltat de sant optimal) 0 qui est le dcs. Ainsi, 5 ans de
qualit de vie moyenne de 0,5 donneront une qualit de vie-annes
de 2,5.
5 Rfrences
1. Karnofski DA, Abelmann WH, Craver LF, Burchenal JH (1948) The use of nitro-
gen mustards in the palliative treatment of carcinoma. With particular reference
to brochongenic carcinoma. Cancer 1: 634-56
2. Slim K, Bousquet J, Kiatkowsky F, et al. (1999) Premire validation de la version
franaise de lindex de qualit de vie pour les maladies digestives (GIOLI).
Gastroenterol Clin Biol 23: 25-31
3. Hunt SM, McEwen J, McKenna SP (1985) Measuring health status: a new tool
for clinicians and emidemiologists. J Roy Coll Gen Pract 35: 185-8
4. Gervais P, Hbert R, Jbaddi M, Toussignant M (2011) Implantation du
systme de mesure de lautonomie fonctionnelle (SMAF) dans onze milieux
dhbergement et daide domicile du secteur mdico-social franais : tude
PISE-Dordogne. Revue de griatrie 36: 631-44
5. Torrance GW (1987) Utility approach to measuring quality of life. J Chronic
Dis 40: 593-600
Partie
Les comparaisons 2
Introduction
Les comparaisons sont une dmarche habituelle dans toute activit

biologique et mdicale, aussi bien exprimentale que dans les sciences
du vivant. En 1865, Claude Bernard crivait dj : De tout cela je
conclurai donc que lobservation et lexprience comparative sont la
seule base solide de la mdecine exprimentale [1].
En mdecine, les comparaisons portent habituellement :
sur diffrents examens radiologiques ou biologiques dans llabora-
tion dun diagnostic afin de choisir celui ou ceux qui paraissent les
mieux mme de contribuer ce diagnostic ;
sur deux ou plusieurs traitements pour choisir celui qui est le plus
efficace, le mieux tolr, etc. ;
sur un ou plusieurs facteurs potentiels de risque dans lestimation
dun pronostic ou en pidmiologie.
Ces comparaisons comportent des risques statistiques de conclusions erro-
nes. On ne peut pas les liminer, mais les limiter. Dans la lecture critique
darticles, leur connaissance permet de mieux interprter les rsultats.
Les comparaisons peuvent porter sur des pourcentages, des moyennes,
des taux de survie, etc. cest--dire sur les variables qualitatives, quan-
titatives, censures, voire subjectives.
Exemples de comparaisons entre deux chantillons

Comparaisons portant sur des variables qualitatives*
valuation diagnostique : comparaison des pourcentages de diagnostics de la
rsonance magntique nuclaire et du Pet-Scan dans des mtastases hpatiques.
valuation thrapeutique : comparaison de deux antibiothrapies sur la strilisation
dune infection urinaire.
valuation pronostique en pidmiologie clinique : comparaison du rle de
lexistence ou non dune insuffisance rnale dans le pronostic vital dune pancratite
aigu hmorragique.
valuation tiologique en sant publique : comparaison de lexposition ou non au
tabac dans la survenue dun cancer du poumon.
* Ici, les comparaisons ne sont pas explicites par des quantits.

Comparaisons portant sur des variables quantitatives

valuation diagnostique : comparaison des taux damylasmie selon lexistence ou
labsence de pancratite*.
valuation thrapeutique : comparaison des effets de deux mdicaments
antihypertenseurs sur la pression artrielle.
valuation pronostique en pidmiologie clinique : aprs une embolie pulmonaire,
comparaison de la valeur de la PO dans le pronostic vital.
Comparaisons portant sur des variables censures
valuation thrapeutique : dans la maladie de Basedow, comparaison de deux
antithyrodiens de synthse sur la survenue de rcidive.
valuation pronostique en pidmiologie clinique : comparaison du rle
pronostique de la prsence ou de labsence de mtastases ganglionnaires dun cancer
sur la survie.
* Une hyperamylasmie nest pas spcifique de pancratite aigu.
Toute comparaison est expose des biais qui peuvent fausser linter-
prtation des rsultats. Il convient de prvenir au maximum ces biais
par un plan exprimental adapt.
Le biais le plus commun est de faire porter les comparaisons sur des
sous-groupes qui ne sont pas similaires. Pour limiter ce risque, il faut,
au sein de lensemble de la population incluse dans ltude, faire un
tirage au sort pour dterminer deux (ou plusieurs) sous-groupes sur
lesquels vont porter les comparaisons. Cest la randomisation.
En fin dtude, la comparaison des rsultats, mme entre des sous-groupes
qui seraient parfaitement similaires en dehors de la variable dintrt, est
expose plusieurs risques dinterprtation. Ces risques sont les suivants :
Le premier risque, la vue dune diffrence (A > B), est de conclure
que A est suprieur B alors que la diffrence observe est le fait
du hasard et quil ny a pas de diffrence relle entre A et B. Cest le
risque de premire espce, encore appel risque D.
Le second risque est celui dune absence de diffrence significative
(A = B) alors mme que A est diffrent de B. Cest le risque de
seconde espce, encore appel risque E.
Le risque de troisime espce est de conclure tort que A > B ou
A < B alors que cest linverse. Ce risque, encore appel J, est large-
ment plus faible que les prcdents. Il est donc gnralement ngli-
geable. Ses consquences seraient toutefois plus graves.
ct de ces risques, il faut bien diffrencier les tudes dont le but
est de chercher une diffrence, en gnral pour montrer la supriorit
dun examen ou dun traitement sur un autre, tudes qui sont une
dmarche habituelle, notamment en recherche clinique, des tudes
dont le but est de prouver une absence de diffrence, comme dans les
essais dquivalence ou de non-infriorit, tudes qui sont de plus en
plus frquentes dans tous les domaines de la recherche biomdicale.
Introduction 57
Risques derreurs dans toute comparaison entre deux chantillons (A et B)

La ralit :
A>B A=B A<B
Ce qui a t dduit partir
des rsultats observs :
A>B Correct Erreur Erreur

de 1re espce de 3e espce*
A=B Erreur Correct Erreur

de 2e espce de 2e espce
A<B Erreur Erreur Correct

de 3e espce* de 1re espce
* Ce risque est faible et gnralement ngligeable.
Les mta-analyses seront tudies avec le chapitre consacr la thra-

peutique parce que cest essentiellement dans ce domaine quelles sont
ralises.
Rfrence
1. Bernard C (1865) Introduction la mdecine exprimentale. Baillire, Paris,
p 342
Protocole mdical dun essai randomis
1
Tout travail cherchant comparer entre eux deux (ou plusieurs)

outils diagnostiques ou traitements ou facteurs de risque, sexpose
un premier biais : que les sous-groupes sur lesquels porte la compa-
raison ne soient pas similaires. Ce genre de comparaisons a donn lieu
bien des erreurs de jugement dont les consquences ont t lourdes.
Par exemple, elles ont fait croire, dans le traitement des pancratites
aigus, que les inhibiteurs de la trypsine diminuaient la mortalit, alors
quil nen est rien. Des malades ont ainsi t traits inutilement avec un
mdicament qui tait onreux puisquune anne, il avait reprsent le
second poste de dpenses mdicamenteuses de lAssistance publique-
Hpitaux de Paris.
Dans toute comparaison sur la valeur dun nouvel examen par rapport
un autre ou dun traitement par rapport un traitement de rfrence,
il convient de faire porter les comparaisons sur des sous-groupes simi-
laires. Cest, comme il a t indiqu dans lintroduction de cette partie,
lobjectif des tudes ou essais randomiss.
Ils consistent, au sein de la population incluse dans ltude (et claire-
ment dfinie au dpart), dterminer les deux (ou plusieurs) sous-
groupes sur lesquels porte la comparaison, par un tirage au sort.
Cest ce qui offre le plus de chances que ces sous-groupes soient
similaires. Encore peut-on sen assurer a posteriori. En fin dtude,
il est dconseill de faire des tests statistiques sur les caractristiques
linclusion des groupes que lon compare (rgle CONSORT). En
effet, dventuelles diffrences significatives entre groupes nauront
un retentissement que si elles ont une pertinence mdicale. Inver-
sement, des diffrences, mme non significatives peuvent biaiser les
rsultats de ltude.
Il faut encore que la randomisation soit faite dans des conditions
rigoureuses. En effet, le tirage au sort pour un essai randomis est
moins simple quon pourrait le croire. Ces essais randomiss sont des
entreprises lourdes.

Les buts de ce chapitre sont de montrer les contraintes dune randomi-

1 sation correcte, ses limites pour des raisons techniques ou thiques. En
tant que lecteur, lorsque lon veut se faire une opinion sur une compa-
raison entre deux outils diagnostiques ou entre deux traitements, il
faut de faon prfrentielle : 1) lire les rsultats des essais randomiss
et 2) tre capable davoir une opinion critique sur leur mthodologie
et linterprtation de leurs rsultats.
Nous prendrons surtout comme exemple, des tudes sur un traitement.
Le pralable tout essai randomis

Il nest moralement licite de faire un essai thrapeutique randomis
pour chercher la supriorit dun traitement par rapport un autre
que si lon accepte une double hypothse presque paradoxale : 1) on
cherche montrer quun traitement est meilleur quun autre et 2) on
doute de cette ventualit.
Si lobjectif de ltude est de montrer lquivalence entre deux trai-
tements, la double hypothse devient la suivante : 1) les traitements
sont probablement quivalents entre eux, mais 2) on doute de cette
ventualit que lon cherche prouver.
Ces propositions seront tranches grce au critre de jugement prin-
cipal de ltude.
Inclusion des sujets dans ltude

Dans un essai randomis, une premire condition dinclusion est
que tout malade inclus dans ltude doive pouvoir recevoir lun ou
lautre des deux traitements que lon cherche comparer. Cest ce
qui est appel la clause dambivalence. Par exemple, dans des essais
randomiss comparant dans le cardiospasme le traitement endosco-
pique par des dilatations pneumatiques et le traitement chirurgical par
myotomie extramuqueuse (opration de Heller), il faut que tous les
malades inclus dans ltude puissent, ventuellement, tre oprs et
acceptent cette ventualit. Sil y a une contre-indication opratoire,
cela doit reprsenter un critre dexclusion. Les bonnes tudes doivent
prciser le nombre de malades qui ont t exclus, ainsi que les causes
de lexclusion. Dans notre exemple, ce peut tre une contre-indication
opratoire, mais aussi le fait des malades, qui avaient accept lide de
se faire oprer, lont ensuite refuse aprs le tirage au sort les dsignant
dans le groupe chirurgical. Pour cette raison, et de faon gnrale, il
est souhaitable que lintervalle entre le tirage au sort et le dbut du
Protocole mdical dun essai randomis 61
traitement soit aussi bref que possible. Dans un essai chirurgical com-
parant deux techniques, le tirage au sort doit tre fait lors de linter-
vention, lorsque le chirurgien sest assur que la clause dambivalence
tait respecte. La panseuse, par exemple, indique alors au chirurgien,
aprs ouverture dune enveloppe, celle des deux techniques quil doit
raliser.
La connaissance du nombre de malades exclus de ltude et les raisons
dexclusion permettent de se faire une opinion sur le champ dappli-
cation des rsultats de ltude. En effet, pour fondamentaux que soient
les essais randomiss, lexprience montre que les critres dinclusion
aboutissent ce quelles intressent des populations assez slection-
nes. En thorie, leurs rsultats ne peuvent donc tre utiliss, sils sont
positifs, que pour des malades, eux aussi assez slectionns sur les
mmes critres que ceux sur lesquels ltude avait port.
Prcautions concernant les traitements

que lon cherche valuer
Si lon cherche valuer un traitement mdical par rapport
labsence de traitement, lidal est que les malades du groupe tmoin
reoivent un placebo, cest--dire un comprim, une glule, ou une
potion daspect similaire au comprim, la glule ou la potion
du principe actif, mais qui ne le contient pas. Sil sagit dun mode
dadministration intraveineuse, cela est plus difficile pour des raisons
dthique.
Nanmoins, une des critiques faite aujourdhui la Commission de
transparence qui dpend de la Haute autorit de sant est de fonder
trop souvent ses dcisions sur le service mdical rendu par un nouveau
mdicament en le comparant un placebo. Il serait beaucoup plus
utile et souhaitable de le comparer avec un mdicament existant, cest-
-dire de fonder la dcision non sur lexistence dun service mdical
rendu, mais sur une amlioration dun tel service par rapport un
traitement prexistant de rfrence. Les mta-analyses en rseau per-
mettent notamment destimer les diffrences entre traitements lorsque
ceux-ci nont pas t compars directement entre eux, mais lun et
lautre avec un mme contrle (ou placebo).
Afin de limiter le risque de biais psychologiques, il est encore souhai-
table que le malade ignore sil reoit le principe actif ou le placebo (ou
soit un traitement A, soit un traitement B). On parle alors dtude en
simple insu (blind en anglais). Lorsque le mdecin ou linfirmier qui
administre le mdicament ignore, lui aussi, le contenu rel du trai-
tement allou, on parle dessai en double insu. Cest alors un tiers
qui, seul, connat ce que reoit le malade jusqu la fin de ltude o

1 lanonymat du produit administr est dvoil. Le but est de garantir le
maximum dobjectivit dans le recueil des rsultats. La possibilit des
biais dans ce domaine nest pas purement thorique. Ainsi, un essai
randomis comparant leffet dun patch de nicotine avec un patch de
placebo pour faciliter le sevrage du tabagisme [1] a prouv que ces
prcautions ntaient pas superflues. En effet, les rsultats ont montr,
dune part que 4 % des fumeurs qui avaient reu le placebo ont dit
avoir ressenti des contreparties telles quils ont arrt de se mettre le
patch, dautre part que 16 % dentre eux se sont arrts de fumer et
ont attribu cet arrt au patch qui sest avr tre le placebo.
Dans les essais randomiss comportant une intervention chirurgicale,
le double insu, bien entendu, nest pas possible, le chirurgien sachant
forcment ce quil a ralis comme intervention ! Dans ce cas, il est
possible de faire valuer les rsultats par un tiers. Dans les essais sur
une technique chirurgicale ou radiologique, il existe un autre biais :
si lon cherche comparer une technique chirurgicale de rfrence
une nouvelle technique, le chirurgien ou le radiologue va comparer
une technique quil connat bien et la ralisation de laquelle il est
entran, une technique dont il a moins lexprience puisquelle est
nouvelle. Pour limiter le risque cr par ce biais, il est souhaitable que
le chirurgien, par exemple, commence par oprer des malades avec la
nouvelle technique pour avoir un bon entranement dans la ralisa-
tion de la nouvelle technique, cest la courbe dapprentissage, avant
de commencer inclure des malades dans lessai [2]. Une valeur seuil
correspond au nombre dinterventions ncessaires pour acqurir une
exprience [3]. Plus cette valeur est leve, plus lintervention est juge
difficile. Par exemple, en chirurgie colorectale par clioscopie, une
tude multifactorielle a suggr que la valeur seuil de la courbe dap-
prentissage tait de 40 interventions [4]. Dans les fundoplicatures par
clioscopie, la valeur seuil a t estime 20 [5], ce qui suggre que
lapprentissage de cette intervention est moins difficile que celui de la
prcdente.
Les comparaisons portant sur le rle dun examen complmentaire,
quil sagisse dune exploration radiologique, mais aussi biologique ou
isotopique, peuvent et doivent, elles aussi, faire lobjet dessais rando-
miss.
Les examens complmentaires, sils ne sont pas invasifs, cest--dire
sans risque pour le malade, permettent cependant de les comparer
chez un mme malade, en les ralisant chez chacun des malades
inclus dans ltude. Chaque malade est alors son propre tmoin,
ce qui permet de rduire notablement les biais dus aux caractris-
tiques individuelles des patients. La similitude entre les groupes
Protocole mdical dun essai randomis 63
compars est alors maximale, puisquils sont constitus de personnes

aux mmes caractristiques. Bien entendu, ces tudes ncessitent le
consentement clair des patients. Il convient encore que le temps
qui spare les deux examens lun de lautre soit rduit au maximum
dans le cas o il sagit dexamen morphologique, radiologique par
exemple.
Les critres de jugement

Dans un essai randomis, il convient toujours, lors de llaboration
de ltude, de dcider, parmi les critres de jugement pertinents, celui
qui est le plus important. Ce sera le critre de jugement principal. Les
autres sont appels critres de jugement secondaires. Cest le critre de
jugement principal qui permettra de conclure lefficacit plus grande
dun traitement par rapport un placebo ou un autre traitement.
Cest aussi lui qui va permettre de dterminer le nombre de sujets quil
est souhaitable dinclure dans ltude pour limiter le risque de deu-
xime espce. Plus le nombre de critres de jugement secondaires est
lev, plus on augmente le risque dobserver une diffrence significa-
tive pour lun deux qui, en fait, est due au hasard. De plus, la dcision
que lon pourra prendre au vu des rsultats de ltude sera dautant
plus complique que les critres de jugement sont nombreux, quils
soient dordre mdical comme les contreparties des traitements que
lon compare ou bien dordre conomique. Ainsi, dans le traitement
dun cancer, si une chimiothrapie savre plus efficace quune autre en
termes de dure de survie, mais que le gain de survie est relativement
limit dans le temps et se fait au prix de contreparties qui altrent
la qualit de cette survie, la dcision de traiter ne sera pas forcment
prise en prescrivant la chimiothrapie la plus efficace en termes de
dure de survie.
La dtermination des critres de jugement implique donc une
rflexion qui nest pas toujours aise. Ne pas prendre en compte un
critre de jugement secondaire au sens statistique, mais important
comme la contrepartie svre dun traitement, serait prjudiciable.
Mais multiplier les critres de jugement complique la ralisation
de ltude, augmente comme nous le verrons le risque global de
premire espce, et surtout linterprtation dcisionnelle de ses
rsultats.
En tout tat de cause, il est particulirement important dans un souci
dobjectivit, que le mdecin qui value les rsultats dun essai rando-
mis le fasse sur des critres de jugement aussi prcis que possible et
ignore le traitement qui a t administr (ou le placebo).
1 Les liens entre ces diffrentes donnes

Dans les essais randomiss, il y a presque toujours des interactions
entre les trois donnes prcdentes. Ainsi, lorsque le critre de juge-
ment principal est la survie 5 ans, il ne faut inclure dans ltude que
des malades quil sera possible de suivre jusqu leur dcs dans les
5 annes suivantes et, a contrario, exclure par exemple des malades
vivant dans un pays tranger et pour lesquels on nest pas certain de
connatre cinq ans aprs sils sont toujours en vie ou sils sont dcds.
Cette clause doit ainsi figurer dans le protocole dinclusions.
Si lessai porte sur une polychimiothrapie comprenant un mdica-
ment cardiotoxique, les critres dinclusion doivent comporter un
examen cardiovasculaire normal. Inversement, des antcdents ou des
anomalies cardiaques pourront tre des critres dexclusion, etc.
Rfrences
1. Jorenby DE, Leibshow SJ, Nides MA, et al. (1999) A controlled study of sus-
tained release bupropion, a nicotine patch, or both for smoking cessation. New
Engl J Med 340: 685-62
2. Bells PRF (1997) Surgical research and randomized trials. Br J Surg 84: 737-8
3. www.maaw.info/LearningcurveSummary.htm
4. Bennett CL, Stryker SJ, Ferreira R, et al. (1997) The learning curve for
laparoscopic colorectal surgery. Arch Surg 132: 41-5
5. Watson DI, Baigrie RJn, Jamieson GG (1996) A learning curve for laparoscopic
fundoplication. Definable, avoidable, or waste of time? Ann Surg 224: 198-203
Protocole statistique dun essai randomis
2
Ce protocole comporte, dans lordre chronologique de son

laboration :
le calcul des effectifs pour limiter le risque de deuxime espce ;
les modalits de la randomisation ;
les mthodes danalyse des rsultats.
Dans un souci didactique, nous parlerons dabord du tirage au sort,
puis des risques statistiques et enfin des problmes de lanalyse des
rsultats.
Le tirage au sort
Au sein de la population incluse dans ltude, le tirage au sort est
le moyen qui offre les meilleures garanties que les sous-groupes quil
dtermine soient similaires, sauf en ce qui concerne le traitement allou.
Les diffrences observes en fin dtude pourront ainsi tre clairement
attribuables aux traitements, cest--dire ce que lon cherche va-
luer. Cest bien ce qui fait la spcificit et lintrt des essais randomiss
par rapport aux comparaisons avec recueil rtrospectif des donnes. En
effet, dans ces tudes, il ne sera pas possible de garantir que les deux
sous-groupes compars taient similaires au dpart.
Le tirage au sort est cependant moins simple quil pourrait paratre.
Les tirages au sort les plus simples ont des dfauts

Un moyen facile de raliser un tirage au sort serait dutiliser une
pice de monnaie, le ct face indiquant lallocation du traitement A
et le ct pile celle du traitement B. Dans le mme ordre dide, on
pourrait utiliser le chiffre pair ou impair du jour de naissance du

malade ou de son jour dhospitalisation, de sa carte Vitale, etc. Cette

2 faon de procder a deux inconvnients.
Le premier est que le mdecin connat demble le traitement qui
devra tre administr au malade, avant mme de stre assur que les
conditions dinclusion dans lessai soient bien remplies. Cela risque
de linfluencer en nincluant pas certains malades parce quil estime
quil est peut-tre prfrable quils ne reoivent pas le traitement indi-
qu par le chiffre pair ou impair. Il est, en effet, indispensable quun
malade : 1) rponde dabord aux critres dinclusion (et dexclusion),
cest--dire soit ligible ; 2) signe un consentement libre et clair
comme nous le verrons ; 3) avant que le tirage au sort dsigne le trai-
tement quil doit recevoir. Cest ce que lon appelle la clause digno-
rance au moment du tirage au sort.
Le second inconvnient des tirages au sort simples est quavec un
peu de malchance, les deux groupes de malades soient quantitativement
dsquilibrs. Ce risque est particulirement lev si lon inclut dans
ltude un petit nombre de malades, par exemple dans lun des centres
dun essai multicentrique. Ainsi, une tude avait t faite sur lintrt
ventuel de latropine dans le traitement des pancratites aigus. Cin-
quante et un malades avaient t inclus dans ltude. Le tirage au sort
avait t fait, crivaient les auteurs, sur la base de nombres histo-
riques (il devait sagir de nombres comme la date de naissance que
nous avons voque). La malchance a fait que 19 malades ont reu
de latropine et 32 ont fait partie du groupe tmoin. Plus le nombre
de malades inclus dans ltude est faible, plus le risque de dsqui-
libre quantitatif des sous-groupes, dtermins par un tirage au sort
simple , est important, ce qui diminue ce que lon appelle la puis-
sance des tests statistiques (cf. p. 93).
Tables de nombre au hasard (encore appels nombres alatoires)

et de permutation de nombres au hasard
Pour limiter les inconvnients et les risques des mthodes
prcdentes, on utilise des tables de nombres au hasard. Ces nombres
sont fournis par des ordinateurs1 et figurent dans des tables qui se pr-
sentent sous forme dune srie de chiffre (tableau I). En les prenant
successivement, il suffit de dcider que les malades qui ont un nombre
pair auront le traitement A et un nombre impair le traitement B. Pour
respecter la clause dignorance, ces indications thrapeutiques sont
mises chacune sous enveloppe numrote. linclusion du premier
1 Ces tables sont disponibles sur http://perso.orange.fr/jpq/proba/tablealea/index.htm
Protocole statistique dun essai randomis 67
Tableau I Table de nombres au hasard.

26099 65801 69870 84446 58248 21282 56938 54729 67757
71874 61692 80001 21430 02305 59741 34262 15157 27545
08774 29689 42245 51903 69179 96682 91819 60812 47631
37294 92028 56850 83380 05912 29830 37612 15593 73198
33912 37996 78967 57201 66916 73998 54289 07147 84313
63610 61475 26980 23804 54972 72068 19403 53756 04281

01570 41701 30382 54647 06077 29354 95704 75928 21811
24159 77787 38973 82178 46802 90245 01805 23906 96559
92834 52941 88301 22127 23459 40229 74678 21859 98645
16178 60063 59284 16279 48003 44434 08623 32752 40472
81808 32980 80660 98391 62243 19678 39551 18398 36918

28628 82072 04854 52809 86608 68017 11120 28638 72850
62249 65757 12273 91261 96983 15082 83851 77682 81728
84541 99891 01585 96711 29712 02877 70955 59693 26838
89052 39061 99811 69831 47234 93263 47386 17462 18874
13407 62899 78937 90525 25033 56358 78209 47008 72488

50230 63237 94083 93634 71652 02656 57532 60307 91619
84980 62458 09703 78397 66179 46982 67619 39254 90763
22116 33646 17545 31321 65772 86506 09811 82848 92211
68645 15068 56898 87021 40115 27524 42221 88293 67592
26518 39122 96561 56004 50260 68648 85596 83879 90941

36493 41666 27871 71329 69212 57932 65281 57233 07732
77402 12994 59892 85581 70823 53338 34405 67080 16568
83679 97154 40341 84741 08967 73268 94952 59008 95774
71802 39356 02981 89107 79788 51330 37129 31898 34011
57494 72484 22676 44311 15356 05348 03582 66183 68392

73364 38416 93128 10297 11419 82937 84389 88273 96010
14499 83965 75403 18002 45068 45257 18085 92625 60911
40747 03084 07734 88940 88722 85717 73810 79866 84853
42237 59122 92855 62097 81276 06318 81607 00565 56626
95307 65668 21280 75514 68955 57328 74675 67958 37864

79748 67309 46843 19734 45248 20343 77530 06735 53622
00586 33144 36553 57446 66156 31637 15924 71923 73089
85120 18976 42639 67159 86473 79129 02003 08708 65678
35493 36645 23427 12223 67361 19073 39770 13548 64994
malade, on ouvre la premire enveloppe, du second la seconde enve-

2 loppe, et ainsi de suite. En fait, actuellement la randomisation est
centralise par Internet.
Il est souhaitable de faire le tirage au sort qui dtermine le traite-
ment allou, juste avant linstitution du traitement. En effet, si ce dlai
est trop long, le malade risque, comme nous lavons dj voqu, de
changer davis et de refuser le traitement quil avait accept initiale-
ment. Linconvnient de ces tables de nombre au hasard, comme le
montre le tableau I, est que sur les 30 premiers nombres au hasard de
la premire colonne, il y a 19 nombres pairs et 11 nombres impairs,
dsquilibre que lon cherche viter, comme nous lavons vu. De
plus, si le rythme dinclusion est lent, on sexpose linconvnient des
comparaisons historiques. Par exemple, si lon inclut 22 malades en
deux ans, sur les 11 premiers malades inclus en 2010, deux auraient
reu le traitement B et sur les 11 derniers malades inclus en 2011, cinq.
Or, des progrs autres que les traitements compars ont pu intervenir
entre les deux priodes.
Pour cette raison, on utilise plutt des tables de permutation de
nombres au hasard (tableau II). Dans ces tables, chaque groupe
vertical de neuf chiffres a un dernier nombre qui va de 1 9. On peut
alors dcider, par exemple, que lorsque ce dernier chiffre est 1 ou 2, les
malades recevront le traitement A et lorsque ce chiffre est 3 ou 4, ils
recevront le traitement B. Lavantage est que, une fois tous les quatre
malades inclus dans ltude, il y en aura autant (deux) qui auront reu
le traitement A que le traitement B. On parle alors de randomisation
par blocs de 4 . Dans ce type de randomisation, si lessai nest pas
en double aveugle, le mdecin saura, aprs inclusion des trois premiers
malades, ce que le quatrime devra recevoir comme traitement, dro-
geant ainsi au principe dignorance. Pour cette raison, on peut choisir
de varier de faon alatoire la taille des blocs de randomisation, par
exemple 4, 6, 8. La taille des groupes de permutation peut tre choisie
en fonction du rythme dinclusion des malades dans ltude : petite
taille si ce rythme est lent et inversement. Il est encore souhaitable
que celui qui prpare, laide de la table de permutation de nombre
au hasard, les enveloppes (ou le programme informatique) dans les-
quelles est indiqu le traitement qui sera allou ne soit pas celui ou
ceux qui administrent ces traitements.
Tableau II Table de permutation de nombres au hasard.
55671 43373 87463 97494 92288 27935 83194

41282 71129 95782 89366 17724 48573 37456
93329 88845 24616 36778 74471 73286 61222
79743 55292 16535 78519 51913 65149 29878

16965 69436 43929 51823 83332 89612 45769
64436 24681 79341 62642 29859 92428 96981
87817 12568 31298 44i87 65167 54351 14317
32194 36757 68877 25951 38546 36794 52545
28558 97914 52154 13235 46695 11867 78633
74615 92229 28173 24219 24831 26548 84942

93832 11198 94954 88886 77546 53276 93821
16347 65845 61719 52563 85755 69981 36797
68284 48786 57545 96758 . 59977 85335 69469
41478 23934 42236 47425 63369 17854 45214
29193 79662 16461 79974 18418 92793 18355
55551 37477 85892 15132 96284 38119 57133
82929 86553 79688 31697 41693 44662 72688
37766 54311 33327 63341 32122 71427 21576
97755 99938 98617 58612 19833 31773 76655

38172 62716 41342 36243 26128 88627 89747
43427 73172 15486 62161 78517 59136 31231
59283 37589 29171 23834 35999 72341 57178
16511 56441 73723 47388 93256 66959 98912
62836 84625 52268 91756 47464 17464 12886
24964 18354 36594 85979 81681 45595 24594
85699 25267 87839 19425 64745 23282 63323
71348 41893 64955 74597 52372 94818 45469
74987 97171 92387 78535 51649 78618 29734

56112 64614 59128 24687 73761 51741 93477
49356 11848 35493 36123 26877 45385 85951
33228 52322 73869 41861 19236 39577 12812
21494 46283 27651 57312 98413 63129 61588
97545 39799 14234 69744 32522 84263 56363
62639 88555 86772 93458 87994 92494 48129
85871 23937 41515 85976 45358 16852 34645
18763 75466 68946 12299 64185 27936 77296
84686 21997 22189 51924 52628 16883 81941

99458 44878 87597 36477 38536 44677 66878
66311 68319 75755 65185 24382 51436 49786
73772 73622 38946 47269 79741 38265 35314
28934 15551 54364 78753 95865 82792 53435
37269 86463 41821 19648 47213 63551 22699
51845 99184 19432 82896 63499 27124 98262
45527 32736 93218 93512 16977 95918 77157
12193 57245 66673 24331 81154 79349 14523
2 Problmes particuliers
La stratification
Un tirage au sort insuffisamment pens ne met pas toujours labri
dune diffrence entre les sous-groupes que lon souhaite comparer, ce qui
complique singulirement linterprtation des rsultats. Cette diffrence,
bien que due au hasard, peut tre gnante lors de cette interprtation si
elle porte sur une caractristique associe la valeur du critre principal.
Cest ce qui a eu la malchance de se produire dans un important essai
randomis sur les cancers oto-rhyno-laryngologiques (ORL). Lide de
cet essai reposait sur des tudes antrieures qui suggraient que la radio-
thrapie tait plus efficace sur des tissus bien oxygns que linverse. Sur
la base de cette donne, un essai randomis a t ralis pour comparer,
chez des malades qui avaient un cancer ORL, la radiothrapie simple
la radiothrapie associe ladministration doxygne hyperbare [1]. Le
critre de jugement tait la survie. Les rsultats ont t similaires dans
les deux groupes. Mais, une fois ltude termine, les auteurs se sont
aperus que, malgr le tirage au sort, les deux sous-groupes de malades
ntaient pas similaires. Le hasard a fait que les malades qui avaient eu de
loxygne hyperbare avaient plus souvent des mtastases ganglionnaires
que les malades de lautre groupe. Or les mtastases ganglionnaires sont
un facteur de mauvais pronostic. Ainsi, labsence de meilleurs rsultats
dans le groupe oxygne hyperbare pouvait tre due au fait que loxygne
namliorait pas lefficacit de la radiothrapie. Mais lautre hypothse
tait que cette amlioration avait t masque par le dsquilibre induit,
par hasard, par la prsence diffrentielle des mtastases ganglionnaires.
Afin de limiter le risque de tels dboires dans un essai randomis,
lorsque lon sait quil existe un facteur de pronostic reconnu comme
tant trs important (dans notre exemple de cancer ORL, des mtas-
tases ganglionnaires), il est prudent de faire une stratification. Cela
consisterait raliser un tirage au sort diffrent pour les malades qui
nont pas de mtastases ganglionnaires et ceux qui en prsentent. Cette
faon de procder garantit qu la fin de linclusion et de lessai, la
proportion de malades qui ont des mtastases ganglionnaires sera la
mme dans les deux sous-groupes que lon cherche comparer.
Sur le plan mathmatique, la stratification augmente ainsi la puissance
des tests dinfrence statistique en diminuant la variance du critre de
jugement. En contrepartie, les modalits du tirage au sort deviennent
un peu plus complexes et donc plus sujettes des causes derreur de
la part des investigateurs. En pratique, il nest souhaitable de recourir
la stratification que lorsquelle semble vraiment justifie et de ne pas
dpasser un, voire deux niveaux de stratification.
Randomisation et tudes multicentriques

Dans les tudes multicentriques, le tirage au sort est de plus en plus
souvent centralis. Un centre, facilement joignable, sur Internet par
exemple, soccupe de la centralisation des inclusions et, aprs avoir
vrifi le bon respect des critres dinclusions, effectue le tirage au sort
et indique linvestigateur le traitement que doit recevoir le malade
quil vient dinclure. Si le tirage au sort est dcentralis, le centre qui
la conu, adresse chaque centre participant ltude, une srie
denveloppes contenant les indications du traitement que doit recevoir
chaque malade au fur et mesure de son inclusion dans lessai.
Des logiciels de statistiques (comme SAS) ont des programmes de
randomisation qui peuvent tre dtermins en fonction du nombre
de centres qui participent ltude, de la stratification ventuelle, du
nombre de malades qui doivent tre inclus, etc.
Dans ces essais multicentriques, une stratification par centre est
souvent souhaitable, surtout si certains centres incluent beaucoup plus
de patients que les autres.
Les risques
Rappelons quil y a deux risques principaux dans tout essai
randomis. Le risque de deuxime espce doit tre pris en compte ds
la conception de ltude. Il implique le calcul des effectifs de malades
inclure afin de limiter ce risque, de conclure tort quun traitement
nest pas plus efficace quun autre alors que le nombre de malades
inclus dans ltude est insuffisant. Pendant trs longtemps, labsence
de prise en compte du risque de deuxime espce a t le grand point
faible des essais randomiss. Il sera expliqu propos des comparai-
sons cherchant montrer une diffrence (cf. p. 92).
Lautre risque, de premire espce, se prsente en fin dtude dans la
comparaison des rsultats. Il consiste conclure tort quun traite-
ment est plus efficace quun autre, alors que cest essentiellement le
hasard qui est intervenu dans les diffrences observes. Pour limiter
ce risque, en pratique moins de 5 %, il convient dutiliser des tests
dinfrence statistique (cf. p. 78).
Dviations par rapport au protocole

Il y a deux principales dviations par rapport au protocole :
des sujets qui remplissaient les critres dinclusion dans ltude et
qui nont pas t inclus ;
des sujets qui auraient d recevoir un traitement et qui ne lont pas

2 reu pour des raisons varies, notamment aprs acceptation initiale
dune allocation ou de lautre, le refus dun traitement.
Cest la raison pour laquelle, afin de limiter ce risque, les dlais entre
linclusion dans ltude, le tirage au sort et la mise en uvre de ce quil
prvoit, doivent tre aussi rduits que possible, comme il a t indiqu.
En fin dtude, il convient alors de faire une analyse des rsultats en
fonction du protocole allou, puis en fonction du protocole effectu.
titre anecdotique, un essai randomis avait t ralis, Boston, chez
des cirrhotiques qui avaient fait au moins une hmorragie digestive
par rupture de varices sophagiennes pour comparer une drivation
porto-cave chirurgicale et la sclrose des varices dans la prvention des
rcidives hmorragiques [2]. Un effectif non ngligeable de malades
qui avaient accept de participer ltude et de se faire ventuellement
oprer a, secondairement, refus lintervention. Lanalyse des rsultats
a montr que ctait ce sous-groupe qui avait eu les meilleurs rsul-
tats. Cela avait fait dire lun des hpatologues qui avaient men cette
tude que, sil faisait une hmorragie digestive par rupture de varices
sophagiennes, il souhaiterait tre inclus dans un essai randomis,
esprerait que le tirage au sort le dsignerait pour tre dans le groupe
chirurgical et quil refuserait alors lintervention.
En conclusion, les considrations prcdentes montrent que chaque
tape des essais randomiss demande toute une rflexion qui dpend
beaucoup du rythme dinclusion des malades dans le temps, du
nombre de malades ncessaires et, dans les tudes multicentriques, de
son organisation matrielle centralise ou dcentralise.
Dans toute cette dmarche, il faut encore avoir constamment lesprit
les deux grandes clauses dambivalence et dignorance.
Rfrences
1. Henk JM, Kunkler PB, Smith CW (1977) Radiotherapy and hyperbaric oxygen
in head and neck cancer. Lancet 2: 101-3
2. Conn HO (1974) Therapeutic portacaval anastomosis: to shunt or not to shunt.
Gastroenterology 67: 1065-73
Rgles thiques, considrations rglementaires
et financement dun essai randomis 3
Les considrations que nous allons voquer concernent en premier

chef les essais randomiss, mais elles sappliquent toute valuation
diagnostique ou pronostique.
Rgles thiques
Pour un investigateur, il nest thique denvisager de faire un essai
randomis pour essayer de mettre en vidence la supriorit dun
traitement sur un autre que si, lon espre quun traitement est meil-
leur quun autre, mais que lon nen est absolument pas certain. Si on
nprouve pas un espoir de supriorit, un essai randomis na pas lieu
dtre et si lon a la conviction quun traitement est meilleur quun
autre, il ne serait pas thique non plus de mettre en uvre un essai
randomis.
De mme, il nest thique de faire un essai dquivalence entre deux
traitements que si lon pense quil y a quivalence, mais que lon nen
est pas certain.
Tout patient susceptible dtre inclus dans une tude prospective, doit
donner son consentement clair ; cest--dire doit tre inform du
but de ltude laquelle il accepte de participer, quels sont les avan-
tages que lon espre du nouveau traitement, mais aussi labsence de
certitude et les contreparties ventuelles du nouveau traitement
comme du traitement de rfrence. Les patients, en gnral, com-
prennent bien lintrt de ces tudes pour la collectivit et pour eux-
mmes. La fondation dAide et de recherche en cancrologie a ainsi
rapport le tmoignage dune femme de 34 ans qui avait eu un cancer
bilatral des seins. Elle avait t opre, avait eu de la chimiothrapie et
de la radiothrapie. Sa tumeur ntant pas sensible aux antihormones,
on lui a propos, pour prvenir une rcidive, de participer un essai
europen. Aprs que les mdecins se soient assurs quelle pouvait bien
tre incluse dans cette tude, elle a accept, dit-elle, parce que si on

lui proposait cet essai, ctait forcment pour amliorer ses chances
3 de gurison . Elle a pens : Au pire, que ce traitement ne serait pas
efficace, mais il ne me fera pas de mal. Au mieux, il viterait la rcidive
de mon cancer .
Un autre principe thique est que tout malade doit tre prvenu quil
est toujours libre, tout moment, de refuser continuer participer
une tude.
Dispositions rglementaires1
Il convient de distinguer :
les tudes avec bnfice individuel direct pour le patient. Ce sont
les tudes susceptibles (et seulement susceptibles) de lui apporter un
avantage directement par rapport des traitements antrieurs. Les
essais randomiss entrent dans ce groupe ;
et les tudes sans bnfice individuel direct ; les tudes portant sur
des sujets volontaires sains, de biodisponibilit, par exemple.
Les premires sont le plus souvent ralises dans des services hospi-
taliers, mais il en est de trs utiles et intressantes qui sont faites en
pratique librale. Les secondes, en France, doivent se drouler dans
des centres agrs par le ministre charg de la Sant, par exemple
les Centres dinvestigation clinique (CIC). Le but est de protger et
de rglementer la participation les individus de telles tudes contre
indemnisation.
Toutes les tudes doivent :
1. Avoir un promoteur qui reprsente lentit responsable sur le
plan juridique et rglementaire du bon droulement de ltude.
Lorsque ltude a un financement propre, le promoteur est souvent
le financeur. Le promoteur doit souscrire une assurance couvrant les
dommages ventuels causs au patient qui participe ltude. Les
promoteurs peuvent tre des personnes physiques, mais sont le plus
souvent des institutions publiques comme lInstitut national de la
recherche mdicale (INSERM) ou le Centre national de la recherche
scientifique (CNRS) ou encore des hpitaux, etc. Dautres sont privs,
comme des firmes pharmaceutiques. Le promoteur est galement res-
ponsable de la dclaration dvnements indsirables aux autorits de
sant, cest--dire lAgence franaise de la scurit sanitaire pour les
produits de sant (AFSSAPS).
2. Avoir un investigateur principal qui est le matre duvre de ltude,
cest--dire le coordonnateur scientifique et mdical.
1 Directive europenne du 4 avril 2001 et loi du 9 aot 2004 relative la politique de sant
publique.
Rgles thiques, considrations rglementaires et financement dun essai randomis 75
3. Obtenir un avis favorable dun comit dthique, qui est en France,

un Comit pour la protection des personnes dans les recherches
biomdicales (CPP). Ceux-ci sont implants dans certains centres
hospitalo-universitaires. Si un Comit refuse de donner un avis favo-
rable, il nest pas possible de soumettre le dossier un autre Comit.
En revanche, lavis dfavorable est habituellement assorti de recom-
mandations dont le but est damliorer les conditions de ltude. Il
faut encore obtenir un avis favorable de la Commission nationale
informatique et libert (CNIL) pour les donnes que lon va recueillir
de faon informatique ou non.
4. Les essais prospectifs randomiss doivent tre dclars lAFSSAPS
qui leur attribuent un numro denregistrement. Le cas chant, un
moniteur ou un assistant de recherche clinique peut tre mandat par
le promoteur et servir de lien entre lui et linvestigateur. Aux tats-
Unis, un site Internet2 fournit des informations sur les essais cliniques
de nouveaux traitements3 pour faire connatre les lieux o se droulent
ces essais et leurs adresses, leur objet, et ceux qui ncessitent encore
dinclure des participants. Ces derniers ne peuvent toutefois pas
sinscrire en ligne.
La rglementation franaise en matire dessai randomis, issue de la
loi sur la protection des personnes est lourde, prend du temps. Elle
ne facilite pas la mise en uvre des essais qui se font plus facilement
dans certains pays trangers. En revanche, elle a mis un terme de
petits essais conus avec une certaine lgret, trs critiquables sur le
plan mthodologique et dont on ne pouvait rien tirer ou presque des
rsultats. Un juste milieu reste construire.
Financement
Les essais randomiss sont onreux raliser. Leurs rsultats peuvent
avoir des consquences importantes sur le plan commercial par un effet
de promotion, quil sagisse de mdicaments, de dispositifs mdicaux
ou dappareils dexploration mdicale. Ils sont de plus en plus souvent
financs par des entreprises, notamment pharmaceutiques. Cela pose
un rel problme de lindpendance des investigateurs et des scienti-
fiques qui ralisent ces essais par rapport ceux qui les financent [1],
surtout si ces derniers assurent lenregistrement des donnes.
Lobjectivit scientifique voudrait que le traitement des donnes soit fait
ou bien par linvestigateur principal, ou bien par un tiers indpendant
du promoteur-financeur. Au minimum, pour prserver lindpendance
2 http://clinicaltrials:gov
3 En 2012, prs de 130 000 essais dans 180 pays.
des scientifiques, ceux-ci doivent sassurer quils peuvent avoir tout

3 moment accs aux donnes, quils pourront les analyser indpen-
damment, et quils pourront prparer eux-mmes les comptes rendus
de recherche et les publier quels quen soient les rsultats.
Enregistrement de lessai
Tout essai randomis destin tre publi dans une revue inter-
nationale, doit tre enregistr sur un site comme Clinicaltrials.org. Lors
de cet enregistrement, le protocole sera aussi communiqu, mme sil
nest pas rendu public, pour quil soit possible de vrifier si lanalyse
ralise correspond bien ce qui a t dcid dans le protocole initial.
Un numro denregistrement sera dlivr qui devra tre communiqu
lors de la soumission du manuscrit dcrivant ltude.
Rfrence
1. Davidoff F, DeAngelis CD, Draen JM, et al. (2001) Sponsorship, authorship, and
accountibility. N Engl J Med 345: 825-7
Comparaisons cherchant montrer une
diffrence (en gnral un bnfice) 4
Dans toute comparaison, il y a deux risques principaux derreurs : le

premier serait de croire quil y a une diffrence entre deux traitements
alors que cest probablement le hasard qui est intervenu dans les diff-
rences observes ; le second serait de croire quil ny a pas de diff-
rence, alors que celle-ci existe. Ces comparaisons testent lhypothse
quil ny a pas de diffrence de bnfice entre les deux traitements (ou
examens complmentaires), dite hypothse nulle (H0). Lorsque le test
infirme cette hypothse, on conclut quil y a une diffrence.
Le risque de premire espce
Dfinition
Le risque de premire espce (ou risque D) est le risque de conclure
tort, au vu des rsultats, quun examen complmentaire, un traite-
ment ou un facteur de pronostic est meilleur quun autre alors que
cest le hasard qui est responsable des diffrences observes. Cest le
risque que prendrait un joueur la roulette qui, sur neuf coups succes-
sifs, voyant sortir le rouge six fois et le noir trois fois, conclurait quil y
a deux fois plus de numros rouges que de numros noirs.
La plupart des publications portant sur des comparaisons thra-
peutiques prennent en compte ce risque de premire espce ; parfois
cependant laide de moyens mal adapts, voire mme inadapts.
Mais il doit tre estim dans toutes les comparaisons que ce soit des
comparaisons entre deux traitements complmentaires ou entre deux
facteurs de pronostic dune maladie, etc.
Les tests dinfrence statistique sont loutil qui permet de limiter le
risque de premire espce en fixant une valeur maximale derreur
quil parat acceptable de tolrer et qui est, dans toutes les disciplines
scientifiques, de 5 %.

4 Le principe des tests statistiques : lhypothse nulle
Le principe gnral des tests statistiques, dits tests dhypothses,

repose sur la formulation dune hypothse nulle, appele hypothse
privilgie que lon cherche rejeter au profit dune hypothse alter-
native. Lhypothse nulle exprime le plus souvent labsence de diff-
rence entre les deux lments que lon cherche comparer. Rejeter
cette hypothse nulle, cest pouvoir conclure quil existe une diffrence
significative entre les deux lments.
Pour ce faire, cest--dire chercher si une diffrence entre les deux l-
ments est statistiquement significative, il convient de choisir des tests
en fonction de la nature et de la distribution des variables tudies.
Le rsultat de ces tests est une valeur calcule que lon compare des
tables statistiques standardises. Les logiciels statistiques effectuent la
plupart des tests et certains sont mme disponibles sur Internet (par
exemple http://biostatgv.fr). Nanmoins, le principe de ces tests sera
rappel ci-aprs.
Comparaisons de la distribution de deux variables qualitatives :

lexemple du
Prenons lexemple de la comparaison de la valeur diagnostique

de langioscanner hlicodal (ASH) et de la rsonance magntique
nuclaire (RMN) avec injection de gadolinium dans le diagnostic
dadnome hpatique. Supposons que, pour diffrentes raisons, la
comparaison, rtrospective, ait port sur 60 malades qui ont eu un
ASH et 48 malades qui ont eu une RMN (il eut t prfrable de
faire un essai randomis, ou encore mieux de faire les deux examens
chaque malade consentant) (tableau I). Les rsultats observs ont
montr que lASH a permis de faire le diagnostic chez 39 malades sur
les 60 (65 %) et la RMN chez 38 malades sur les 48 (79 %). Au vu de
ces pourcentages, on serait tent de conclure que la RMN avec injec-
tion de gadolinium est un meilleur examen que lASH pour faire le
diagnostic dadnome hpatique. Mais cette diffrence peut-elle tre le
fait du hasard ? Autrement dit, en croyant que la RMN est suprieure
lASH, ne tombe-t-on pas dans le risque de premire espce ?
Pour rpondre cette question, partir des donnes observes, on
calcule les effectifs attendus selon lhypothse nulle cest--dire sil
ny avait pas de diffrence entre les deux examens (tableau II). Si les
valeurs taient quivalentes, la proportion de diagnostics exacts avec
lun et lautre examen auraient t la mme : 77 sur 108, soit 71 %
Comparaisons cherchant montrer une diffrence (en gnral un bnfice) 79
Tableau I Comparaison de langioscanner hlicodal (ASH)

et de la rsonance magntique nuclaire (RMN) dans le diagnostic
dadnome hpatique.
Les effectifs observs
ASH RMN Total
Diagnostic exact 39 38 77
mconnu 21 10 31
Total 60 48 108
Tableau II Comparaison de langioscanner hlicodal (ASH)

et de la rsonance magntique nuclaire (RMN) dans le diagnostic
dadnome hpatique.
Les effectifs attendus
ASH RMN Total
Diagnostic exact 43 34 77
mconnu 17 14 31
Total 60 48 108
comme le montre la troisime colonne du tableau. Rapport aux malades

qui ont eu un ASH, il y aurait eu un effectif attendu de patients chez
lesquels lASH aurait permis de faire un diagnostic exact de 71 % de 60,
soit 43 patients. Il est possible de calculer de la mme faon les effectifs
attendus chez les malades qui ont eu une RMN, etc. En fait, ces autres
effectifs peuvent tre dduits plus simplement par des soustractions
partir dun seul effectif attendu et des totaux des lignes et des colonnes
qui sont inchangs par rapport au tableau des effectifs observs.
Le test de comparaison se fait alors par le calcul du qui mesure
lcart entre lensemble des effectifs observs et des effectifs attendus.
Cette statistique du est gale la somme des carrs des diffrences
entre chaque valeur observe et attendue, divise par la valeur atten-
due (tableau III).
Tableau III Le calcul de la valeur du .

1. Les valeurs observes
Outil Outil
Total
diagnostic A diagnostic B
Diagnostic fait a b L1
non fait c d L2
Total C1 C2 N
2. Les valeurs attendues (hypothse nulle)

4 a = L1 u C1/N ; b = L1 u C2/N, etc.
Outil Outil
Total
diagnostic A diagnostic B
Diagnostic fait a b L1
non fait c d L2
Total C1 C2 N
3. Le calcul du
(a a c)2 (b b c)2 (c c c)2 (d d c)2
F2
(a c) (b c) (c c) (d c)
Dans notre exemple, le calcul montre que la valeur du est gale

2,61.
laide dune table, on calcule, partir de cette valeur du , celle
dune valeur p qui estime la probabilit dobserver une telle diffrence
par le seul effet du hasard (tableau IV). Dans notre exemple, le tant
de 2,61, on voit en lisant la premire ligne de la table du que la valeur
de p est comprise entre 0,20 et 0,10. Comme cette valeur nest pas inf-
rieure 5 % ou 0,05, on ne va pas rejeter lhypothse nulle, cest--dire
que les deux examens ont les mmes performances. En quelque sorte,
on dit que la diffrence observe nest pas significative lorsquelle avait
plus de 5 % de chances dtre obtenue par leffet du seul hasard. Bien
entendu, on aurait pu accepter une hypothse plus laxiste, par exemple
dun p infrieur 15 % au lieu de 5 %, auquel cas la valeur observe
du eut t la limite de la signification, mais redisons-le, dans les
disciplines scientifiques, la valeur maximale acceptable, unanimement
admise de p, est de 5 %.
Tableau IV Tableau simplifi du pour un degr de libert.
Valeurs du 1,07 1,64 2,71 3,84 5,41 6,63 10,83

Valeurs de p 0,30 0,20 0,10 0,05 0,02 0,01 0,001
Les degrs de libert

Lorsque, comme dans notre exemple, la comparaison porte sur deux
variables (diagnostic fait ou non fait) et deux classes (ASH et RMN),
connaissant les totaux des deux lignes (L1 et L2) et des deux colonnes (C1
et C2), on peut partir dun seul nombre du champ du tableau calculer
par des soustractions les autres. On dit alors quil y a un degr de libert.
Lorsque les comparaisons portent sur des variables plus de deux

classes et si les donnes correspondantes sexpriment dans un tableau
plus de deux colonnes (le nombre de ces colonnes tant NC) et plus
de deux lignes (le nombre de lignes tant NL), le nombre de degrs
de libert est gal (NC 1) u (NL 1). Pour un risque de premire
espce de 0,05, le seuil de signification des tests, par exemple, diffre
selon le nombre de degrs de libert. La table du (tableau V) montre
que la valeur du de 3,84 correspond une valeur de p gale 0,05
avec un degr de libert. Cette valeur, pour deux degrs de libert,
serait de 5,99 (deuxime ligne, troisime colonne du tableau).
Tableau V Table du .
Valeur de p
Degrs
de 0,25 0,10 0,05 0,025 0,01 0,005 0,001
libert
1 1,323 2,706 3,841 5,024 6,635 7,879 10,83
2 2,773 4,605 5,991 7,378 9,210 10,60 13,82
3 4,108 6,251 7,815 9,348 11,34 12,84 16,27
4 5,385 7,779 9,488 11,14 13,28 14,86 18,47
5 6,626 9,236 11,07 12,83 15,09 16,75 20,52
6 7,841 10,64 12,59 14,45 16,81 18,55 22,46

7 9,037 12,02 14,07 16,01 18,48 20,28 24,32
8 10,22 13,36 15,51 17,53 20,09 21,96 26,13
9 11,39 14,68 16,92 19,02 21,67 23,59 27,88
10 12,55 15,99 18,31 20,4;8 23,21 25,19 29,59
11 13,70 17,28 19,68 21,92 24,72 26,76 31,26

12 14,85 18,55 21,03 23,34 26,22 28,30 32,91
13 15,98 19,81 22,36 24,74 27,69 29,82 34,53
14 17,12 21,06 23,68 26,12 29,14 31,32 36,12
15 18,25 22,31 25,00 27,49 30,58 32,80 37,70
16 19,37 23,54 26,30 28,85 32,00 34,27 39,25

17 20,49 .24,77 27,59 30,19 33,41 35,72 40,79
18 21,60 25,99 28,87 31,53 34,81 37,16 42,31
19 22,72 27,20 30,14 32,8.5 36,19 38,58 43,82
20 23,83 28,41 31,41 34,17 37,57 40,00 45,32
Valeur de p
4
Degrs
de 0,25 0,10 0,05 0,025 0,01 0,005 0,001
libert

22 26,04 30,81 33,92 36,78 40,29 42,80 48,27
23 27,14 32,01 35,17 38,08 41,64 44,18 49,73
24 28,24 33,20 36,42 39,36 .42,98 45,56 51,18
25 29,34 34,38 37,65 40,65 44,31 46,93 52,62
26 30,43 35,56 38,89 41,92 45,64 48,29 .54,05

27 31,53 36,74 40,11 43,19 46,96 49,64 55,48
28 32,62 37,92 41,34 44,46 48,28 50,99 56,89
29 33,71 39,09 42,56 45,72 49,59 52,34 58,30
30 34,80 40,26 43,77 46,98 50,89 53,67 59,70
Nous avons pris lexemple le plus simple : celui du qui est un test
semi-paramtrique, utilis pour comparer les distributions de deux
variables qualitatives partir dchantillons.
Les tests paramtriques

Les tests paramtriques sont des tests qui requirent une hypo-
thse sur la distribution des variables observes, cest--dire que les
variables tudies suivent une distribution connue, essentiellement la
loi de Laplace-Gauss. Le test paramtrique permettant la comparaison
de la moyenne de deux variables quantitatives est le test t de Student
et lanalyse de variance lorsquil y a plus de deux variables. Lutilisa-
tion de ces tests repose sur lhypothse que les variables suivent des
distributions normales de mme variance. Cette hypothse est gn-
ralement raisonnable dans de nombreux cas tudis dans les sciences
de la vie. En pratique, le test est valide, plus gnralement ds que les
effectifs des chantillons dpassent 30 sujets.
chantillons indpendants et apparis

Des chantillons sont apparis lorsqu une valeur de lun corres-
pond prfrentiellement une valeur de lautre. Cest, par exemple, le
cas lorsque lon a un chantillon de pression artrielle systolique et
un autre de pression artrielle diastolique mesurs chez les mmes

patients ou encore de la comparaison des taux de cholestrol sanguin
avant et aprs traitement chez le mme patient. En effet, dans ce deu-
xime exemple, la baisse du cholestrol aprs traitement est probable-
ment dpendante de la valeur initiale de celui-ci. En pidmiologie, les
tudes cas-tmoins de sujets de mme ge, de mme sexe, etc. reposent
habituellement sur la constitution dchantillons apparis.
Lappariement permet de saffranchir de la variabilit entre les indi-
vidus en se focalisant sur la variabilit intra-individuelle. Lorsque des
chantillons ne sont pas apparis, cest--dire quil ny a pas de dpen-
dance entre les mesures, les variances sont donc plus grandes. Pour
cette raison, il convient dutiliser des tests statistiques adapts au fait
que les chantillons sont indpendants ou, au contraire, apparis.
Le choix dun test

Le choix dun test dpend ainsi :
de la nature de la variable que lon cherche comparer, qualitative,
quantitative ou censure ;
de sa distribution normale ou non ;
du nombre dchantillons que lon cherche comparer, selon quils
sont deux ou plus de deux ;
du caractre appari ou indpendant des chantillons.
Les tests paramtriques en fonction des variables qui sont tudies et des effectifs
Variables
qualitatives quantitatives censures
chantillons n (ou groupes de patients)
Indpendants
n=2 ou z t de Student ou logrank
ou Peto
n>2 Analyse de variance logrank
un facteur ou Peto
Apparis
n=2 de McNemar Analyse de variance
deux facteurs
n>2 Stuart-Maxwell Analyse de variance
de Mantel-Haenzel deux facteurs
De deux variables Coefficient de corrlation de Pearson

quantitatives
4 Les tests non paramtriques

Lorsque lon compare des variables qualitatives discontinues ou
discrtes (nombre de grossesses ou dvnements indsirables dune
chimiothrapie), plus les effectifs sont faibles, moins lhypothse que la
distribution de leurs moyennes soit normale est probable. Dans ce cas,
les rsultats des tests , t, z, etc. ne seront pas valides et auront trop
souvent tendance rejeter lhypothse nulle.
Les tests non paramtriques sont une rponse ce problme. Ces tests ne
ncessitent pas de faire dhypothses sur les distributions des variables,
hypothses qui sont de toute faon difficiles vrifier. Saffranchissant
des contraintes des tests paramtriques, les tests non paramtriques sont
de plus en plus utiliss. Mais les tests non paramtriques sont, en gn-
ral, un peu moins puissants que les tests paramtriques. Pour lauteur
dun travail, dans des situations limites, il pourra tre un peu plus facile
de mettre en vidence une diffrence statistiquement significative avec
un test paramtrique quavec un test non paramtrique. Il en rsulte
que, pour un lecteur, une valeur de p la limite de la signification est
plus convaincante si elle a t estime avec un test non paramtrique
quavec un test paramtrique car aucune hypothse de distribution des
variables nest ncessaire pour sous-tendre ce rsultat.
Les tests non paramtriques en fonction des variables qui sont tudies
et des effectifs
Variables
qualitatives quantitatives censures
chantillons n (ou groupes de patients)
Indpendants
n=2 Test exact Wilcoxon logrank
de Fischer ou Mann-Whitney
n>2 Test exact Kruskall-Wallis logrank
de Fischer
Apparis
n=2 de McNemar Wilcoxon sign
Friedman
n>2 Cochran Q Test de Friedman
ou de deux facteurs
Mantel-Haenzel
De deux variables Coefficient de corrlation
quantitatives des rangs de Spearman et Kendall
Les tests semi-paramtriques

Le , le de McNemar, le logrank, sont en fait des tests semi-
paramtriques. La condition dapplication du test du est davoir des
effectifs calculs > 5. Sinon, dans le cas dune table deux lignes et
deux colonnes, on peut utiliser le corrig de Yates qui est valide
lorsque les effectifs thoriques sont > 3. Le z demande que np et nq
soient > 5 et le test t que les distributions des variables soient normales.
Le logrank qui permet de comparer des variables censures entre elles,
comme des courbes de survie, ressemble dans sa formulation math-
matique au , mais sans avoir de conditions dapplication : il ny a pas
deffectifs minimums ncessaires.
Le test t de Student
Le test t de Student sert comparer deux moyennes dchantillons
indpendants. Prenons lexemple concret du rsultat du dosage de la
ferritine chez les nouveau-ns de deux mois selon que la mre a reu
du fer ou un placebo pendant la grossesse (exemple emprunt [1]).
Les rsultats sont les suivants (tableau VI).
Tableau VI Exemple de test de Student.
Mre ayant reu pendant la grossesse

un placebo (n = 25) du fer (n = 24)
Ferritine des nouveau-ns 2 mois
Moyenne (g/L) 130 190
2
Variance (s ) 4 225 9 025
De faon plus gnrale :
Tableau VII Donnes gnrales pour un test de Student.
Effectifs (chantillons)
Critre de jugement
(Variable quantitative) n1 n2
Moyennes m1 m2
2
Variances s
1
s22
On commence par calculer la variance commune (tableau VIII). Son

4 estimation est pondre par les effectifs de chaque sous-groupe, ou
plus exactement par le nombre de degrs de libert n 1.
Tableau VIII Test de Student.
Estimation de la variance commune (S2T)

Rappel de la formule gnrale :
(n1 1)s12 (n2 1)s 22

s 2T
(n1 1) (n2 1)
Applique notre exemple, cela donne :
(25 1)4 225 (24 1)9 025

(s 2 T ) 6 574
(25 1) (24 1)
Le calcul du test t se fait ensuite de la faon suivante (tableau IX) :
Tableau IX Calcul de la valeur du test t.
m1 m2
t
s 2T s 2T

n1 n2
Applique notre exemple, cela donne :
130 190 60
t 2,59
6 574 6 574 23,17

25 24
La valeur calcule de t (2,59) suit une loi de Student n1 + n2 2

degrs de libert, cest--dire, dans notre exemple (25 1) + (24 1),
soit 47. Une table (tableau X) permet alors destimer, partir du t,
la probabilit de la part du hasard dans les diffrences observes. Sur
cette table, on voit que pour un degr de libert de 47 (donc com-
pris entre 40 et 60) et une valeur de t de 2,59, p est compris entre
0,01 et 0,02, ce qui permet de conclure que le traitement par le fer
des femmes enceintes, pendant la grossesse, a un effet. Les rsultats
observs, 130 g/L avec le placebo et 190 g/L avec le fer montrent que
cet effet est celui dune augmentation de la valeur de la ferritine deux
mois chez le nouveau-n.
Tableau X Table du test de Student. Formulation bilatrale.
Degrs de libert 0,10 0,05 0,02 0,01 0,002 0,001

1 6,314 12,706 31,82 63,66 318,3 636,.6
2 2,920 4,303 6,695 9,925 22,33 31,60
3 2,353 3,182 4,541 5,841 10,21 12,92
4 2,132 2,776 3,747 4,604 7,173 8,610
5 2,015 2,571 3,365 4,032 5,893 6,869
6 1,943 2,447 3,143 3,707 5,208 5,959

7 1,895 2,365 2,998 3,499 4,785 5,408
8 1,860 2,306 2,896 3,355 4,501 5,041
9 1,833 2,262 2,821 3,250 4,297 4,781
10 1,812 2,228. 2,764 3,169 4,144 4,587
11 1,796 2,201 2,718 3,106 4,025 4,437

12 1,782 2,179 2,681 3,055 3,930 4,318
13 l,771 2,160 2,650 3,012 3,852 4,221
14 1,761 2,145 2,624 2,977 3,787 4,140
15 1,753 2,131 2,602 2,947 3,733 4,073
16 1,746 2,120 2,583 2,921 3,686 4,015

17 1,740 2,110 2,567 2,898 3,646 3,965
18 1,734 2,101 2,552 2,878 3,610 3,922
19 1,729 2,093 2,539 2,861 3,579 3,883
20 1,725 2,086 2,528 2,845 3,552 3,850
21 1,721 2,080 2,518 2;831 3,527 3,819

22 1,717 2,074 2,508 2,819 3,505 3,792
23 1,714 2;069 2,500 2,807 3,485 3,767
24 1,711 2,064 2,492 2,797 3,467 3,745
25 1,708 2,060 .2,485 2,787 3,450 3,725
26 1,706 2,056 2,479 2,779 3,435 3,707

27 1,703 2,052 2,473 2,771 3,421 3,690
28 1,701 2,048 2,467 2,763 3,408 3,674
29 1,699 2,045 2,462 2,756 3,396 3,659
30 1,697 2,042 2,457 2,750 3,385 3,646
40 1,684 2,021 4,423 2,704 3,307 3,551

60 1,671 2,000 2,390 2,660 3,232 3,460
120 1,658 1,980 2,358 2,617 3,160 3,373
f (normale) 1,645 1,960 2,326 2,576 3,090 3,291
Ce test t est valable si la distribution des variables est normale. Il

4 faut encore que, dans chacun des groupes que lon compare, les
variances soient gales. Il est possible de rendre une distribution
plus normale par transformation : on remplace les valeurs par leur
racine carre ou par leur logarithme. Sinon, il convient dutiliser
un test non paramtrique (par exemple ici, le test de Wilcoxon ou
de Mann-Whitney).
Lanalyse de variance
Lanalyse de variance (ANalyis Of VAriance, appele ANOVA) sert

comparer les moyennes de variables quantitatives dans plus de deux
chantillons indpendants (ANOVA un facteur). Cest galement un
moyen conomique danalyser les expriences dans lesquelles deux
facteurs ou plus ont t contrls par lexprimentateur (ANOVA
deux facteurs par exemple). LANOVA permet de tester lgalit des
moyennes et non des variances (comme le libell danalyse de variance
pourrait le laisser supposer). LANOVA permet, par exemple, dinter-
prter la comparaison, chez des femmes qui ont une intervention
gyncologique, de la qualit de vie mesure par des scores concernant
la sant gnrale, la sant mentale, ltat motionnel etc. avant linter-
vention, six semaines aprs et six mois aprs [2].
La variance commune (S 2T) est la variance qui serait estime sur la
totalit de la population tudie, tous sous-groupes que lon cherche
comparer, confondus. La variation interchantillons est due aux carts
entre les moyennes de chaque chantillon et la moyenne gnrale.
Le concept de variance rsiduelle (S 2R) diffre : cest la moyenne des
variances estimes de chaque sous-groupe. Son estimation ne ncessite
pas de prendre en compte les valeurs de chacune des mesures faites sur
la population tudie. On peut cependant concevoir que la variance
dun chantillon portant sur 1 000 mesures pse plus lourd que
celle qui ne porterait que sur 10 mesures. Lestimation de (SR) est donc
obtenue en pondrant les estimations dans chaque sous-groupe par les
effectifs de ceux-ci ou plus exactement par le nombre de degrs de
libert (n 1). On peut encore dire que la variation interchantillons
est lie aux facteurs que lon souhaite comparer (des variables quan-
titatives), appele pour cette raison, variation factorielle. En revanche,
la variation intra-chantillon cumule les carts de chaque valeur indi-
viduelle de la variable leur moyenne dchantillon. Cette dispersion
provient des fluctuations alatoires de lchantillon. Cest la variation
rsiduelle (S 2R).
Lide danalyser des variances pour comparer des moyennes repose sur
le fait, dmontrable mathmatiquement, que lorsque plusieurs moyennes
ne sont pas diffrentes entre elles (hypothse nulle), la variance totale
(S2T) de lchantillon doit tre gale la variance rsiduelle (S2R). Dans
tous les autres cas, (S2T) diffre de (S2R) en lui tant suprieure.
Dans lhypothse nulle, et dans cette seule hypothse, la variance totale
tant gale la valeur rsiduelle, le rapport
s 2 T s 2R
F est nul.
s 2R
Dans tous les autres cas, s 2T est suprieur s 2R.. Une fois calcule la
valeur de F, comme pour le 2 ou le test t, une table de F donne, en
fonction du nombre de degrs de libert, les seuils au-dessus desquels
cette valeur est statistiquement diffrente de 0, cest--dire que les
diffrences observes sont statistiquement significatives.
Supposons que lon veuille comparer dans trois groupes de patients A,
B, et C deffectifs na nb et nc (N tant le nombre total dobservations),
les moyennes ma mb et mc, les variances s 2a, s 2b, et s 2c, pour savoir si elles
sont statistiquement diffrentes ou non. Supposons encore que, pour
chaque patient, les valeurs mesures soient pour le groupe A, xa1, xa2,
xa3, etc., pour le groupe B, xb1, xb2, xb3, etc. et pour le groupe C xc1, xc2,
xc3,, etc.
Lobjectif est de calculer une valeur F et de voir, en se reportant une
table, si cette valeur estime permet ou non de rejeter lhypothse
nulle. Pour cela, il faut calculer la variance totale et la variance rsi-
duelle (tableau XI).
Tableau XI Calcul de la valeur du test F dans une analyse

de variance (ANOVA).
La variance totale (ST) est estime par la formule :
6i (x ai ma )2 6i (x bi m b )2 6i (x ci mc )2
S2 T
N 1
La variance rsiduelle est estime par la formule :
(na 1)s 2a, (n b 1)s 2 b, (nc 1)s 2c,

S2 R
(na 1) (n b 1) (nc 1)
et la valeur de F est gale :
s 2 T s 2R
F
s 2R
En pratique, le calcul de la variance rsiduelle ne ncessite pas de

4 reprendre toutes les valeurs xa1, xa2, xa3, etc. ni les variances sa, sb, et
sc, de chaque sous-groupe, pondres par leur degr de libert na 1,
nb 1, nc 1. La valeur de F est en effet gale au rapport de la variance
totale, moins la variance rsiduelle sur la variance rsiduelle.
Le principe des tests non paramtriques

Ces tests reposent souvent sur la transformation des valeurs obser-
ves en leur rang obtenu en les classant de la plus petite la plus
grande sur les rangs. Ils sappliquent quelle que soit la distribution de
la variable dans lchantillon. Ils saffranchissent ainsi de la contrainte
de la normalit de distribution qui est exige pour utiliser des tests
paramtriques. Prenons la comparaison dune variable quantitative
entre deux chantillons, par exemple les valeurs de la tension art-
rielle maximale en millimtres de mercure, chez deux groupes de
malades traits par deux mdicaments antihypertenseurs diffrents A
et B, lanalyse tant ralise laide du test de Wilcoxon (tableau XII).
Il convient de commencer par classer par ordre croissant les valeurs
observes comme ci-aprs.
Tableau XII Comparaison

de deux mdicaments antihypertenseurs.
Valeur de la pression artrielle

Anti-hypertenseur Rang
(mmHg)
89 A 1
96 A 2
98 B 3
101 A 4
104 B 5
106 B 6
108 B 7
Il faut ensuite faire la somme des rangs dans un groupe. Pour des
saisons de simplification, il est plus ais de choisir celui dont leffectif
est le plus petit. Dans notre exemple, trs simplifi, le groupe A. Cette
somme T est gale 1 + 2 + 4. On calcule ainsi la valeur z qui est gale
2,23 (tableau XIII).
Tableau XIII Calcul de la valeur Z dans un test de Wilcoxon.
nA est leffectif du groupe A (le plus petit des deux : 3 dans notre exemple).
nB est leffectif de lautre groupe (ici 4).
12 est une constante, quel que soit leffectif (en effet, si nA et nB sont > 10, Z suit
alors une loi normale).
T 0,5 nA nB 1) / 2
z 2,23
nA nB (nA nB 1) /12
En se rapportant la table du tableau du z, on peut rejeter lhypothse

nulle si z est > 1,96, ce qui correspond p < 0,05 (tableau XIV). La
diffrence observe est alors statistiquement significative.
Tableau XIV Table du z.
Probabilit (%) qu'une valeur (en valeur absolue)

Valeur du Z
soit situe au-del
3,89 0,0001
3,29 0,00
2,58 0,01
2,33 0,02
2,l7 0,03
2,05 0,04
1,96 0,05
1,65 0,10
1,44 0,15
1,28 0,20
1,15 0,25
1,04 0,30
0,84 0,40
0,67 0,50
0,42 0,60
0,39 0,70
0,25 0,80
0,13 0,90
0,001 0,99
Cette table signifie que la valeur dune variable quantitative de distri-

4 bution normale na que 5 % de chances dtre suprieure en valeur
absolue 1,96 u cart-type, cest--dire a 2,5 % de chances dtre
suprieure 1,96 u cart-type et 2,5 % de chances de lui tre inf-
rieure. Lorsque les effectifs sont trs petits (nA + nB < 10), une table
spciale doit tre utilise.
Remarques propos du logrank [3]
Le logrank est un test non paramtrique conu pour comparer des

variables censures. Il ne peut pas fournir destimation sur lampleur
des diffrences observes ni donner dintervalle de confiance ; pour ce
faire, il convient dutiliser le modle de Cox de hasard proportionnel.
Le logrank ne sinterprte de faon simple que si la diffrence entre
les probabilits de survie dun groupe sont toujours de mme signe,
cest--dire lorsque les courbes de survie ne se croisent pas.
Le risque de deuxime espce

Ce risque (risque ) est celui de conclure tort quil ny a pas de
diffrence entre deux examens ou deux traitements alors quen ra-
lit, il y a une diffrence. Pour faire comprendre ce risque, prenons
un exemple caricatural. On se demande si un traitement nest pas
meilleur quun autre sans que cela soit vident, ce qui est la condition
thique pour entreprendre un essai randomis. Supposons que celui-ci
soit parfaitement conu lexception de lestimation des effectifs de
malades quil convient dinclure dans ltude. Si la comparaison ne
porte que sur deux groupes de cinq malades, il est trs probable que,
sil y a une diffrence assez faible entre les deux traitements, on ne la
voie pas avec des effectifs aussi rduits, et que lon ne rejette donc pas
lhypothse nulle.
Beaucoup trop dessais randomiss nont pas pris en compte ce risque.
Il est en effet plus facile et plus rapide de mener un essai rando-
mis dans lequel le nombre de malades inclus est faible que sil est
important. Le rsultat attendu de ces essais est quils ne permettent
pas de rejeter lhypothse nulle. Une raction frquente est alors de
penser et de dire que les essais randomiss ne servent rien. Lautre
consquence plus grave encore est, sur le plan mdical, particulire-
ment prjudiciable dans le traitement dune maladie grave, un cancer
par exemple, car on ne va pas faire bnficier les malades dun trai-
tement qui, pourtant, apporte une amlioration, mme partielle, de
leur pronostic. Une analyse de 71 essais randomiss dont les rsultats

avaient t considrs comme ngatifs, car non significatifs, a montr
que dans 57 dentre eux, le traitement que lon avait valu tait, en
fait, susceptible de donner des rsultats 25 % meilleurs que ceux des
traitements de rfrence, mais que les auteurs taient passs ct de
cette diffrence en ne prenant pas en compte correctement le risque
de deuxime espce >4@. De plus, 34 tudes avaient pu mconnatre
une chance damliorer de 50 % les rsultats par rapport ceux du
traitement de rfrence.
Valeur acceptable du risque de deuxime espce
Pour choisir le risque de deuxime espce, il faut avoir pralable-

ment dfini la diffrence ct de laquelle on ne voudrait pas passer si
elle existait. partir de ce choix, on fixe un seuil de risque de manquer
cette diffrence que lon considre comme acceptable, de la mme
faon que lon se fixe le risque acceptable de premire espce de 0,05.
Il ny a pas de valeur seuil imprative pour ce risque de deuxime
espce, notamment car ce seuil est reli la diffrence que lon
souhaite ne pas manquer ou diffrence dintrt clinique. En dautres
termes, dans la comparaison dun pourcentage observ la valeur de
50 %, il ny a pas de diffrence entre : 20 % de risque de manquer un
pourcentage qui serait vraiment 69 %, 10 % de risque de manquer un
pourcentage qui serait 72 %, 50 % de risque de manquer un pourcen-
tage qui serait 64 %. En pratique, il faut donc dabord dcider quelle
diffrence aurait un intrt clinique si elle existait, et ensuite dcider
du risque que lon est prt prendre de ne pas conclure cette diff-
rence la fin de lessai. Cest donc la combinaison de la diffrence que
lon veut mettre en vidence et du risque de manquer celle-ci qui doit
tre considr : 20 % de risque de manquer une petite diffrence peut
amener un essai plus lourd mener, mais plus pertinent quun essai
o lon avait 10 % de risque de manquer une grande diffrence.
Souvent on prend un risque de 20 % de manquer la diffrence clinique
dintrt. En effet, un plus grand risque amnerait trop souvent une
conclusion ngative alors mme quun effet existe. On peut diminuer
ce risque ( 10 %, voire 5 %) si lon souhaite rduire le risque de passer
ct dun nouveau traitement ou test dintrt.
On appelle puissance dun test le complment du risque , cest-
-dire 1 . Un test est puissant si la probabilit de mettre en vidence
une diffrence (rejet de lhypothse nulle), si diffrence il y a, est forte.
effectif fix, un test est dautant plus puissant que la diffrence entre
les groupes est grande et diffrence entre groupes fixe, un test est
dautant plus puisant que les effectifs inclus sont grands. Se fixer un
4 risque maximum de 10 % veut dire que lon se fixe une puissance
maximale du test de 90 %.
La dmarche du calcul de la puissance est essentiellement une dmarche
a priori lorsque lon labore un essai. Calcule en fin dtude, la notion
de puissance a un intrt plus limit : si lon a rejet lhypothse nulle,
on trouvera bien videmment que le test tait puissant pour la diff-
rence observe et si lon na pas rejet lhypothse nulle, on trouvera
que la puissance tait mdiocre pour la diffrence observe.
Dtermination des effectifs dans un essai randomis
Ltape laquelle on dtermine les effectifs est souvent ltape

dcisive dans la possibilit de ralisation dun essai : de l dcoule
lorganisation ncessaire, les ressources, le choix dune approche multi-
centrique, etc. Cest aussi une tape difficile car elle va demander de
faire une hypothse, donc un pari sur ce que lon espre gagner avec le
nouveau traitement. Faire cette hypothse est souvent ltape pratique
qui pose problme linvestigateur. La tendance naturelle est, en effet,
desprer que le nouveau traitement apportera plus de bnfice quil
nen est, en ralit, donc de surestimer leffet attendu.
Mais comme on la vu plus haut, plus cette diffrence suppose est
grande, plus le nombre de sujets inclure dans ltude sera faible. Plus
cette diffrence sera faible, plus il faut inclure de patients dans lessai.
Mais une estimation trop optimiste du bnfice du nouveau traite-
ment par rapport au traitement de rfrence entranera un essai de
petite taille et favorisera ainsi de tomber dans le risque de deuxime
espce : manquer une diffrence qui existait vraiment, parce quelle
tait plus petite que ce que lon a suppos. Lexcs inverse serait dtre
trop pessimiste. Dans ce cas, on serait amen inclure dans ltude un
nombre de sujets plus important que ce qui eut t ncessaire. Cela
allongera dautant la dure de ltude et retardera les conclusions que
lon peut en tirer. Les deux envoient sur des problmes thiques : de
trop petits essais sont peu puissants et mneront une absence de
conclusion ; de trop grands essais constituent une perte de chances
pour les patients qui auraient pu obtenir plus vite le nouveau traite-
ment ou tre orients sur une autre thrapeutique.
Afin de ne pas sengager la lgre dans un essai randomis qui est
toujours une entreprise lourde, il est utile de tester le nouveau traite-
ment sur une petite srie de sujets afin de se faire une premire opinion
de ce que lon peut raisonnablement attendre du nouveau traitement
et fonder sur ces rsultats prliminaires une hypothse de gain qui ne

soit pas trop subjective et le plus souvent trop optimiste.
Le tableau XV montre le nombre de sujets quil convient dinclure dans
un essai randomis lorsque lon compare deux pourcentages pour un
risque de 0,05 et un risque de 0,10, cest--dire une puissance du
test de 90 %.
Tableau XV Effectifs de sujets inclure dans une comparaison

de deux variables qualitatives (pour = 0,05 et = 0,10).
Pourcentage espr Pourcentage connu avec lexamen

avec le nouvel examen ou le traitement de rfrence
ou le nouveau traitement 5% 10 % 20 % 30 % 40 % 50 %
10 % 578 263 79 59 23
15 % 184 915 1 209 158 62 33
20 % 97 263 389 106 48
30 % 44 79 389 473 121
40 % 25 39 106 473 515
Ce tableau appelle quatre remarques.

1. Il confirme ce qui vient dtre indiqu : plus la diffrence espre est
importante, plus le nombre de sujets quil est ncessaire dinclure dans
ltude est faible et rciproquement. Lorsque la typhomycine a t
dcouverte, les mdecins se sont aperus que la plupart des malades
qui taient atteints de forme grave de fivre typhode et qui en mour-
raient, gurissaient dornavant avec cet antibiotique. Cette observa-
tion sur un petit nombre de malades traits rendait inutile de faire
un essai randomis. Les progrs thrapeutiques sont malheureusement
bien souvent moins spectaculaires au sens propre et figur. Cest ce
qui explique, justifie et ncessite la fois la mise en uvre dessais
randomiss et, compte tenu du nombre important de sujets quil est
ncessaire dinclure dans ltude, dtre amen faire des essais multi-
centriques.
2. Il existe une symtrie entre des diffrences () similaires. Par
exemple, si le pourcentage connu est de 10 % et que le pourcentage
espr avec le nouveau produit est de 20 %, il faut inclure 263 sujets
par groupe. Si, au contraire, le pourcentage connu tait de 20 % et
que lon espre que le nouveau produit (par exemple une chimio-
thrapie moins toxique) diminuera le pourcentage de contreparties
10 %, il faudrait inclure galement 263 sujets par groupe. Cest ce
que montre encore, de faon plus gnrale, le calcul du nombre de

4 sujets inclure pour des risques donns et en fonction des rsultats
connus du produit de rfrence et espr du nouveau produit
(tableau XVI).
3. Pour une mme diffrence entre la valeur connue du produit de rf-
rence et du nouveau produit, plus les valeurs sont proches de 50 %,
plus le nombre de sujets quil est ncessaire dinclure est lev. Dans le
tableau XV, si lon passe de 10 % 20 % il convient dinclure 263 sujets
par groupes. Si lon passe de 30 % 40 %, il faut inclure 473 sujets.
Tableau XVI Calcul du nombre de sujets inclure

dans un essai randomis.
2 u V2
N = (1,96 + Z1 )2
'2
est lcart-type.
est la diffrence espre _1 2 _
Pour une puissance de 80 %, on aurait Z1 = 0,84
4. Plus on se fixe une puissance du test lev (1 ), plus il faut inclure

de sujets dans ltude, ce qui revient dire que lon risque moins de
passer ct dune petite diffrence. En revanche, si la diffrence
tait plus importante que celle qui tait pressentie, elle aurait pu tre
montre plus rapidement, faisant ainsi bnficier plus tt les malades
dun meilleur traitement (tableau XVII).
Tableau XVII Exemples du nombre de sujets inclure, par groupe,

pour la comparaison de deux moyennes en fonction de la puissance
du test (1 ) que lon se fixe.
Puissance (1 )
_ 1 2 _/ 0,80 0,85 0,90 0,95
0,10 1 571 1 797 2 102 2 600
0,30 175 201 234 290
0,50 64 73 85 105
0,70 33 38 44 54
0,90 20 23 27 33
1,10 14 16 18 22
1 est la moyenne observe avec lexamen (ou traitement) de rfrence.
1 est la moyenne espre avec le nouvel examen (ou traitement) de rfrence.
est lcart-type observ avec lexamen (ou traitement) de rfrence.
Le risque de troisime espce

Ce risque (risque ), relativement faible, mais grave par ses cons-
quences, est celui de conclure tort la supriorit dun test diagnos-
tique ou dun traitement sur un autre, alors que cest linverse. Pour
limiter ce risque, il convient dutiliser des tests statistiques bilatraux
(two tailed ou two sided analysis). Quand lhypothse nulle est rejete,
on conclut une diffrence, et cest le rsultat qui montre lequel est
suprieur lautre. Un test bilatral implique linclusion dun plus
grand nombre de sujets dans ltude.
Par exemple, une tude a compar le traitement des carcinomes
hpatocellulaires de petite taille (< 3 cm) par mthode physique per-
cutane et par rsection chirurgicale [5]. En labsence dhypothse sur
celui de ces deux traitements qui tait le meilleur en termes de survie,
il tait indispensable denvisager dans linterprtation des rsultats un
test statistique dans une formulation bilatrale.
La multiplication des tests statistiques

Dans linterprtation des rsultats dun essai randomis, les tests
statistiques sont donc, en quelque sorte, les garde-fous pour faire
la part du hasard et ne pas risquer de conclure, au vu dune diffrence,
quil y a rellement diffrence alors que cest en grande partie le hasard
qui est intervenu dans les diffrences observes.
Mais dans un essai, la multiplication des tests statistiques lorsquelle
nest pas contrle peut tre une cause derreurs dinterprtation dans
trois circonstances principales : cest le cas danalyses de rsultats en
cours dessai (dites analyses intermdiaires) ; cest encore le cas en fin
dessai, soit de lanalyse de nombreux critres de jugement secondaires,
soit de lanalyse de nombreux sous-groupes de sujets inclus dans lessai.
Les analyses intermdiaires en cours dessai

Chez des malades qui ont eu une rsection pour un cancer du pou-
mon, si lon veut savoir si une association de radiothrapie et de chimio-
thrapie, dites adjuvantes, amliore de 10 % le taux de survie cinq
ans, le faisant passer de 50 % 60 %, pour un risque de 0,05 et un
risque de 0,10, il faut inclure 515 malades dans chaque groupe, soit
1 030 malades en tout. Si lon pense pouvoir inclure 150 malades par an,
il faudrait un peu plus de sept ans pour mener bien les inclusions et au
moins une huitime anne afin que le dernier patient inclus dans ltude
ait au minimum un an de recul. Si lon ajoute lanalyse des rsultats, leur

4 interprtation, le temps de rdaction dun compte rendu de recherche,
lenvoi un priodique pour publication, les dlais de rponse et de
publication, il faut encore, en tant optimiste, deux annes. Or, en gn-
ral, on estime, compte tenu des expriences, quil nest pas souhaitable,
pour diffrentes raisons, dentreprendre des essais pour des priodes
dinclusion des sujets dans ltude sur plus de cinq ans.
Il est vident que, si lon pouvait dmontrer avant la fin dun essai quun
nouveau traitement est meilleur quun autre (traitement de rfrence ou
placebo), on gagnerait un temps prcieux qui viterait de poursuivre
un traitement moins bon jusqu la fin de lessai, ce qui permettrait
encore de faire bnficier plus rapidement tous les malades du nouveau
traitement sil savrait plus efficace que le traitement de rfrence. La
tentation est donc forte de faire des analyses intermdiaires, cest--dire
une analyse des rsultats avant que tous les malades prvus naient t
inclus dans ltude. Ces analyses intermdiaires, si elles montrent une
diffrence statistiquement significative en faveur du nouveau traitement,
permettraient darrter lessai plus tt que prvu initialement. Les ana-
lyses squentielles (cf. p. 103) reposent sur cette ide.
Cependant, ces analyses intermdiaires ne sont acceptables que si elles
ont t prvues dans le protocole labor en dbut dtude, avant le
commencement des inclusions. En effet, plus on augmente le nombre
danalyses intermdiaires, ne ft-ce que dune, plus on augmente le
risque que, par hasard, un test statistique montre une diffrence signi-
ficative, cest--dire, tombe dans le risque de premire espce. Le
tableau XVIII montre, en fonction du nombre danalyses interm-
diaires, le risque global derreur de premire espce. De faon caricatu-
rale, si lon faisait un nombre infini danalyses intermdiaires, le risque
de premire espce serait de 100 %. On conclurait alors toujours
lexistence dune diffrence.
Tableau XVIII Risque global de premire espce

en fonction du nombre de tests raliss au seuil de 5 %.
Nombre de tests raliss Risque global derreur de 1re espce

1 0,05
2 0,08
5 0,14
10 0,19
20 0,32
1,00
Pour cette raison, dans un essai randomis, si lon envisage de faire des
analyses intermdiaires, il faut les prvoir dans le protocole initial et
en tenir compte dans le calcul des effectifs afin de maintenir le risque
de premire espce 0,05. Cela implique de se fixer un premier seuil
de signification du premier test que lon ralise, plus bas que la valeur
habituelle de 0,05. Dans le tableau XVIII, la valeur de 0,05 ne doit pas
tre la valeur du premier test, mais celle du dernier qui est prvu. Il
faut donc inclure un plus grand nombre de sujets que si lon ne faisait
pas de tests intermdiaires. Il existe plusieurs rgles communment
utilises : la rgle de Bonferroni fixe comme seuil de signification de
chaque test, non pas 0,05, mais 0,05/n o n est le nombre de tests quil
est prvu de raliser ; la rgle de Peto fixe un seuil trs faible pour les
premiers tests (en gnral 0,0001) et rserve le gros du risque pour
lanalyse finale.
Les analyses multiples en fin dtude

Elles posent les mmes problmes et dans des termes analogues. Par
exemple, si le but dun essai randomis est de comparer deux traite-
ments pour lesquels il est prvu cinq critres de jugement indpen-
dants, tenant compte des avantages, mais aussi des contreparties des
traitements, et un seuil habituel de risque de premire espce de 0,05,
le risque que lon observe une diffrence significative, mais due au
hasard, pour lun des cinq critres de jugement slve 14 %.
Les analyses de sous-groupes

Il en est de mme pour ces analyses. Par exemple si aprs avoir fait
un test sur lensemble des cas inclus dans lessai, on fait, sil sagit
dun essai thrapeutique, une analyse sur le sous-groupe de malades
qui nont pas denvahissement ganglionnaire, une autre analyse sur
le sous-groupe de malades qui ont un envahissement ganglionnaire,
une autre sur ceux qui nont pas denvahissement de la musculeuse sil
sagit dun cancer du tube digestif, etc. Il est ainsi souvent assez facile
de raliser de nombreux tests sur des sous-groupes et que lun des tests
montre une diffrence statistiquement significative sans tenir compte
du fait quen multipliant le nombre des tests, on augmente dautant
le risque global derreur de premire espce, si lon sen tient au seuil
habituel de signification de 0,05 comme le montre le tableau XVIII.
Autrement dit, de la mme faon que le nombre danalyses interm-
diaires augmente le risque de premire espce, il en est de mme de
laugmentation du nombre de critres de jugement. Linterprtation

4 des diffrences observes concernant les critres de jugement secon-
daires ou des sous-groupes doit donc tre dautant plus prudente
que ceux-ci sont nombreux [6], surtout si les auteurs nont pas pris
les mmes prcautions concernant les calculs des effectifs que pour
des analyses intermdiaires. Cette malfaon est assez frquente. Pour
des auteurs qui ont fait un essai randomis qui ne montre pas de
diffrence significative concernant le critre de jugement principal,
une manire de sauver leur travail est de multiplier les critres de
jugement secondaires ou les analyses de sous-groupes, ce qui permet
daugmenter les chances que lun des tests soit significatif, alors quil
relve du risque global de premire espce.
Les rticences des comits scientifiques des priodiques mdicaux et
des maisons ddition publier des essais randomiss dont les rsultats
ne montrent pas de diffrence statistiquement significative entre les
deux sujets qui ont t compars, contribuent favoriser ces rat-
trapages qui constituent autant de biais dautant plus critiquables
que les auteurs nindiquent gnralement pas le nombre de critres
de jugement secondaires ou de sous-groupes qui ont fait lobjet de
tests dinfrence statistique. Un des objectifs du dpt des protocoles
sur le site clinicaltrials.gov est dviter ce qui constitue une vritable
malfaon.
Rfrences
1. Doyon F, Com-Nougu C (1983) Quest-ce quun test ? Les principaux tests
statistiques. La Revue du Praticien 33: 947-54
2. Reitsma ML, Vanderkerkhof EG, Johnston SC, Hopman WM (2011) Does
health-related quality of life improve in women following gynaecological
surgery? J Obstet Gynaecol Can 33:1241-7
3. Bland JM (2004) The logrank test. BMJ 328: 1073 et 1412
4. Freiman JA, Chalmers TC, Smith H, Kuebler RR (2001) The importance of beta,
the type II of error and sample size in the design and interpretation of the
randomized controlled trial. Survey of 71 Ngative trials. N Engl J Med 345:
825-7
5. Chen HS, Li JQ, Zheng Y, Guo RP, et al. (2006) A prospective randomized trial
comparing percutaneous local elective therapy and partial hepatectomy for
small hepatocellular carcinoma. Ann Surg 243: 21-8
6. Pocock SJ, Hughes MD, Lee RJ (1987) Statistical problems in reporting of
clinical trials. A survey of medical journals. N Engl J Med 317: 426-32
Autres types dessais randomiss
5
Essais dans lesquels les sujets sont leurs propres

tmoins ; essais croiss (cross over en anglais)
Le principe
Comme il a dj t voqu, dans certaines situations, il est possible

que le sujet soit son propre tmoin. Plusieurs ventualits existent.
Cest dabord le cas dexamens complmentaires non invasifs, par
exemple si lon veut comparer deux examens morphologiques comme
lchographie et la rsonance magntique nuclaire et que le malade
accepte davoir les deux examens lun aprs lautre. Cest encore le cas
dun examen biologique si le malade ne voit pas dinconvnient ce
quon lui prlve un peu plus de sang pour raliser les deux examens
que lon cherche comparer.
Mais il y a dautres possibilits. On peut, notamment pour des affections
dermatologiques bilatrales ou diffuses, faire ou bien un traitement local
dun ct du corps et un autre traitement local sur une lsion sym-
trique ou bien dans une zone et dans une autre zone de dermatose.
En thrapeutique, il est encore possible de faire des essais croiss
en administrant un patient un traitement A, puis un traitement B
(ou inversement), selon une squence A-B ou B-A, tire au sort
(tableau XIX).
Tableau XIX Schma dun essai crois.
Randomisation : Premire priode de lessai Seconde priode de lessai

Sujets 1, 3, 6 Traitement A Traitement A
Sujets 2, 4, 5 Traitement B Traitement B

Cest ce qui a t ralis dans la comparaison de trois stratgies de

5 traitement du diabte, traitements dlivrs pendant des priodes
successives de 3,5 mois un groupe de malades afin dtudier leffica-
cit biologique et la tolrance de chaque stratgie [1].
Les avantages
Le fait que le sujet soit son propre tmoin devrait, sur le plan arith-
mtique, permettre de diviser par deux le nombre total de sujets
inclure dans ltude pour un seuil donn de risque de deuxime espce,
lorsquil y a deux groupes indpendants. Si ce nombre est N avec un
essai classique, il devient N/2 dans un essai crois, mais on double le
temps de participation de chaque sujet.
En ralit, sur le plan statistique, les choses sont un peu plus complexes.
Si le critre de jugement est quantitatif, le nombre de sujets N' dpend
aussi du coefficient de corrlation r qui va, rappelons-le de 1 + 1
entre les rponses dun sujet aux deux traitements. N' est alors gal :
N
Nc (1 r )
2
Si la corrlation est positive et tend vers + 1, le nombre de sujets nces-
saires diminue car la diffrence de rponse aux traitements sera peu
variable dun patient lautre et donc facilement mise en vidence. Si
la corrlation est nulle, il ny a pas davantage avoir inclus les mmes
patients deux fois puisque les deux sries sont indpendantes. Le cas dune
corrlation ngative des rponses au traitement chez un mme individu
est sans doute plus une curiosit mathmatique quune situation relle.
Les essais croiss apportent des informations supplmentaires celles
dun essai classique en groupes parallles. Ces derniers permettent de
conclure quun traitement A est meilleur quun traitement B. La conclu-
sion logique est alors de traiter les patients avec le produit A. Avec
lapproche dans laquelle le malade est son propre tmoin, la mthode
permet de mesurer la proportion de patients ne rpondant pas au trai-
tement A, mais dont certains peuvent nanmoins bnficier du traite-
ment B en seconde ligne. Cette approche correspond bien une attitude
thrapeutique clinique : quand un traitement est inefficace, on en essaye
un autre, mme sil peut tre globalement moins efficace.
Les conditions
Dans les essais croiss, il faut, bien entendu, pouvoir valuer leffet du
premier traitement administr avant de commencer le deuxime trai-
tement. De plus, il ne faut pas que le traitement administr pendant la
Autrestypes dessais randomiss 103
premire priode interagisse avec celui de la seconde priode, que ce soit

une interaction positive, synergique ou ngative, antagoniste. Il est pos-
sible de se prmunir de cette ventualit en sparant les deux priodes
de traitement par un intervalle de temps libre appel fentre thrapeu-
tique (wash out en anglais). Il faut aussi, dans un essai crois, que la
maladie que lon traite soit stable dans le temps, ce qui est paradoxal
dans la mesure o le traitement que lon value pendant cette priode
peut soulager temporairement le malade, mme sans le gurir. Si le
malade gurit avec le premier traitement, il devient impossible dvaluer
le second. Cela explique que de bonnes applications des essais croiss
soient des affections chroniques : affections rhumatologiques, certaines
maladies cutanes, maladie de Crohn, encore que dans ce dernier cas
lvolution par pousses complique linterprtation des rsultats.
Lanalyse statistique
Le calcul initial du nombre de sujets ncessaires et lanalyse statis-
tique reposent sur des tests pour sries apparies. Lorsque la variable
est qualitative, les rponses aux deux traitements peuvent tre toutes
deux positives, toutes deux ngatives ou divergentes. On ne retient pas
les rsultats concordants qui napportent pas dinformation la ques-
tion pose : celle du meilleur traitement.
Les analyses squentielles

Dans un essai randomis, si lon pouvait dmontrer avant la fin
prvue dun essai quun nouveau traitement est meilleur quun autre
(traitement de rfrence ou placebo), on gagnerait un temps prcieux.
Cest lobjectif des analyses intermdiaires dont nous avons aussi mon-
tr les contreparties. Il peut arriver que, dans un essai randomis, les
rsultats sur les premiers malades inclus dans ltude aient pu conduire
interrompre plus tt que prvu lessai. Ainsi, un essai randomis a
t entrepris chez des nouveau-ns qui avaient une hypertension pul-
monaire persistante, comparant un groupe tmoin et un groupe rece-
vant une oxygnation laide dune membrane extracorporelle [2]. Il
sest avr quil y a eu quatre dcs chez dix enfants du groupe tmoin
qui recevaient un traitement conventionnel et aucun dcs chez neuf
enfants recevant une oxygnation. Cet essai ne pouvait pas tre ralis
en aveugle. Bien que la diffrence observe chez ces dix-neuf premiers
malades inclus dans lessai ne soit pas statistiquement significative
(p = 0,09), les pdiatres qui avaient entrepris cet essai ne se sont pas
sentis en droit de le poursuivre et ont conclu en faveur de loxygna-
tion laide dune membrane extracorporelle.
Cest un peu des observations de ce genre qui, bien que trs rares, ont
5 conduit proposer des analyses squentielles Leur but est de limiter
linconvnient dattendre la fin dun essai randomis classique pour
conclure et donc pour recommander plus rapidement une attitude
meilleure quune autre.
Le principe
Les analyses squentielles consistent, comme leur nom le suggre,

inclure des malades dans ltude par groupes de deux ou par petits
groupes de nombre pairs ce que lon appelle une analyse squentielle
groupe ou faire une analyse cumule aprs chaque inclusion. Chaque
analyse porte sur lensemble des cas inclus depuis le dbut de lessai.
Ce qui fait la diffrence avec ce que seraient des analyses intermdiaires
trs rapproches et successives, est que chaque analyse est reporte sur
un graphique prtabli (fig. 1). En ordonnes sont portes les diff-
rences entre les traitements qui sont compars (Z), et en abscisse la
quantit dinformation cumule proportionnelle linverse de la
variance (V). La pente des droites parallles qui dlimitent ces trois
Fig. 1 Analyse squentielle en cas de test unilatral. Laxe V indique la quantit

dinformation accumule et laxe Z, la diffrence entre les traitements compars.
Aprs chaque paire de malades inclus (ou groupes de paires), on reporte le rsul-
tat sur la figure jusqu ce que lon sorte de la bande de continuation de lessai.
H0 : hypothse nulle.
Autrestypes dessais randomiss 105
zones est calcule en dbut dtude selon les mmes principes que ceux
qui servent calculer le nombre de cas quil est ncessaire dinclure
dans un essai randomis classique en tenant compte des seuils choisis
de risques de premire et de deuxime espce.
Aprs chaque analyse, un point peut ainsi tre dtermin et plac sur
le plan squentiel. Lors de lanalyse suivante, partir de lemplacement
du premier point, on place plus loin sur laxe des abscisses un second
point, etc. Le plan squentiel comporte trois zones. Une premire zone
de rejet de lhypothse nulle correspond la supriorit dun traite-
ment par rapport un autre. Une deuxime zone est celle de lhypo-
thse nulle (H0) qui doit faire poursuivre lessai. La troisime zone
est une zone dans laquelle il nest pas possible de rejeter lhypothse
dabsence dgalit de traitement (en formulation unilatrale).
Ds que lon a franchi une droite frontire, cest--dire que lon est
sorti de la zone de continuation de lessai, celui-ci est termin. De
faon gnrale, il est estim que les analyses squentielles permettent
de rduire le nombre de cas inclure dans un essai randomis de 30 %
en moyenne par rapport une analyse unique en fin dessai.
Nanmoins, ce type danalyse squentielle expose au risque de rester
trs longtemps dans la zone de continuation de lessai. Pour ne pas
sexposer cet inconvnient, il est possible de prvoir un test trian-
gulaire, transformant les droites parallles en un triangle (fig. 2) qui
assure un nombre fini de cas inclure dans lessai [3].
Fig. 2 Test triangulaire en cas de test unilatral, permettant dviter une

poursuite indfinie de lessai si lon restait dans la zone de continuation de
lessai.
H0 : hypothse nulle.
5 Place des analyses squentielles

Les analyses squentielles sont peu utilises, peut-tre parce quelles
se prtent surtout lanalyse dun critre de jugement qui est une
variable binaire. En fait, il est galement possible de les adapter des
variables censures. Cela demande une logistique plus lourde que les
essais classiques, notamment parce que les analyses doivent tre faites
en temps rel.
Rfrences
1. Kalergis M, Paaud D, Strychard I, et al. (2000) Optimizing insulin delivery:
assessment of three strategies in intensive diabetes management. Diabetes Obes
Metab 2: 299-305
2. ORourke PP, Crone RK, Vacante JP (1989) Extracorporeal membrane
oxygenation and conventional medical therapy in neonates with persistant
pulmonary hypertension of the newborn: a prospective randomized trial.
Pediatrics 84: 957-63
3. Chastang C, Bnichou J (1992) Aspects pratiques de la planification et de
lanalyse dun essai thrapeutique randomis selon le test triangulaire. In :
Chastang C, Pons G, Rgnier (eds) Mthodes nouvelles en pharmacologie
clinique pdiatrique ; relation dose-effet des antibiotiques. Rgles darrt dun
essai clinique. Springer-Verlag, Paris, p 157-80
Comparaisons cherchant montrer
une quivalence 6
Les essais classiques ont pour objectif de dterminer si une

innovation, que ce soit un nouvel examen radiologique ou un nouveau
traitement, apporte rellement un progrs par rapport un examen
ou un traitement antrieur, de rfrence. Comme nous lavons
expliqu, la mthode consiste supposer a priori quil ny a pas de
diffrence entre lancien traitement et le nouveau : cest lhypothse
nulle. Si cette hypothse est infirme, on en dduit que le nouveau
traitement est suprieur lancien. Si lhypothse nulle est confirme,
on a tendance dduire, de labsence de diffrence significative, quil y
a quivalence entre les deux traitements. Cette dmarche est errone :
rejeter lhypothse dune diffrence entre deux traitements ne permet
pas de conclure quil y a quivalence entre ces deux traitements.
Or, sassurer dune quivalence entre deux examens ou entre deux
traitements est important. Ainsi, en recherche pharmacologique de
bioquivalence, on est souvent amen se demander si une nouvelle
molcule, qui a moins de contreparties quune autre, entrane le mme
effet biologique quune molcule standard antrieure. Il est encore utile
de savoir si une nouvelle forme dadministration, glule per os, offre la
mme biodisponibilit quun solut injectable. En recherche clinique,
on est confront aux mmes problmes ; par exemple, entre une
molcule princeps et un gnrique ou encore en oncologie entre diff-
rents modes dadministration dune chimiothrapie dans un cancer.
Toujours en oncologie, une chimiothrapie peut donner dexcellents
rsultats antitumoraux, mais au prix de contreparties svres, ce qui
incite laborer de nouveaux traitements mieux tolrs, mais dont
on cherche sassurer quils sont aussi efficaces ou du moins non
infrieurs aux anciens (essais de dsescalade).
Contrairement la dmarche qui cherche prouver la supriorit dun
traitement par rapport un autre, dans les tudes dquivalence, on
part de lhypothse inverse : celle quil y a une diffrence deffet entre
les deux traitements. Si cette hypothse est infirme, on en dduit quil

y a quivalence entre ces deux traitements, cest--dire que le nouveau

6 traitement na pas une efficacit thrapeutique diffrente de celle du
mdicament de rfrence ou standard (S).
Le principe
Ainsi, lobjectif dune tude dquivalence est de montrer que deux

traitements ne diffrent pas en ce qui concerne le critre de jugement
principal qui peut tre valu en termes de pourcentage sil sagit dune
variable qualitative, ou de moyenne sil sagit dune variable quantita-
tive. Le seuil maximal de diffrence en valeur absolue, 'L, des rsultats
des deux traitements que lon accepte, est fix a priori pour conclure
quil y a quivalence. Il est habituellement de 10 %, mais on peut tre
plus exigeant ou, au contraire, moins exigeant selon les consquences
mdicales et la valeur absolue du risque.
Si la diffrence observe ~'~ est infrieure 'L, on estime quelle est
suffisamment petite pour accepter lhypothse quil y a quivalence
entre les deux traitements. En revanche, si la diffrence observe ~'~
est suprieure 'L, on ne peut pas considrer que les deux traitements
sont quivalents. Cest ce que lon peut schmatiser par la figure 1.
Fig. 1 Schma montrant le principe de dtermination de lquivalence en

situation bilatrale (le nouveau mdicament, sil y a une diffrence avec le trai-
tement de rfrence, peut tre suprieur ou infrieur au mdicament de rf-
rence, produit standard PS). Si la diffrence observe ~'~ est infrieure
'L, on estime quelle est suffisamment petite pour accepter lhypothse quil y
a quivalence entre les deux traitements. En revanche, si la diffrence observe
~'~ est suprieure 'L, on ne peut pas considrer que les deux traitements
sont quivalents.
Comparaisons cherchant montrer une quivalence 109
En fait, deux situations peuvent se prsenter. Dans le cas dune situation

bilatrale (le nouveau mdicament, sil y a une diffrence avec le trai-
tement de rfrence, peut tre suprieur ou infrieur au mdicament
de rfrence), on dtermine les deux bornes de la zone dquivalence
autour de la valeur du mdicament de rfrence (exprime par un
pourcentage ou une moyenne) (fig. 2 A). La zone dquivalence se
situe entre les deux bornes. Au-del, il ny a pas quivalence. Dans le
cas dune situation unilatrale, il ny a quune seule borne dtermi-
nant la zone dquivalence, situe soit gauche (fig. 2 B1), soit droite
(fig. 2 B2).
B1
B2
Fig. 2 Schma montrant le principe de dtermination de lquivalence. En A,

en situation bilatrale comme dans la figure 1. En B, en situation avec une seule
borne dterminant la zone dquivalence, situe soit gauche (fig. 2 B1), soit
droite (fig. 2 B2) de la valeur (PS) du mdicament de rfrence.
6 Diffrences entre une recherche de bnfice (supriorit) et dquivalence

Lhypothse nulle (H0)
Il y a galit entre A et B (A = B) Il y a diffrence entre A et B (A z B)
'=0 _'_ 'L*
Lhypothse alternative (H1)
Il y a une diffrence entre A et B (A z B) Il y a quivalence entre A et B (A = B)
'z0 _'_ < 'L
On teste H0 contre H1
1) Si on peut rejeter H0, on peut conclure 1) Si on peut rejeter H0, on peut conclure
une diffrence entre A et B. lquivalence entre A et B.
2) Si on ne peut rejeter H0, 2) Si on ne peut rejeter H0,
on ne peut rejeter lhypothse dgalit on ne peut pour autant rejeter
mais on ne peut dduire quil y a lhypothse dune diffrence***.
quivalence**
*_'_ est la valeur absolue de la diffrence observe et 'L est la valeur maximale limite que lon
se fixe pour admettre labsence de diffrence.
** Alors que ceux-ci peuvent tre diffrents : problme de la puissance du test.
*** Alors que ceux-ci peuvent tre quivalents : problme de la puissance du test.
Calcul du nombre de sujets ncessaires
Dans la recherche dune supriorit dun traitement par rapport un

autre traitement, il faut limiter le risque de conclure tort labsence
de diffrence alors que le nombre de sujets (N) inclus dans ltude
est insuffisant pour le montrer (ce qui revient dire que la puissance
du test est insuffisante). De mme, dans une recherche dquivalence
(dfinie par 'L), il convient destimer le nombre de sujets ncessaires
par groupe pour mettre en vidence lors dun test de seuil lquiva-
lence de deux produits qui diffrent de moins de ( < 'L) avec une
puissance au moins gale (1 ). Le calcul montre quil faut en
gnral pour un essai dquivalence un nombre de sujets comparables
ceux des essais de supriorit.
Techniques de recherche dquivalence [1]
Pour dterminer sil y a ou non quivalence, les tests statistiques

habituels ne sont pas utilisables. Deux mthodes sont possibles.
Lune utilise lintervalle de confiance [2]

Lorsque le critre de jugement est quantitatif, il sagit dune rgle
de dcision fonde sur lintervalle de confiance de la diffrence (d)
des moyennes du produit standard (S) et du nouveau produit (N).
Les limites de lintervalle de confiance L1 et L2 sont fixes a priori et
centres sur 0 qui reprsente le point o la diffrence entre S et N
est nulle. Les limites de lintervalle de confiance sont donnes par le
calcul :
d r H SE
o H est la valeur de lcart rduit qui est donn par une table pour un
donn, (en gnral 0,05, ce qui donne une valeur de H de 1,96 et o
(SE) est lerreur standard de d.
Lorsque le critre de jugement est qualitatif, on raisonne sur des pour-
centages au lieu de raisonner sur des moyennes. La diffrence (d) des
pourcentages de bons rsultats entre le produit standard (S) et le nou-
veau produit (N) scrit d = S N. La dviation standard (DS) de cette
diffrence sobtient en calculant la racine carre de la variance de cette
diffrence qui nest autre que la somme des variances de chaque pour-
centage :
pq
Variance =
n
o p est le pourcentage observ, q = 1 p et n est le nombre de sujets
inclus dans ltude.
Les limites de lintervalle de confiance sont donnes, comme prc-
demment, par le calcul :
d r H DS.
Dautres mthodes utilisent des tests spcifiques [3]

De mme que dans un essai pour chercher la supriorit dun trai-
tement par rapport un autre (ou un placebo), il est ncessaire de se
fixer des limites au risque que lon accepte de prendre, notamment au
risque D de premire espce de conclure tort lexistence dune dif-
frence, risque que lon cherche infirmer.
Un exemple est tir dune tude nord-amricaine [4]. Son but tait
de savoir si ladministration de soins par des infirmires nentranait
pas de diffrence de rsultats avec des soins administrs par des mde-
cins. Les auteurs avaient fix comme limite maximale de diffrence ()
acceptable, 10 %.
Trois cent quatre-vingt-douze patients ont t rpartis par tirage au sort,

6 225 suivis par des mdecins et 167 par des infirmires. Le critre de juge-
ment a t la qualit des soins sur un certain nombre de critres aboutis-
sant un classement en bon ou mauvais. Le tableau I montre les rsultats.
Tableau I Rsultats de ltude. Effectifs observs (o) [4].

Mdecins Infirmires Total
Rsultats :
Bons 148 115 263
Mauvais 77 52 129
1 2
Total n = 225 n = 167 N = 392
Lhypothse teste tait, ici, celle dune diffrence entre rsultats des
mdecins et ceux des infirmires. Lhypothse alternative tait celle
dune diffrence qui nexcde pas 10 % et que lon choisira si le test
est significatif. Le pourcentage global de soins de bonne qualit tait de
263/392 = 0,67 (et celui de mauvaise qualit de 129/392 = 0,33).
Il faut commencer par calculer les effectifs thoriques des pourcen-
tages de bons et de mauvais rsultats P1 et P2 des infirmires et des
mdecins. Le calcul de P1 et P2 doit tenir compte du fait que les effectifs
dans les deux groupes ne sont pas similaires. Il est gal :
263 167 263 225
P1 u 0,10 0,71 et P2 u 0,10 0,61
392 392 392 392
La diffrence est bien de 0,10.
Les effectifs thoriques de bons rsultats des mdecins sont donc de
0,71 u 225 = 159,75. En reprenant les totaux de lignes et de colonne
du tableau II, il est facile de calculer par complment les quatre effec-
tifs thoriques.
Tableau II Effectifs thoriques calculs (c).

Mdecins Infirmires Total
Rsultats :
Bons 159,75 103,75 263
Mauvais 65,25 63,75 129
Total n1 = 225 n2 = 167 N = 292
Le se calcule par la formule :

(o c)2
F2 6 6,48
c
La valeur de ce traduit une diffrence statistiquement significative,

ce qui veut dire la diffrence de qualit des rsultats entre les mdecins
et les infirmires est significativement infrieure 10 %.
Mthodes de dtermination de lquivalence

Par le calcul dun intervalle de confiance
Le critre de jugement est quantitatif (moyenne)
Par lintervalle de confiance (IC) symtrique autour de la diffrence observe (d)
entre les valeurs de deux traitements.
Par lIC de la diffrence entre les valeurs des deux traitements, symtrique autour
de 0 (exemple donn dans le texte. Westlake).
Par lIC du rapport des valeurs de deux traitements (Mandaliaz et Mau >4@).
Le critre de jugement est qualitatif (pourcentage)
Par lIC de la diffrence entre les valeurs des deux traitements, symtrique autour
de d.
Par lIC de lodds ratio.
Par des tests spcifiques
Le critre de jugement est quantitatif (moyenne)
Par le test de Hauck et Anderson >5@.
Par le test de Patel et Gupta >6@.
Le critre de jugement est qualitatif (pourcentage)
Par le test de Dunnet et Gent >7@.
Conclusion
Il importe dans la formulation dun essai de bien savoir si lon
cherche mettre en vidence une plus grande efficacit dun produit
par rapport un autre ou bien une quivalence entre des produits .
Cest galement lors de cette tape prliminaire que lon doit dfinir
la marge dquivalence (') au-dessous de laquelle on estime quune
diffrence na pas suffisamment dintrt pour tre prise en compte.
Pour ce faire, on peut saider des tudes antrieures.
Ces tudes dquivalence soulvent parfois encore des problmes
dthique, en particulier dans les tudes de dsescalade en cancro-
logie. Quelle perte de taux de succs peut-on admettre en contrepar-
tie dune rduction notable en toxicit ? Ou encore, quel bilan cot
efficacit peut-on tenter dtablir ?
6 Rfrences
1. Com-Nougue C, Rodary C (1987) Revue des procdures statistiques pour
mettre en vidence lquivalence de deux traitements. Rev Epidem Sant Publi
35: 416-30
2. Weswstlake W (1972) Use of confidence intervals in analysis of comparative
biovailability trials. J Pharm Sci 61: 1340-1
3. Dunnett CW, Gent M (1977) Significance testing to establish equivalence
between treatments with special reference to date in form of 2 x 2 tables.
Biometrics 33: 593-602
4. Mandallaz D, Mau J (1981) Comparison of different methods for decision-
making in bioequivalence assessment. Biometrics 37: 213-322
5. Hauck WW, Anderson S (1984) A new statistical procedure for testing
equivalence in two-groups comparative biovailability trials. J Pharmacokin
Biopharmaceut 12: 83-91
6. Patel HJ, Gupta GD (1981 March) A problem of equivalence in clinical trials.
Eastern North American Region meeting. Richmond Virginia
7. Karnofski DA, Abelmann WH, Craver LF, Burchenal JH (1948) The use of
nitrogen mustards in the palliative treatment of carcinoma. With particular
reference to brochongenic carcinoma. Cancer 1: 634-56
Conclusions
Les malfaons des essais randomiss

Soixante-sept essais randomiss avaient t publis de juillet
dcembre dans le New England Journal of Medecine, le Lancet, le British
Medical Journal, ainsi que de juillet 1979 juin 1980 dans le Journal
of the American Medical Association. Onze critres de qualit de ces
essais ont t analyss [1]. Ils taient prsents dans seulement 56 %
des cas, ambigus dans 10 % et absents dans 34 %. Les critres dinclu-
sion ntaient prciss que dans 19 % des cas ; la mthode de tirage
au sort ntait indique que dans 19 % des cas ; la puissance des tests
statistiques dans 12 % des cas. Il y avait des diffrences statistiquement
significatives selon les journaux puisque les pourcentages de critres
de qualit allaient de 71 % pour le New England Journal of Medicine
45 % pour le Lancet (p < 0,001).
Un autre travail a analys les essais randomiss publis de juillet 1995
juin 1998 dans les six principaux priodiques chirurgicaux en
langue anglaise [2]. Les trois principales imperfections concernaient
la puissance du test (68 %), la mthode de randomisation (60 %) et
lapprciation en insu ou non des critres de jugement (68 %). Il y a eu
cependant une amlioration de la qualit mthodologique de ces essais
au cours du temps. Elle tait meilleure en 1998 que celle observe dans
une tude similaire ralise en 1981-1982.

Grille dvaluation mthodologique dun essai randomis >3@
Cette grille sinspire des recommandations uniformes des comptes rendus dessais
randomiss (Consolidated Standards of Reporting Trials CONSORT) >4, 5@.
Nous avons mis en gras, ce qui nous parat la fois particulirement important et
souvent en dfaut.
1. Expos des hypothses qui ont motiv lessai et son objectif.
2. Les donnes fondamentales :
1. Sujets inclus dans ltude :
critres dinclusion et dexclusion ;
nombre de sujets remplissant les critres dinclusion, mais non entrs dans lessai
et raisons ;
description de lchantillon.
2. Ce que lon cherche valuer :
appareil dinvestigation, dispositif mdical implantable, etc. (fabricant, date) ;
ou traitement mdical (posologie, mode et horaires dadministration, autres
traitements admis ou non) ;
ou traitement chirurgical (technique) ;
ignorance en simple insu (sujet) ou en double insu (sujet et prescripteur) ;
en cas dvnement indsirable, ce qui est prvu ?
3. Les critres de jugement :
principal ;
secondaires ;
recueil par qui et comment (en insu) ?
3. Statistique
1. Calcul des effectifs
en fonction des hypothses mdicales, des risques consentis ;
a-t-il t prvu des analyses intermdiaires ? de sous-groupes ?
2. Randomisation
type (permutation de nombres au hasard ?) ;
centralise ou non ?
stratification ou non ?
intervalle entre le tirage au sort et la mise en uvre de ce que lon cherche valuer.
3. Tests statistiques pertinents en fonction des variables tudies.
4. Analyse des rsultats
dviations par rapport au protocole (inclus secondairement exclus, allocation de
protocole errone, etc.) ; jugement en intention de traiter, puis per protocole.
perdus de vue
description des groupes compars.
5. Considrations thiques et rglementaires
consentement clair ;
promotion et obligations lgales.
6. Lors de llaboration du protocole
date de dbut et de fin espre des inclusions ;
financement.
Conclusions 117
Cette grille de lecture dun essai randomis et de son corollaire qui est
llaboration du protocole mrite quelques commentaires.
1) Dans la dfinition des donnes fondamentales (2), il ne faut jamais
oublier denvisager les interactions qui peuvent exister entre elles, ce
qui amne souvent revoir ces donnes plusieurs reprises avant de
les arrter dfinitivement.
2) Les critres de jugement (2, 3) doivent tre dtermins a priori et
non au moment de lanalyse des rsultats. Cela est indispensable, ne
ft-ce que pour calculer les effectifs de sujets qui doivent tre inclus
dans lessai.
3) Leur recueil sur des critres objectifs doit se faire, de faon prfren-
tielle, par un observateur indpendant.
4) Le calcul de ces effectifs (3. 1.) est souvent difficile, nglig ou mal
conduit. La prise en compte du risque de deuxime espce est le point
important qui est souvent le plus mal trait dans les essais randomiss.
5) Aucun essai nest parfait. Faire tat des dviations par rapport au
protocole prvu est un signe dhonntet scientifique et rciproquement.
Rfrences
1. Dersimonian R, Charrette LJ, McPeek BA, Mosteller F (1982) Reporting on
methods in clinical trials. N Engl J Med 306: 1332-7
2. Schuman LP, Fischer JS, Thisted RA, Olak J (1999) Clinical trials in general
surgical journals: are methods better reported? Surgery 125: 41-5
3. Charpak Y (1995) Une grille de lecture des essais thrapeutiques randomiss.
Pour quoi faire ? Pour qui ? Le Concours mdical 117: 2865-8
4. Altman DG (1996) Better reporting of randomised controlled trial: the
CONSORT statement. Br Med J 313: 570-1
5. Liem MSL, Van der Graaf Y, Van Vroonhoven JMV (1997) CONSORT
randomized trials and the scientific community. Br J Surg 84: 769-70
Partie
Forces dassociation,
tudes multifactorielles,
3
mesures dimpact, causalit
Introduction
Les comparaisons entre les caractristiques ou la rponse au traite-

ment sont values par des tests statistiques. Ces tests sont choisis en
fonction de la nature de la variable tudie, quantitative, qualitative ou
censure. Par exemple, on la vu (partie prcdente), le test du logrank
permet dapprcier si une diffrence de survie entre des patients qui
ont un cancer avec mtastases ganglionnaires et ceux qui nont pas de
mtastases est statistiquement significative ou non.
La force dassociation entre des variables relve dun concept diff-
rent. Elle mesure lintensit des liens qui peuvent exister entre deux
ou plusieurs variables, plutt que dvaluer si ce lien est d au hasard.
Ces tudes sont dites unifactorielles (univariate analysis en anglais)
lorsquelles estiment les liens entre une variable expliquante et une
variable explique. Lorsquil existe non pas une seule, mais plusieurs
variables expliquantes , appeles covariables, les tudes sont dites
multifactorielles (multivariate analysis).
Dans ces tudes, les outils de mesure dpendent de la nature des
variables tudies (tableau I). Par exemple, lorsque les deux variables,
expliquer et expliquante, sont quantitatives, la force dassociation
est mesure par le coefficient de corrlation ou un modle de rgres-
sion linaire. Lorsque la variable expliquer est qualitative et que les
autres sont quantitatives ou qualitatives, cette mesure peut se faire par
lestimation des risques relatifs ou des odds ratio. Lorsque la variable
expliquer est censure, on aura recours des rapports de risques ins-
tantans (hazard ratio ou HR, en anglais).

Tableau I Moyens dtude des forces dassociation.
tudes unifactorielles tudes multifactorielles

Variables expliques :
quantitatives rgression simple rgression multiple
qualitative risque relatif et odds ratio rgression logistique
censure risque relatif ; hazard ratio modle de Cox
Un problme essentiel est de ne pas confondre association et causalit.

Une force dassociation, statistiquement significative, nimplique pas
pour autant quil y ait causalit entre une covariable expliquante et
la variable explique, sauf si le dessin de ltude permet cette expli-
cation. Un exemple simple est celui des doigts jaunis du fumeur et du
cancer du poumon. Il y a une association entre les deux, cependant les
doigts jaunis ne sont pas la cause du cancer du poumon. Comme nous
le verrons, la causalit est difficile mettre en vidence. Un certain
nombre de critres pourront tre vrifis, mais leur absence ne peut
pas faire carter pour autant, avec certitude, un lien de causalit entre
deux facteurs.
Les tudes unifactorielles. La rgression linaire
et la corrlation 1
La corrlation
Le coefficient de corrlation de Pearson

La force dassociation entre deux variables quantitatives peut tre
estime par le coefficient de corrlation not r. Il est gal au rapport
de la covariance entre x et y, divis par le produit de leur cart-type s
(tableau II).
Tableau II Le coefficient de corrlation linaire de Pearson.
s 2 xy
r
sx sy
sxy est la covariance de X avec Y et sx, sy sont lcart-type de chaque variable.
Ce coefficient peut aller de 1 +1. Sil est suprieur en valeur absolue

0,8, la force dassociation entre les deux variables peut tre consid-
re comme importante ; entre 0,5 et 0,8 comme modre ; entre 0,2
et 0,5 comme faible, et trs faible au dessous. Un signe positif traduit
une association positive : la valeur de y crot avec celle de x. Une
association ngative traduit linverse (fig. 1). Lhypothse ncessaire
la validit de cette mesure est que la distribution de X et de Y soient
conjointement normales.

Fig. 1 Exemple de corrlations mesurant le degr dassociation entre deux

variables quantitatives. Ce coefficient (r) peut aller de + 1, traduisant une cor-
rlation positive parfaite entre deux variables, 1, traduisant une association
totalement ngative entre deux variables, en passant par 0 qui reflte labsence
de corrlation.
Tests et coefficient de corrlation

On peut tester lhypothse que le coefficient de corrlation r est gal
0, cest--dire labsence dassociation entre les deux variables. Si ce test
est significatif, on rejette lhypothse nulle en concluant que les deux
variables x et y ne sont pas indpendantes. Le test peut tre ralis direc-
tement partir de la valeur de r, et dans ce cas, il est ncessaire de dis-
poser dune table des valeurs limites du coefficient de corrlation. Cette
table est lue en fonction du nombre de degrs de libert gale n 2
ou n est le nombre de paires (x, y) analyses. Il peut aussi tre ralis
en transformant la valeur de r en t r ((n 2) /(1 r 2 )), valeur qui est
alors compare au seuil de la loi de Student n 2 degrs de libert.
De la mme manire quil existe des tests non paramtriques pour
comparer des variables qualitatives entre elles, ainsi quentre deux
variables quantitatives et qualitatives, il y a des coefficients de corr-
lation non paramtriques, par exemple de Kendall ou de Spierman
pour les variables quantitatives. Ils permettent de saffranchir des
Les tudes unifactorielles. La rgression linaire et la corrlation 125
contraintes dune distribution normale, rencontres avec le coefficient

de corrlation de Pearson. Ces coefficients sont calculs partir des
rangs des observations et reposent sur le mme principe que le test de
Wilcoxon (cf. page 91). Leur valeur va de 1 1, une valeur proche
de 1 signifiant une bonne corrlation.
La rgression linaire
La rgression permet dobtenir un modle prdictif entre deux
(rgression simple) ou plusieurs (rgression multiple) variables. Cest
donc une tape supplmentaire par rapport au coefficient de corrla-
tion qui mesurait lassociation. Lorsque les variables sont quantitatives
et que la relation entre elles est linaire, on appelle le modle la rgres-
sion linaire. Elle est utilise, par exemple, pour savoir si la mortalit
postopratoire dans diffrents services de chirurgie est associe ou non
au nombre dinterventions ralises dans chaque service, dans lanne.
Les donnes peuvent tre reprsentes sur un graphique (fig. 2) sur
lequel est port en abscisse, pour chaque hpital, le nombre dinter-
ventions faites dans lanne et en ordonne la valeur correspondante
de lautre variable, dans notre exemple, le nombre de dcs postop-
ratoires. Il en rsulte un modle statistique simple qui est la droite
de rgression linaire dont lquation sexprime sous la forme suivante
indique dans le tableau III.
Fig. 2 Exemple de corrlation entre deux variables quantitatives : la mortalit

postopratoire et le nombre dinterventions chirurgicales ralises dans lanne
dans divers tablissements hospitaliers.
Tableau III Modle de rgression linaire.

1
y = b + ax + e
Dans cette quation :
y et x sont les deux variables quantitatives que lon modlise, y tant la variable
explique et x la variable expliquante ;
b est une constante appele ordonne lorigine (intercept en anglais) car elle
reprsente la valeur de y lorsque x est gal 0.
a quantifie lamplitude des variations de y en fonction de celles de x ; cest la pente
de la droite de rgression (slope en anglais).
e est un terme derreur, que lon suppose de distribution normale, de moyenne
nulle et de variance fixe .
Modle prdictif
La rgression permet, partir dune association observe, de
dvelopper un modle prdictif, cest--dire, partir dune valeur
dune variable x, de prdire la valeur de lautre variable y. La droite
de rgression prdit la valeur moyenne de y en fonction de x. La
variance de cette prdiction comprend non seulement la variance du
terme derreur (), mais aussi un terme li lincertitude destima-
tion de a et b (fig. 3). Dans une telle rgression, on appelle coeffi-
cient de dtermination la valeur R = r. Celui-ci indique la part de
la variance de Y qui est explique par le modle. La valeur de R est
entre 0 et 1. Plus elle est grande, plus importante est la qualit pr-
dictive du modle.
Fig. 3 Modle prdictif. Une droite de rgression linaire prdit la valeur

moyenne de y que lon peut assortir dun cart-type en fonction des diffrentes
valeurs de x.
Risques relatifs et odds ratio

Ltude et la connaissance des facteurs de risque sont au centre des
proccupations des pidmiologistes. Par exemple, quel est le risque
de survenue dun msothliome pleural chez une personne qui a t
expose lamiante ? Quel est le risque de survenue, lhiver en France,
dune gastro-entrite si lon mange des hutres ? Cette connaissance
est encore fondamentale chez un malade afin de pouvoir tablir un
pronostic.
Le risque absolu
Le taux dincidence est une mesure descriptive en pidmiologie
correspondant au nombre de nouveaux cas dune maladie, dune rci-
dive ou dun dcs, recenss dans une population pendant une priode
de temps donne. Autrement dit, cest le rapport du nombre de nou-
veaux cas sur leffectif de la population tudie pendant la priode
donne. Lincidence est une mesure du risque absolu. Par exemple, en
France, sur un an, 40 nouveaux cas de cancers du clon chez lhomme
observs dans une population de 100 000 habitants correspond une
incidence annuelle de 40/100 000.
Le taux dincidence peut aussi tre estim en personne-annes. Par
exemple, si 800 personnes risque sont suivies pendant un an, et
600 autres pendant deux ans, et que 26 sont devenues sropositives
au VIH pendant leur suivi, on pourra calculer un taux dincidence de
1,3 pour 100 annes-personnes. Ceci permet dexploiter des donnes
pour lesquelles les dures de suivi sont varies.
Lincidence permet de suivre lvolution de la frquence dune affec-
tion dans le temps. Elle complte la notion de prvalence qui est le
nombre total de cas dune affection un moment donn.
Le risque relatif
Le risque relatif mesure les consquences de la prsence dun
facteur de risque par rapport au risque qui existe dans une popu-
lation dpourvue de ce facteur de risque. Ainsi, tout homme (ou
femme) peut avoir un cancer du poumon, mme sil ne fume pas.
Mais le fait de fumer augmente ce risque (et cette augmentation
est dose dpendante). De mme, aprs une intervention chirurgi-
cale pour une maladie de Crohn, un patient qui fumait et conti-
nue fumer a statistiquement 1,3 5 fois plus de risques, selon les
sries, de faire une rcidive que sil sarrte de fumer. Inversement,

1 la prescription dacide 5-amino-salicylique diminue ce risque rela-
tif [1]. Cette action bnfique a t confirme par des essais rando-
miss. Il est donc toujours ncessaire de dfinir une population ou
une catgorie de population de rfrence par rapport laquelle le
risque relatif sera calcul.
Le risque relatif est mesur par le rapport du risque absolu ou taux
dincidence chez les sujets exposs au facteur de risque sur le taux
dincidence chez les sujets qui ne sont pas exposs. Le risque relatif
peut tre apprci lorsque le critre de jugement (ou vnement) est
qualitatif : par exemple, survenue ou non dune gastro-entrite aprs
consommation dhutres. Pour expliquer la mesure du risque relatif,
nous prendrons lexemple fictif de leffet sur la mortalit du traitement
dun cancer par une chimiothrapie (tableau IV).
Tableau IV Le risque relatif (RR).
Exemple fictif : effet dune chimiothrapie sur la mortalit dans un cancer
Patients dcds Patients vivants Total
Chimiothrapie 63 39 102
Pas de chimiothrapie 70 34 104
Total 133 73 206
Le risque de dcs dans le groupe trait est de : 63/102.

Le risque de dcs dans le groupe non trait est de 70/104.
Le risque relatif de dcs du groupe trait par rapport au groupe non trait est de :
63 /102
0,92
70 /104
De faon plus gnrale, si les donnes sont les suivantes :
Malades Non malades Total
Exposs au risque (E) a b l1
Non exposs (E ) c d l2
Total c1 c2 N
Le risque relatif des exposs au risque (E) par rapport au groupe non expos (E )
est de :
a / l1
RR
c /l2
Un risque relatif > 1 dfinit un facteur de risque, et un risque relatif

< 1 un facteur protecteur.
Les cotes ou odds

Dans les tudes cas-tmoins, il nest pas possible de calculer le risque
absolu, et partant, les risques relatifs. Dans ces cas, on se sert des odds
ou cotes et de leurs rapports (odds ratio en anglais). Le terme franais
de rapport de cote tant peu employ en mdecine, nous utiliserons le
terme anglais dodds ratio. En revanche, signalons que le terme de cote
est assez utilis par les turfistes. Dans une course de chevaux, lorsque
lon dit quun cheval est cot 9 contre 1, cest une cote. Elle signifie que
sur 10 parieurs, 9 vont parier contre ce cheval et 1 va parier sur lui.
Les odds ratio sont une mesure qui approche de faon correcte le risque
relatif lorsque celui-ci est faible. Mme, si les odds et les odds ratio sont
des notions moins intuitives que celle du risque relatif, lodds ratio doit
sinterprter comme un risque relatif. Son utilisation est, avant tout,
motive par des raisons mathmatiques.
Reprenons lexemple du tableau I. Lodds de dcs chez les malades
qui ont eu de la chimiothrapie est de 63/39 soit 1,6. Lodds chez les
malades qui nont pas eu de chimiothrapie est de 70/34, soit 2,1. Lodds
ratio est le rapport de ces deux odds, soit 63 u 34/39 u 70, soit 0,8.
De faon plus gnrale, lodds ratio est donn par la formule suivante
(tableau V) :
Tableau V Lodds ratio.

Non exposs (E -) c d l2
Total c1 c2 N
Lodds ratio des exposs au risque (E) par rapport au groupe non expos (E ) est de :
a /b a ud
c /d b uc
Remarques et interprtations des risques relatifs et des odds ratio

Si lon compare ces donnes avec celles qui estiment le risque rela-
tif, on se rend compte que lodds ratio (0,8) se rapproche dautant
plus du risque relatif (0,9) que lvnement, ici le dcs (malades du
tableau IV), est rare par rapport labsence dvnements, ici la survie
(non malades du tableau IV). A contrario, en termes defficacit dun
traitement, lodds ratio aura tendance surestimer leffet du traitement

1 quand le risque de base est lev (au-dessus de 25 % environ). Dans
ces cas, les rsultats reprsents avec un odds ratio seront plus favo-
rables au traitement que ceux fonds sur le risque relatif, et lodds ratio
surestimera largement le risque relatif.
Tests
Comme dans toute comparaison, il est possible, grce un test
statistique de dterminer si le risque relatif ou lodds ratio observs
sont statistiquement diffrents de 1, cest--dire de rejeter lhypothse
dgalit de risque ou dodds ratio entre les deux lments que lon
compare. Dans ce cas, il est possible de conclure une association
entre le facteur tudi et, dans notre exemple, la mortalit.
Intervalle de confiance
Il est aussi souhaitable destimer lintervalle de confiance 95 %
autour dun risque relatif ou dun odds ratio et leur variance (s)
(tableau VI). En fait, on ne calcule pas directement la variance, mais
celle de son logarithme (Ln).
Tableau VI Calcul de la variance dun risque relatif

ou dun odds ratio.
Variance (s)
1 1 1 1
s (Ln odds ratio) =
a b c d
s ( partir du tableau IV) = 1/a 1/l1 + 1/c 1/l2
Lintervalle de confiance 95 % de lodds ratio va de lexponentielle de

Y lexponentielle de Z o les valeurs de Y et Z sont :
Y = Ln (odds ratio) 1,96 s et Z = Ln (odds ratio) + 1,96 s
La formule est obtenue selon le mme procd que pour le risque
relatif.
Lintervalle de confiance permet de faire le test statistique de diffrence
1 du risque relatif ou de lodds ratio. Dans les deux cas, si la borne
infrieure de lintervalle de confiance est suprieure 1, le risque rela-
tif ou lodds ratio peut tre dit significativement plus lev que 1.
Rciproquement, si la borne suprieure de lintervalle de confiance est

infrieure 1, on confirme statistiquement le caractre protecteur du
facteur tudi.
Les analyses unifactorielles

Les analyses unifactorielles (en anglais univariate) consistent
estimer les liens qui peuvent exister entre une covariable (ou variable
expliquante) et une variable explique. Par exemple, comme le montre
la figure 4, dans un cancer du tube digestif, les analyses unifactorielles
sur les facteurs de pronostic consistent tudier les liens entre lge et
la survie, puis entre lextension paritale du cancer et la survie, puis
entre lenvahissement ganglionnaire et la survie, etc. La ralit de ces
liens peut tre estime laide de tests statistiques qui permettent
dapprcier si les diffrences observes entre lexistence ou labsence
dune covariable comme lenvahissement ganglionnaire et la survie
(ou le dcs) est statistiquement significative. Les tests statistiques uti-
liss doivent tre, bien entendu, choisis en fonction de la nature des
variables tudies (quantitatives, qualitatives ou censures).
Fig. 4 Schma dtude unifactorielle sur les facteurs de pronostic dans un

cancer du clon. Ltude estime pour chaque variable expliquante si le lien avec
la variable explique, ici la survie, est statistiquement significative ou non.
La force de lassociation
La force de lassociation entre variables expliquantes et variable
explique peut tre estime, selon la nature des variables par la
rgression linaire, les risques relatifs, les odds ratio ou les hazard ratios.
1 Rappelons que si les variables expliquantes et la variable explique
sont quantitatives, cette estimation est faite laide dun coefficient de
corrlation. Si les variables sont qualitatives la force dassociation est
estime laide des risques relatifs ou des odds ratio. Si la variable
expliquer est censure, on utilisera les hazard ratios.
Les limites des tudes unifactorielles
Les analyses unifactorielles
Les analyses unifactorielles sont trs nombreuses dans la littrature.

Elles concernent lestimation soit de facteurs de pronostic dans une
maladie, soit de facteurs de risque dans les tudes pidmiologiques
de sant publique. Il convient nanmoins de bien avoir lesprit que
la connaissance dun facteur de risque ne permet pas pour autant de
prdire une volution vers une complication, une mortalit, ou la sur-
venue dune maladie. Elle permet seulement destimer une probabilit.
Par exemple, on sait que, chez un malade qui a un cancer du clon
qui a t rsqu, lexistence dun envahissement ganglionnaire est un
facteur de mauvais pronostic, statistiquement significatif. Inversement,
sil nexiste pas denvahissement ganglionnaire, le taux de survie cinq
ans est de 75 %. Mais chez un malade donn qui a un cancer du clon
sans mtastases ganglionnaires, il nest pas possible de savoir sil sera
parmi les 75 % de survivants ou les 25 % qui vont faire une rcidive et
finir par dcder de leur cancer.
Les analyses unifactorielles ont plusieurs limites.
La premire, et la plus importante, est quelles ne tiennent pas compte
des liens qui peuvent exister entre deux variables expliquantes (fig. 5).
Ainsi, chez un malade qui a un cancer, lamaigrissement, lanorexie,
lexistence dune mtastase sont lis un mauvais pronostic. Mais ces
signes sont souvent associs entre eux chez un malade : celui qui a une
ou des mtastases a souvent aussi un amaigrissement et une anorexie.
Chacune de ces covariables nest pas indpendante des autres. Les ana-
lyses unifactorielles peuvent apporter ainsi des informations qui sont
redondantes entre elles. Elles ne permettent pas, lorsque plusieurs
covariables sont statistiquement lies la variable explique didenti-
fier celles qui le sont indpendamment des autres et qui expliquent le
mieux cette variable.
Fig. 5 Dans les tudes unifactorielles, il peut y avoir des liens entre certaines
variables expliquantes entre elles. Ces variables peuvent alors apporter des
informations qui sont redondantes. Par exemple, plus lextension paritale du
cancer colique est importante, plus il risque dy avoir des mtastases ganglion-
naires et plus il y a de mtastases ganglionnaires, plus il risque dy avoir des
mtastases hpatiques.
Une autre limite des analyses unifactorielles est de ne pas permettre

dlaborer des modles prdictifs, par exemple des scores, qui soient
utiles en pratique mdicale. Ainsi, une tude a montr, dans les cancers
de lestomac qui ont fait lobjet dune rsection apparemment complte,
que le taux de survie cinq ans tait de 73 % en labsence denvahis-
sement ganglionnaire et de 14 % lorsquil existait un envahissement
ganglionnaire [2]. Cette mme tude a encore montr des taux de survie
cinq ans de 60 % lorsque la sreuse gastrique ntait pas envahie et de
26 % si elle ltait. Si un malade a un envahissement ganglionnaire sans
envahissement de la sreuse, ce qui est possible, sa probabilit de survie
cinq ans peut tre estime ainsi entre 14 % et 60 %, sans que lon
puisse tre plus prcis. Cest la raison pour laquelle les tudes unifacto-
rielles doivent tre compltes par des tudes multifactorielles.
Dans le mme ordre dide, un des exemples les plus connus de ces tudes
unifactorielles tait la vieille classification de Dukes pour les cancers du
rectum [3]. Cette classification reposait sur lenvahissement ou non de
la musculeuse rectale, lexistence ou non de mtastases ganglionnaires et
lexistence ou non de mtastases viscrales. Cette classification sest av-
re suffisamment bonne pour tre ensuite tendue aux cancers du clon
et pour rsister au temps. Elle tait inspire de deux classifications ant-
rieures. Nanmoins, parce quelle reposait sur des observations unifacto-
rielles pragmatiques, elle a pos suffisamment de problmes pour faire
lobjet de trs nombreuses modifications comme le montre la figure 6 [4].
Fig. 6 Exemple de classifications des cancers colorectaux qui, reposant sur des
tudes unifactorielles empiriques ne se sont pas avres satisfaisantes et ont fait
lobjet de nombreuses modifications qui ont fini par mener des confusions.
Ajustement
La ralisation dun ajustement est lun des aspects des tudes
multifactorielles. Le principe de lajustement est de permettre de
mesurer lassociation entre deux variables, les autres variables tant
fixes un mme niveau. Ainsi, il y a corrlation entre la pression
artrielle et lge, et entre la pression artrielle et le poids. Le prin-
cipe de lajustement permet de quantifier la corrlation entre la pres-
sion artrielle et lge comme si elles avaient t mesures chez des
individus de mme poids. Lajustement est une approche souvent
utilise lorsquun certain nombre de facteurs (souvent lge, le sexe)
sont connus pour influencer le devenir du patient, mais ne consti-
tuent pas la problmatique centrale dune tude. Les techniques de
lajustement incluent lappariement, la stratification et la modlisa-
tion par rgression.
Rfrences
1. Borley NR, Mortensen NJ, Jewell DP (1997) Preventing postoperative recur-
rence of Cronhs disease. Br J Surg 84: 1493-502
2. Msika S, Chastang C, Houry S, et al. (1989) Lymph node involvement as the

only prognostic factor in curative resected gastric carcinoma. World J Surg 12:
118-22
3. Dukes C (1932) The classification of cancer of the rectum. J Pathol Bacteriol
35: 323-32
4. Fitzgerald RH (1982) What is the Dukes system for carcinoma of the rectum?
Dis Colon Rectum 25: 774-7
Les tudes multifactorielles
2
Dans les sciences de la vie, sil est intressant dtudier les forces
dassociation entre deux variables, on est beaucoup plus souvent
confront ltude des corrlations quil peut y avoir entre plusieurs
covariables explicatives et une variable que lon cherche expliquer.
Cest, par exemple, le cas des facteurs qui peuvent intervenir dans une
mortalit postopratoire, facteurs lis au malade lui-mme comme son
ge, ses antcdents cardiovasculaires ou respiratoires, etc. ou lis sa
maladie : cancer avec ou sans mtastases ganglionnaires, hpatiques ou
encore du type de lintervention ralise.
La premire tape dune tude multifactorielle (multivariate en
anglais) est une tude unifactorielle qui consiste, parmi toutes les
variables explicatives qui ont t proposes dans ltude, slection-
ner celles qui montrent une association statistiquement significative
avec la variable explique. On retient habituellement pour faire cette
slection un seuil de signification qui peut tre de p = 0,20 et mme
0,25, cest--dire suprieur au p = 0,05 habituel. Ce choix dun seuil
plus lev a pour objectif de privilgier la puissance, cest--dire de
slectionner les variables associes, mme si lassociation est faible, par
rapport au risque de premire espce qui conduit slectionner des
variables qui ne sont pas associes. Il peut, en effet, arriver que, com-
bines dautres variables, les associations deviennent plus fortes.
Bien entendu, une analyse multifactorielle ne peut tudier que les cova-
riables incluses dans ltude. Lnonc de cette vidence a pour seul
but de souligner limportance quil y a de bien rflchir au choix des
covariables que lon introduit dans le modle. Dautre part, pour viter
dtre confront au problme de donnes manquantes, il convient de
faire des tudes prospectives.
Les analyses multifactorielles ont ainsi deux objectifs supplmentaires
par rapport aux analyses unifactorielles :
1) Faire disparatre les covariables lies entre elles au profit de la seule ou
des seules qui sont indpendantes. Cela quivaut tenir compte des asso-
ciations entre ces covariables. On aura cependant intrt, lorsque plusieurs

covariables renseignent sur la mme information dcider celle quil est

2 le plus intressant dinclure dans le modle. Il peut sagir, par exemple, de
celle qui est la plus simple mesurer, la plus comprhensible, etc.
2) Permettre dlaborer des scores prdictifs. Cest du moins le cas
des mthodes qui sont dites prdictives et qui, pour cette raison, sont
les plus intressantes et les plus utiles en mdecine. Dans ce cas, des
variables plus simples mesurer, et en plus petit nombre, permettront
de garantir une meilleure utilisation des scores.
3) Il existe cependant des analyses multifactorielles qui reposent sur
des mthodes descriptives.
Sil est possible de faire des analyses unifactorielles assez facilement ou
laide de logiciels simples, ds quil y a de nombreuses covariables,
ce qui est le cas des analyses multifactorielles, laide de linformatique
devient indispensable.
Le principe des analyses multifactorielles

Pour faire comprendre le principe des analyses multifactorielles,
nous prendrons comme exemple la connaissance du poids du nou-
veau-n la naissance que lon cherche expliquer par lge et la parit
de la mre (fig. 1). En effet, des tudes unifactorielles ont montr quil
existait un lien entre lge de la mre et le poids du nouveau-n la
naissance. Plus la mre est ge, plus le nouveau-n pse lourd. Mais
il existe aussi une liaison significative entre la parit et le poids la
naissance. Plus la parit est leve, plus le nouveau-n pse lourd, les
Fig. 1 En nonatologie, il existe une corrlation entre lge de la mre, le poids

de lenfant la naissance et la parit. Il existe galement une corrlation entre
la parit et le poids de lenfant.
Les tudes multifactorielles 139
derniers ns pesant plus lourds que les premiers ns. Il existe enfin,
comme cela tait prvisible partir des donnes prcdentes, une
liaison entre lge de la mre et la parit. On peut alors se demander si
la liaison entre lge de la mre et le poids du nouveau-n est dpen-
dante ou non du rang de naissance (fig. 2). Autrement dit, est-ce que
la liaison entre lge de la mre et le poids du nouveau-n persiste ou
non parit constante ?
Fig. 2 La liaison entre lge de la mre et le poids de la naissance de lenfant

est-elle indpendante (chemin 2) ou non (chemin 1) de la liaison avec la parit ?
Les tudes multifactorielles permettent de rpondre cette question.
Pour cela, on recherche si le lien entre lge de la mre et le poids

du nouveau-n est prsent ou non chez les femmes primipares, puis
persiste chez les secondes pares, etc. Une telle tude a montr que la
liaison ne persistait pas rang de naissance constant. La liaison entre
lge de la mre et le poids du nouveau-n la naissance ntait donc
quapparente et due au fait que plus la mre est ge, plus la parit est
leve, et plus la parit est leve, plus les nouveau-ns psent lourds.
Les tudes multifactorielles peuvent ainsi montrer que des liaisons
apparentes en analyses unifactorielles sexpliquent par un facteur de
confusion. Dans lexemple prcdent, la parit est un facteur de confu-
sion dans lassociation poids ge. Un autre exemple bien connu est
celui de lassociation statiquement significative qui a t observe entre
la consommation de caf et le risque accru de survenue dun infarctus
du myocarde. En fait, il a aussi t observ que les fumeurs boivent
plus de caf que les non-fumeurs. Mais il y a encore association entre
une consommation de caf leve et le tabagisme. Cest grce lana-
lyse multifactorielle que lon a montr que le caf naugmentait pas,
lui seul, le risque dinfarctus du myocarde, mais le tabac.
Inversement, des analyses multifactorielles peuvent faire apparatre

2 des associations statiquement significatives entre deux variables qui ne
ltaient pas en analyse unidimensionnelle, du moins de faon signifi-
cative (p d 0,05).
Les analyses pas--pas

Les analyses multifactorielles commencent, nous lavons indiqu,
par une slection des covariables en analyse unifactorielle. Cette slec-
tion est fonde sur une valeur de p d 0,20, voire d 0,25. Il y a ensuite
deux faons de procder. Le pas--pas ascendant commence par intro-
duire dans le modle la covariable la plus significativement associe
la variable explique dans ltude unifactorielle. Cest le pas 1. Le pas 2
consiste introduire la covariable restante la plus associe la variable
explique, lapport de la premire ayant t pris en compte, et ainsi de
suite. Au fur et mesure de lintroduction dune nouvelle covariable,
cest--dire chaque pas, celle-ci contribue lexplication de la variable
explique, poids du nouveau-n dans notre premier exemple, infarctus
du myocarde dans le second. En dfinitive, le modle ne garde que les
covariables associes de faon significative la variable explique.
Une autre stratgie consiste, inversement, effecteur un pas--pas
descendant. Toutes les covariables sont initialement introduites dans
le modle (cest le pas zro). Les variables sont alors retires tour
tour en partant de la moins significative. chaque introduction dune
nouvelle covariable, si celle-ci nest pas associe la variable explique,
elle est exclue du modle. Il ne reste au dernier pas que les covariables
indpendamment et significativement associes la variable explique.
Le pas--pas descendant est aujourdhui le plus utilis. En effet, cette
stratgie privilgie des modles plus grands, et prend en compte les
facteurs de confusion avec un plus grand nombre de variables.
Importance et pertinence du choix de la population tudie

Les tudes multifactorielles portant sur de trs vastes chantillons qui,
de ce fait, sont dautant plus htrognes quils sont importants, ne font
parfois que confirmer ce que lexprience simple, voire le bon sens, avaient
dj prouv. Une trs vaste tude sur les covariables associes au pronos-
tic du cancer du poumon incluant tous les malades qui ont un cancer
du poumon, va montrer quun mauvais pronostic est li lexistence de
mtastases, ltendue locorgionale de la tumeur, et des facteurs de co-
morbidit associs lis au tabagisme, ce qui napprend pas grand-chose.
De telles tudes ne sont utiles que lorsquelles explorent, pour la premire

fois, des facteurs de pronostic dune maladie ou, en pidmiologie, des
facteurs de risque dapparition dune maladie. Dans les autres cas, si des
covariables sont connues comme tant lies la variable que lon cherche
expliquer, elles peuvent servir de variables dajustement. Ces variables
sont alors un peu lquivalent a posteriori de ce que nous avons vu tre
la stratification a priori dans un essai randomis. Mais il est parfois plus
intressant de faire des tudes incluant uniquement des populations plus
cibles, plus homognes, pour lesquelles la connaissance de facteurs de
pronostic ou de risque a des incidences dcisionnelles utiles, thrapeu-
tiques dans le premier cas, de sant publique dans le second.
Les modles descriptifs
Lanalyse en composantes principales

Lanalyse en composantes principales (ACP) traite essentiellement
de variables quantitatives. Son objectif est de mettre en vidence des
similarits ou des oppositions entre les covariables et reprer celles
qui sont corrles entre elles.
LACP consiste construire, partir des variables mesures, de nou-
velles variables qui seront de variance maximale, non corrles deux
deux et qui sont des combinaisons linaires des variables dorigine.
Ces nouvelles variables, appeles composantes principales , peuvent
servir de base une reprsentation graphique des variables initiales.
On peut ainsi examiner quelles sont les variables entrant dans la
composition de chaque axe principal. Linterprtation des rsultats
se fait gnralement sur les deux ou trois premiers axes principaux,
sous rserve que ceux-ci expliquent la majeure partie de la variance
du nuage des variables initiales. En prsentant une similitude entre les
variables mesures, lACP est une mthode qui va permettre de rduire
le nombre de variables analyser dans un modle multifactoriel.
LACP ne mesure que des liens linaires entre variables. Avant de
conclure sur lexistence ou labsence de relations entre variables, il est
donc utile dexaminer lallure de leurs nuages de corrlation. LACP
permet, par exemple, de rsumer de nombreuses variables corrles en
une seule qui permettra lajustement.
Lanalyse factorielle de correspondance

Lanalyse factorielle de correspondance traite les variables qualitatives.
Lanalyse factorielle des correspondances (AFC) ou analyse des

2 correspondances simples est une mthode exploratoire danalyse des
tableaux de contingence. Elle vise rassembler en un nombre rduit
de dimensions la plus grande partie de linformation donne par des
tableaux de contingence, avec en tte de ligne un type de variable et en
tte de colonne un ordre type de variable. LAFC ne sattache pas aux
valeurs absolues mais aux correspondances entre les variables, cest-
-dire aux valeurs relatives. Cette rduction est dautant plus utile
que le nombre de dimensions initiales est lev. La notion de rduc-
tion est commune toutes les techniques factorielles, mais lAFC
offre la particularit (contrairement aux ACP) de fournir un espace de
reprsentation commun aux variables et aux individus.
Les modles prdictifs

Loutil danalyse multifactorielle dpend de la nature des variables
qui sont tudies (tableau I). Les analyses prdictives permettent, en
incluant toutes les variables indpendantes et elles seules, de construire
des modles prdictifs laide de score. Ces scores sont dtermins
en affectant chaque variable un coefficient plus ou moins important
qui est fonction de la force dassociation de chaque covariable avec la
variable que lon cherche expliquer.
Indiquons demble que ces scores demandent tre valids, soit sur
des chantillons diffrents de ceux qui ont servi les tablir, soit par
des analyses spciales qui permettent dapprcier leur robustesse.
Tableau I Les diffrents types danalyses multifactorielles prdictives.
Variable Expression
Outil
expliquante explique des rsultats
Quantitative
Rgression Coefficients
ou qualitative Quantitative
multiple de rgression
ordonne
Quantitative Qualitative Rgression

odds ratio
ou qualitative deux classes logistique
Quantitative Modle Risques relatifs instantans

Censure
ou qualitative de Cox (hazard ratio)
Analyse
Qualitative Qualitative Valeurs prdictives
discriminante
La rgression linaire multiple (multiple linear regression en anglais)

La rgression multiple est le modle de choix danalyse multi-
factorielle lorsque les variables expliquantes et expliques sont quan-
titatives. Il est encore possible de lutiliser lorsque les covariables sont
qualitatives ordonnes.
Elle permet danalyser la valeur explicative propre de chacune des
covariables tudies. Pour ce faire, elle cherche, laide de tests, savoir
si un coefficient affectant chaque covariable (coefficient de rgression
partielle) est diffrent de zro. Si ce coefficient nest pas diffrent de
zro, cela signifie que la variable correspondante na pas de valeur
pronostique et rciproquement.
De plus, le coefficient de rgression partielle mesure lintensit de la
liaison entre la covariable expliquante et la variable explique, niveau
constant des autres variables. Mais ce qui pouvait se calculer assez faci-
lement, comme dans notre exemple du poids des nouveau-ns, lge et
la parit de la mre, ncessite, ds quil y a de nombreuses covariables,
laide de linformatique.
Enfin, la rgression multiple permet de trouver la combinaison linaire
de covariables permettant le mieux de dcrire la variable que lon
cherche expliquer (tableau II).
Tableau II Lquation de rgression multiple.
Lquation de rgression multiple scrit :

y = a + (1 . x1) + (2 . x2) + (3 . x3) + + e.
dans laquelle :
y est la variable explique ou dpendante ;
a est une constante ;
x1, x2, etc. sont les covariables expliquantes ;
1, 2 sont les coefficients de rgression partielle partir desquels il est possible
de calculer la valeur de y ;
e est lerreur entre la valeur prdite et la valeur observe, suppose de moyenne
nulle et de variance constante.
Il existe un coefficient de rgression multiple R qui est calcul en

tenant compte de toutes les covariables expliquantes. Il mesure la part
de la variable explique par les covariables incluses. Plus son carr R
est proche de 1, mieux les covariables qui ont t incluses dans le
modle permettent de comprendre la variable explique. Autrement
dit, le coefficient R mesure le pourcentage de variabilit de la variable
explique par les covariables tudies, rapport la variabilit totale.
Au point de vue pragmatique, plus R est proche de 1, plus pertinent
a t le choix des covariables expliquantes et rciproquement. Dans ce

2 dernier cas, on devrait tre amen, soit sinterroger sur le choix des
covariables et se demander si dautres nauraient pas t prfrables,
soit prendre conscience que lon ne sait que trs imparfaitement
expliquer la variable que lon cherchait expliquer.
Exemple
Une tude a cherch apprcier, aprs diffrents types de rsections
intestinales dans la maladie de Crohn, le poids des selles et les limina-
tions fcales en sodium, potassium et graisses. Les covariables incluses
dans le modle ont t la longueur de chaque segment dintestin res-
tant : longueur restante de jjunum, dilon, de clon et de rectum [1].
Les rsultats ont t exprims par leurs coefficients de rgression par-
tielle et par des quations prdictives de llimination fcale, notam-
ment en poids et en sodium (tableau III).
Tableau III Rsultats de lanalyse en rgression multiple

des liminations fcales aprs rsection intestinale en fonction
de lintestin restant et scores prdictifs [1].
Coefficients de rgression partielle
J I* C R
Poids fcal 0,47 0,39 0,33 0,60
P < 0,01 < 0,01 NS < 0,01
Sodium 0,24 0,18 0,36 0,58
P NS NS < 0,01 < 0,01
quation prdictive de llimination fcale :
Poids fcal (g) = 2,777 4,0 J 4,0 I* 2,5 C 1,2 R
Sodium (mmol) = 216 0,2 J 5,5 I* 0,6 C 100 R
J : jjunum en centimtres ; I* : logarithme de (1 = longueur de lilon restant en centimtres) ;
C : pourcentage de clon restant ; R : rectum.
Les rsultats dune rgression multiple peuvent tre exprims, de faon

un peu prfrable en indiquant pour chaque covariable, les effectifs,
les coefficients de rgression partielle avec leurs carts-types et leur
signification (tableau IV).
Tableau IV Expression des rsultats dune rgression linaire multiple.

Effectifs Coefficients de rgression partielle cart-type P
Covariable 1
Covariable 2
etc.
Les variables sont classes par ordre dcroissant selon limportance de

leur association avec la variable explique. Nanmoins, plus le nombre
de covariables considres est important, plus le risque de trouver une
association fortuite , cest--dire un facteur confondant, est lev.
Leffet de ces facteurs peut cependant tre corrig.
Les coefficients de rgression partielle peuvent varier de 1 + 1.
Leurs carts-types servent de rsultat du test.
La rgression logistique
La rgression logistique repose sur le mme principe que celui de la

rgression linaire multiple. Elle est utilisable lorsque la variable expli-
que est qualitative deux classes. Les covariables tudies peuvent tre
quantitatives ou qualitatives ordonnes. Pour cette raison, la rgression
logistique est un outil privilgi danalyses multifactorielles.
Le tableau V montre lquation de rgression logistique.
Tableau V Lquation de rgression logistique.
Lquation de rgression logistique scrit :

p(M+ _ x1, x2, etc.) = 1 / (1 + e (0 1 . x1 2 . x2, etc.))
dans laquelle p(M+ ) est la probabilit conditionnelle dun vnement, ici une
maladie. M+, lie la prsence des covariables X1, X2, etc.
0 est une constante (intercept en anglais).
1, 2, etc. sont les coefficients de rgression partielle des variables correspondantes.
NB. Les exponentielles de 1, 2, etc. sont les odds ratio qui sont une approximation
du risque relatif de la covariable correspondante et qui permettent dtablir des
scores prdictifs.
Ici, ce ne sont pas les coefficients de rgression partielle et leurs carts-

types qui servent mesurer des associations entre les covariables et
la variable explique, mais les odds ratio qui sont, rappelons-le, des
approximations du risque relatif.
Une covariable dont lodds ratio (ou dont le risque relatif) est gal 1,
est une covariable qui naffecte pas le pronostic. Un facteur de bon
pronostic ou un facteur protecteur se traduit par un odds ratio compris
entre 0 et 1. Un facteur de mauvais pronostic ou un facteur de risque
se traduit par un odds ratio suprieur 1. Les logiciels donnent habi-
tuellement lintervalle de confiance 95 % des odds ratio. Une associa-
tion est statistiquement significative lorsque lintervalle de confiance
95 % ne comporte pas la valeur 1. Par exemple, pour un facteur de
bon pronostic, si lodds ratio est de 0,4 et lintervalle de confiance va de
0,20 0,70, lassociation est significative. Inversement, si lodds ratio est

2 de 4,3 et lintervalle de confiance va de 0,8 17,2, cest--dire englobe
la valeur 1, lassociation nest pas statistiquement significative. Ainsi, le
fait dindiquer lintervalle de confiance autour dun odds ratio quivaut
un test statistique.
Lexpression des rsultats dune rgression logistique doit exprimer
pour chaque covariable les effectifs, les odds ratio ou les risques rela-
tifs, lintervalle de confiance 95 % et le cas chant le P (tableau VI).
Tableau VI Expression des rsultats dune rgression logistique.

Odds ratio Intervalle
Effectifs P
(ou risque relatif) de confiance 95 %
Covariable 1
Covariable 2
etc.
Un test dadquation ( goodness of fit dHosmer et Lemeshow) per-

met de mesurer la qualit de lajustement du modle aux donnes.
Cette mesure compare les probabilits prdites dtre un cas ou un
malade, aux probabilits observes par dciles des valeurs de scores de
la rgression. Un bon modle donne un test non significatif (la valeur
du tant proche de 0). Le rsultat de ce test, calcul par la plupart
des logiciels de statistiques est de plus en plus souvent demand dans
les publications scientifiques.
Exemple dtude utilisant la rgression logistique

Une tude a cherch connatre, chez les malades qui avaient eu une
rsection-anastomose colorectale aprs exrse dun cancer du rectum,
quels taient les facteurs de risque de fistule anastomotique [2]. Seize
covariables indpendantes ont t tudies. En analyse unifactorielle,
cinq dentre elles taient associes, de faon statistiquement signifi-
cative ( p < 0,05) un risque de fistule. En analyse multifactorielle
utilisant la rgression logistique, seules deux covariables restaient lies
au risque de fistule (tableau VII). Les rsultats de cette tude ont t
exprims en termes de risque relatif assortis de leurs intervalles de
confiance et de leur signification statistique.
Le modle de Cox
Le modle de Cox [3] repose sur le mme principe gnral que les
autres types danalyses multifactorielles. Il est utilis lorsque la variable
explique est une variable censure comme une survie, une rcidive, etc.
Tableau VII Exemple dtude en rgression logistique sur le risque

de fistule anastomotique aprs rsection du rectum pour cancer
et anastomose colo-rectale [2].
Risque relatif Intervalle
p*
de fistule) de confiance
Covariable* :
Sexe fminin 2,7 1,07 6,76 0,03
Anastomose < 5 cm de lanus 6,5 2,37 17,87 < 0,001
Sur 16 covariables, cinq avaient t retenues aprs analyse unidimensionnelle, et seulement

deux restaient associes au risque de fistule en analyse multidimensionnelle.
* Le p est un peu superftatoire, mais montre bien que lintervalle de confiance est lquivalent
dun test statistique.
Lhypothse de ce modle est que le rapport des risques dvnements

reste proportionnel au cours du temps, avec un ratio qui dpend uni-
quement des caractristiques initiales des patients compars.
La mesure de lassociation fournie par le modle est un hazard ratio
qui estime un risque relatif instantan entre la variable expliquante
et la variable explique. Un intervalle de confiance est calcul comme
pour la rgression logistique avec la mme valeur statistique. Sur le
plan mathmatique, le modle de Cox permet didentifier les facteurs
indpendants expliquant le risque de survenue dun vnement qui est
li au temps (tableau VIII).
Tableau VIII Le modle de Cox.

h(t) = h0 (t) u e (1 . x1 + 2 . x2 + 3 . x3 etc.)
h(t) est le risque instantan de lvnement.
h0(t) est la fonction de risque de base, celle qui sapplique un individu qui
prsenterait les niveaux de rfrence pour toutes les covariables du modle.
sont les coefficients de rgression de chaque covariable x.
Lexponentielle de est le risque relatif instantan (hazard ratio)
Exemple
Le modle de Cox est le bon outil pour estimer des facteurs de
pronostic dune maladie. Une tude a ainsi t faite chez des malades
qui avaient un cancer de lsophage, qui a t rsqu de faon
apparemment complte (rsection dite vise curative ) [4]. Sur
21 covariables analyses, en tude unidimensionnelle, neuf taient
statistiquement lies la survie (test du logrank). Elles ont alors t
incluses dans un modle de Cox. Celui-ci a montr que seules quatre
dentre elles taient indpendantes et associes un mauvais pronostic
(tableau IX).
Tableau IX Facteurs de pronostic

2 dans le cancer de lsophage rsqu [4]
Modle de Cox
Risque-relatif
Coefficient
Covariables cart-type P Instantan
de rgression ()
(HR)
ge < 65 ans 0,05 0,02 0,02 1,05
Classification ASA* 0,39 0,25 0,01 1,47
Infiltration paritale 0,40 0,15 0,03 1,49
Envahissement
0,38 0,19 0,01 1,46
ganglionnaire
* ASA American society of anesthesiology. Ce score est un score global de risque en quatre
classes ordonnes qui tient compte des fonctions vitales dun malade.
Les covariables qui dpendent du temps
Dans le modle de Cox, les covariables doivent tre apprcies au temps

zro, cest--dire qui correspond la date dorigine. Rappelons limpor-
tance de dfinir une date zro qui ait le mme sens pour chacun des
patients. Par exemple, dans une tude des facteurs de dcs aprs survenue
dun infarctus du myocarde, la mesure des covariables se fera au moment
de linfarctus. Une tude de survie dans laquelle lorigine du suivi nest pas
interprtable, par exemple, la premire fois que le patient est vu, quelle
que soit ltape de sa maladie, ne sera pas interprtable non plus.
Mais il peut arriver quune covariable, qui a une certaine valeur
la date dorigine, change ultrieurement de valeur et modifie alors
le risque. Ainsi, dans les pancratites aigus, des facteurs de gravit
peuvent apparatre seulement aprs quelques heures ou quelques jours
dvolution, comme la chute de lhmatocrite, une hyperleucocytose,
un diabte, une lvation de la cratinmie, etc. Il est donc minem-
ment souhaitable que des tudes sur le pronostic des pancratites
aigus prennent en compte ces donnes volutives. Pour ce faire, il est
possible dutiliser un modle adapt du modle de Cox permettant
dinclure de telles covariables dpendant du temps.
Un exemple est la rponse la question : la transplantation cardiaque
apporte-t-elle un rel bnfice la survie des malades ? Comme nous
lavons vu, la meilleure rponse thorique cette question devrait tre
apporte par un essai randomis. En pratique, un tel essai, notamment
pour des raisons thiques et techniques (disponibilit de greffons), serait
irralisable. On pourrait alors se tourner vers une tude multifactorielle
en incluant, parmi les autres covariables, la transplantation. Si celle-ci

tait retenue par le modle dans lanalyse multifactorielle, il serait pos-
sible de la considrer comme lie la survie. Le problme est quaprs
linclusion dans ltude, des malades peuvent avoir une transplantation
dans des dlais qui varient beaucoup dun patient lautre, notamment
pour des raisons de disponibilit de greffons, de biocompatibilit, etc.
Apprcier les covariables seulement au moment de la transplantation
elle-mme risque dintroduire des biais. Par exemple, des malades
risque lev vont mourir avant de pouvoir tre transplants. Inver-
sement, si un malade attend deux ans sa transplantation, ce dlai ne
saurait tre mis lactif de la transplantation. La meilleure faon de
rpondre la question pose est donc de prendre comme date dorigine
la date laquelle lindication de la transplantation est pose et de tenir
compte ensuite de covariables dpendantes du temps comme le dlai
entre lindication de la transplantation et sa ralisation.
Lanalyse discriminante
Lanalyse discriminante est une forme danalyse multifactorielle
dont lobjectif diffre des mthodes prcdentes. Comme son nom le
suggre, elle a pour but, au sein dune population, de chercher discri-
miner le mieux possible, laide de covariables, deux sous-groupes A
et B que diffrencient la survenue ou labsence de survenue de la
Si ces deux sous-groupes sont reprsents par le contenu dune ellipse,
il est possible de mesurer la distance qui spare les deux centres de ces
deux ellipses (fig. 3). Plus cette distance D et son carr D, dnomm
coefficient de Mahalanobis [5] sont importants, mieux la combinaison
des covariables expliquantes discrimine les deux sous-groupes.
Fig. 3 Schma du principe de lanalyse discriminante. Plus la distance D (ou

son carr D, appel coefficient de Mahalanobis) est importante, mieux le
modle discrimine les deux sous-groupes, dans cet exemple, de patients dc-
ds et survivants un mois. Il est possible de calculer, pour une valeur donne
de D, la sensibilit, la spcificit et les valeurs prdictives du modle.
Les analyses discriminantes sont, en gnral, effectues pas pas. Mais

2 on saperoit habituellement quaprs plusieurs pas, lajout de nou-
velles covariables napporte proportionnellement que de moins en
moins dinformations complmentaires tout en alourdissant de plus
en plus le modle. Pour ce faire, il est possible destimer la proportion
de sujets bien classs au fur et mesure de lintroduction des cova-
riables expliquantes. Il est encore possible, comme nous le verrons, de
calculer la sensibilit, la spcificit et mieux encore, les valeurs pr-
dictives du modle au fur et mesure de lintroduction de nouvelles
covariables.
Lexpression des rsultats dune analyse discriminante est indique
dans le tableau X.
Tableau X Expression des rsultats dune analyse discriminante.
Coefficient % de sujets Valeurs

Covariables P
de Mahalanobis bien classs prdictives
etc.
Plus le coefficient de Mahalanobis est lev, plus la covariable cor-

respondante ou lassociation de covariables discrimine les deux sous-
groupes que lon cherche identifier.
Exemple
Une tude a cherch, chez des malades cirrhotiques qui avaient fait
une hmorragie digestive, lie une hypertension portale, les facteurs
de mortalit (ou de survie) un mois [6]. Pour chaque covariable,
il a dabord t fait une analyse discriminante unidimensionnelle en
valuant le coefficient de Mahanalobis et sa signification statistique
(tableau XI). Ces covariables ont t classes par ordre dcroissant
de ce coefficient, cest--dire en commenant par les covariables qui
discriminaient le plus les survivants, des malades dcds. Les auteurs
ont calcul pour chaque covariable le pourcentage de malades bien
classs. Comme on le voit, sil y a une certaine cohrence entre un
coefficient de Mahalanobis lev, la signification du test et le pour-
centage de bien classs, cette cohrence nest pas absolue. Par exemple,
lascite qui tait associe au coefficient de Mahalanobis le plus fort ne
vient quau troisime rang du classement des malades. Il aurait encore
t possible destimer la valeur prdictive de dcs ou de survie de
chaque covariable.
Tableau XI Exemple danalyse discriminante sur la mortalit

un mois aprs une hmorragie digestive chez les patients cirrhotiques..
Analyse discriminante unidimensionnelle
Coefficient % de sujets
Covariables P
de Mahalanobis bien classs
Ascite 0,364 < 0,01 63
Bilirubinmie 0,303 < 0,01 70
Temps de Quick 0,286 < 0,01 67
Cause de lhmorragie 0,158 < 0,05 61
Mdicaments gastro-agressifs 0,154 < 0,05 58
Type de lhmorragie 0,085 ns 48
Etc.
Analyse discriminante multidimensionnelle
Coefficient
Covariables % de sujets bien classs
de Mahalanobis
Ascite 0,364 63
Ascite + bilirubinmie 0,587 72
Ascite + bilirubinmie + cause

0,764 72
de lhmorragie
Ascite + bilirubinmie + cause

0,864 75
+ Quick
17 covariables 1,710 79
Cet exemple montre encore que, si le coefficient de Mahalanobis aug-

mente en ajoutant des variables dans le modle, le passage des quatre
variables les plus discriminantes aux 17 variables tudies dans le
modle, le gain en malades bien classs ne passe que de 75 % 79 %.
Les malfaons des tudes multifactorielles

Une malfaon courante des tudes multifactorielles est linclusion
dun nombre de covariables trop important par rapport leffectif
de lchantillon tudi et surtout dvnements. On admet gnra-
lement que lon ne doit pas inclure plus dune covariable pour dix
vnements dans lchantillon tudi. Par exemple, si dans une tude
multifactorielle sur le pronostic vital des exrses pelviennes dans
des cancers trs tendus du rectum, il est observ 16 dcs et que

2 lanalyse a inclus huit covariables, les rsultats risquent de ne pas
tre gnralisables [7]. Il naurait t correct pour 16 vnements, de
ninclure quune, voire deux covariables dans le modle. Dans une
tude cas-tmoin, on analysera de mme la variable par groupe de
10 cas supplmentaires.
Les autres malfaons sont les utilisations inadaptes dun modle
multifactoriel. Ainsi, dans le modle de Cox, comme nous lavons
indiqu, il doit y avoir un risque instantan constant de la survenue
dvnements que lon cherche expliquer : cest lhypothse dite
des hasards proportionnels . Cela signifie que, si la variable
explique est la survenue dune rcidive de la maladie, la proba-
bilit de survenue dune rcidive doit tre la mme chaque
instant. Dans les tudes cliniques, cette hypothse est gnralement
admise, mais trs rarement vrifie. Par exemple, si lon inclut
dans une survie la mortalit postopratoire, la probabilit de dcs
aprs une intervention chirurgicale importante comportant un
risque non ngligeable, sera plus leve en postopratoire immdiat
quultrieurement.
Autre exemple, une rgression linaire est parfois une mauvaise repr-
sentation de la ralit. La droite de rgression produite sera alors un
mauvais modle prdictif.
Une autre malfaon est linclusion dans le modle de covariables lies
entre elles. Par exemple ictre et hyperbilirubinmie ou encore une
lymphocytose CD4, exprime la fois en pourcentage et en valeur
absolue.
Les autres utilits des analyses multifactorielles
Les comparaisons : l o un essai randomis nest pas possible.

Nous avons vu que lessai randomis tait la mthode qui permettait,
dans une comparaison, de se donner le plus de chances, de comparer,
au sein de lensemble de la population tudie, deux sous-groupes
similaires.
Il est cependant des questions quil nest pas possible de rsoudre,
pour des raisons techniques ou thiques laide dun essai randomis.
Lanalyse multifactorielle reprsente alors la mthode qui se rapproche
le plus dun essai randomis, bien que labord mthodologique soit
compltement diffrent. Nous en donnerons un exemple dans la
cinquime partie consacre au traitement.
Utilisation prdictive des analyses multifactorielles

Un autre intrt des tudes multifactorielles prdictives est
llaboration de scores prdictifs.
Le principe en est le suivant : les analyses multifactorielles permettent,
nous lavons vu dans des exemples, destimer les liens qui existent
entre des variables expliquantes et la variable explique, ainsi que la
force de ces liens exprime en termes dodds ratio, de risques relatifs,
de coefficient de rgression, voire de coefficient de Mahanalobis dans
une analyse discriminante.
partir de la force de ces liens, il est possible daffecter chaque
covariable retenue en analyse multifactorielle, un coefficient. Celui-
ci est calcul partir du coefficient de rgression. Dans un second
temps, il est possible de calculer pour chaque malade inclus dans
ltude son score qui est la somme des scores des covariables statique-
ment significatives prsentes chez lui. Enfin, des groupes de malades
peuvent tre dtermins en fonction de groupes de scores. En quelque
sorte, la rgression multiple, la rgression logistique ou le modle de
Cox peuvent atteindre le mme objectif que celui des analyses discri-
minantes.
Nous donnerons quelques exemples de lutilit de ces scores vise
prdictive propos de la dmarche diagnostique et pronostique (qua-
trime et sixime parties).
Ces scores posent cependant plusieurs problmes :
1. Comme le montre lexemple des hmorragies digestives et du coef-
ficient de Mahanalobis, plus les covariables sont nombreuses, plus la
valeur prdictive du score est leve, mais plus il est compliqu et, de
ce fait, moins il a de chance dtre utilis dans la pratique mdicale. Il
y a donc un choix faire entre exhaustivit complexe et simplification
utile.
2. Ces scores ayant t dtermins sur des chantillons donns, ils ne
peuvent tre extrapols que sur des populations qui rpondent trs
prcisment aux critres dinclusion des sujets qui ont servi les
dterminer. Malgr cela, des biais sont toujours possibles. Il est donc
souhaitable de valider les scores qui sont labors. Pour ce faire, deux
ordres de mthode peuvent tre utiliss. Le premier consiste valider
le score propos sur un ou plusieurs chantillons autres que celui qui
a permis son laboration. Cest la validation externe. Le second ordre
de mthode consiste faire, au sein de lchantillon tudi, des valida-
tions croises [8].
2 Grille de lecture (ou de ralisation) dune tude multifactorielle
1. Lobjectif de ltude est pertinent sur le plan mdical, cest--dire que :

le choix de la population tudie ne doit pas aboutir confirmer ce qui est dj bien tabli ;
les covariables tudies potentiellement importantes ont bien t incluses dans le modle.
2. Les dfinitions fondamentales sont prcises :
population tudie ;
covariables expliquantes ;
variable explique.
3. Le choix du modle est correct :
si la variable explique est quantitative, rgression multiple ;
si la variable explique est qualitative deux classes, rgression logistique ;
si la variable explique est censure, modle de Cox ;
analyse discriminante dans certains cas.
4. Lanalyse a comport dabord une tude unifactorielle pour slectionner (p < 0,20
ou p < 0,25) les covariables retenues dans lanalyse multifactorielle ;
il na pas t retenu plus dune covariable par dix vnements, deux pour 20, trois pour 30, etc.
5. Lidal : les rsultats ont t valids sur un chantillon diffrent de celui qui a servi
tablir le modle ou par des mthodes particulires.
Rfrences
1. Cosnes J, Gendre JP, Lacaine F, Naveau S, Le Quintrec Y (1982) Rles compen-
sateurs de lilon et du clon, restant aprs rsection tendue de lintestin grle.
Gastroenterol Clin Biol 6: 159-65
2. Rullier E, Laurent C, Garrelon JL et al. (1998) Risk factors for anastomotic
leakage after resection of rectal cancer. Br J Surg 85: 355-8
3. Cox DR (1972) Regression models and life-tables (with discussion). J R Statis
Soc Br 34: 187-220
4. Petrequin P, Huguier M, Lacaine F, Houry S (1997) Cancers de lsophage
rsqus : modle prdictif de survie. Gastroenterol Clin Biol 21: 12-6
5. Mahalanobis PC (1936) On the generalised distance in statistic. Proc Ntle
Institute Science India 2: 49-55
6. Poynard T, Chaput JC, Mary JY, et al. (1980) Analyse critique des facteurs lis
la mortalit au trentime jour dans les hmorragies digestives hautes du
cirrhotique. Gastroenterol Clin Biol 4: 655-65
7. Birkmeyer JD, Finlayson SR (1998) Misuse of multivariate analysis. Surgery 124: 114
8. Barrier A, Boelle PY, Lemoine A, et al. (2007) Gnomique somatique et pronostic
des cancers colorectaux. Bull Acad Ntle Med 191:1091-103
La causalit
3
La question dune relation de nature causale entre un facteur de

risque et une maladie est un sujet qui est souvent abord, notamment
par les mdias, avec une lgret inversement proportionnelle la dif-
ficult de la rponse scientifique la question, quil sagisse de facteurs
environnementaux ou mdicamenteux. En effet :
une causalit est souvent difficile prouver ;
il peut y avoir une relation de nature causale entre un facteur de
risque et une maladie sans que la responsabilit de la survenue de
cette maladie soit toujours attribuable ce facteur. Ainsi, le taba-
gisme est une cause de survenue dun cancer du poumon, mais des
cancers du poumon peuvent survenir en dehors de tout tabagisme.
Autrement dit, lexistence dune relation de causalit bien tablie
permet seulement daffirmer que la probabilit de dvelopper une
maladie lie ce facteur de risque est plus leve chez les personnes
exposes ce facteur de risque que chez les autres ;
il convient enfin de tenir compte du risque en excs et du risque
attribuable, cest--dire des mesures dimpact.
Les mesures dimpact

Le risque relatif mesure, on la vu, les consquences individuelles de
la prsence ou non dun facteur de risque. Concernant lindividu, il
influence la dcision mdicale pour un sujet donn.
Les mesures dimpact ont un objectif diffrent. Elles mesurent les
consquences de lexposition un facteur de risque en sant publique.
Le risque en excs
Le risque en excs reprsente la diffrence entre le risque de sur-
venue dune maladie chez les sujets exposs au risque et ceux qui ne

le sont pas. Il est le rsultat dune soustraction et non dune division

3 comme le risque relatif, ce dont on se rend compte en comparant
le tableau I tir des mmes donnes que le tableau III du chapitre
prcdent (cf. page ***).
Tableau I Risque en excs ( partir des mmes donnes

que le tableau IV de la p. 128.).
Exemple fictif : effet dune chimiothrapie sur la mortalit dans un cancer
Patients dcds Patients vivants Total
Chimiothrapie 63 39 102
Pas de chimiothrapie 70 34 104
Total 133 73 206
Le risque en excs est gal la diffrence entre le risque de mortalit chez les patients
qui ont eu de la chimiothrapie (63/102) moins le risque chez les patients nayant pas
eu de chimiothrapie (70/104) soit :
(63/102) (70/104) = 0,056
De faon plus gnrale, si les donnes sont les suivantes :
Non exposs (E -) c d l2
Total c1 c2 N
Le risque en excs est gal : (a/l1) (c/l2).
Dans cet exemple, la chimiothrapie diminue donc le risque de dcs.

Si lon inversait la proposition, ce qui serait peut-tre plus facile
comprendre, le risque de mortalit en excs chez les malades qui nont
pas de chimiothrapie serait de (70/104) (63/102) = 0,056. Cest la
partie du risque absolu qui semble due au facteur de risque.
Le risque attribuable
Le risque attribuable est encore dnomm fraction tiologique
du risque. Il permet des dcisions en sant publique. Par exemple, si
8 % 12 % des insuffisances rnales terminales sont attribuables la
prise de fortes doses cumules de paractamol [1], cela signifie que si
ce mdicament tait retir du march on pourrait viter, au maximum,
8 % 12 % des insuffisances rnales terminales.
La causalit 157
Il y a deux formulations du risque attribuable. Celui chez les sujets

exposs et celui attribuable en population. Dans le premier cas, le
risque attribuable mesure la fraction, dans notre exemple, dinsuffi-
sances rnales terminales dues au paractamol chez les consommateurs
de ce produit. Ce risque nest pas de 100 % parce quun consomma-
teur de paractamol peut dvelopper une insuffisance rnale due une
autre cause. Ce risque attribuable est gal au risque relatif (RR) 1,
divis par le risque relatif :
Risque relatif 1
Risque attribuable
Risque relatif
Toujours dans notre exemple, une tude ayant montr que chez
les personnes qui ont absorb au cours de leur vie entre 1 000 et
5 000 comprims de paractamol, ce qui reprsente 11,9 % de la
population (les Franais sont les plus gros consommateurs de mdi-
caments au monde avec les Nord-Amricains), le risque relatif associ
linsuffisance rnale terminale tait gal 2,0 [2]. Le risque attri-
buable chez les consommateurs de paractamol tait alors gal :
(2,0 1)/2,0 = 50 %.
Lautre formulation du risque attribuable est le risque attribuable en
population. Cest, par exemple, la fraction des insuffisances rnales
attribuables au paractamol dans la population gnrale qui est de
8 % 12 % (tableau II). Ce risque attribuable en population est gal
9,2 %.
Tableau II Risque attribuable en population (RAP).
P exposs (RR 1)
RAP
1 P exposs (RR 1)
Dans notre exemple :
P exposs est la proportion de sujets exposs

11,9 %
dans la population
RR est le risque relatif 2,0
RAP = 9,2 %
Interprtation
La notion de risque attribuable doit tre interprte avec beaucoup
de discernement. En effet, ce risque tant calcul partir du risque
relatif, il est soumis aux biais qui peuvent affecter ce dernier. Dans
lexemple du paractamol, une mauvaise approximation du risque rela-
tif sur un chantillon isol et peu reprsentatif, aurait pu montrer des
valeurs trs diffrentes des 8 % 12 % observs dans diffrentes tudes

3 publies. Il est alors facile de concevoir quun rsultat spectaculaire,
obtenu partir dun chantillon pour lequel il existe un biais, soit
attractif pour les mdias qui se proccupent assez peu de la rigueur
scientifique avec laquelle les rsultats ont t obtenus. Un exemple
caricatural est lalarme rcurrente entre la pollution atmosphrique
qui serait responsable directement ou indirectement de milliers de
dcs en France. Si ce risque attribuable tait estim partir du risque
relatif, il conviendrait dtre certain que les tudes qui ont estim ce
risque relatif de lassociation pollution athmosphrique-dcs ont
tenu compte de nombreux facteurs de confusion : tabagisme, ge,
profession, etc.
La causalit
Le problme essentiel de lpidmiologiste est de dterminer si
une diffrence estime entre exposs et non exposs nest quune
association non causale ou bien sil existe un effet causal. Cette
notion de causalit est de nature probabiliste. Tous les malades qui
ont un msothliome pleural nont pas t en contact avec lamiante
et toutes les personnes ayant t en contact avec lamiante nauront
pas de msothliome. En revanche, en moyenne, une personne en
contact avec lamiante a plus de risque davoir un msothliome.
Linterprtation des faits est souvent plus complique encore. Par
exemple, on observe que la consommation dalcool est plus leve
chez les fumeurs que chez les non-fumeurs, ce qui pourra entraner
une plus forte incidence des cancers du poumon chez les alcooliques
(association non causale) alors que cest le tabac qui en est respon-
sable (association causale).
Pour prouver quun facteur de risque est non seulement associ la
survenue dune maladie, mais encore responsable, une accumulation
darguments est ncessaire [3]. La causalit ne peut pas tre tablie
simplement sur des critres statistiques. Notamment, on a vu lexis-
tence de facteurs de confusion. Ceux-ci sont des obstacles linter-
prtation causale. Le problme est que lon nest jamais certain davoir
observ tous les facteurs de confusion possibles.
Pour les mdicaments mis sur le march, lalerte au dpart peut tre
donne par les mdecins et les pharmaciens, et depuis juin 2011, par
les patients soit la Commission nationale de pharmacovigilance,
soit la base europenne qui centralise les informations de tous les
pays membres. Lexprience de la vaccination contre la grippe H5N1
dans laquelle cette possibilit a t ouverte aux patients a montr
La causalit 159
que, sur le total des effets indsirables signals, 20 % lavaient t

par eux. En pratique, cest dabord un Comit technique de phar-
macovigilance qui examine, juge les effets indsirables qui ont t
signals avant dmettre un avis, lui-mme transmis la Commis-
sion. Ensuite, un traitement biostatistique, pidmiologique est, au
minimum, ncessaire. Cependant, les notifications spontanes ne
permettent que rarement une collecte exhaustive de lensemble des
cas survenus en raison dune sous-notification habituelle des effets
indsirables. Dautres mthodes sont souvent ncessaires : suivis de
cohorte, tudes de cas-tmoins, etc. Elles demandent parfois de lon-
gues dures dobservation et sont onreuses. Ce type dtudes a ainsi
montr quil existait une relation entre la prise de certains mdica-
ments comme les benzodiazpines, les antidpresseurs ou les drivs
nitrs et la survenue de chutes.
De faon plus gnrale, la dtermination dune causalit implique :
de montrer que le risque de maladie est plus lev lorsque lon est
expos au facteur de risque considr quen cas contraire. Cest un
des objectifs des tudes pidmiologiques. Comme nous lavons vu,
la force de ces associations est estime par des mesures statistiques,
dont le risque relatif (cf. p. 128). Par exemple, le Centre international
de recherche sur le cancer (CIRC), agence de lOrganisation mon-
diale de la sant, est charg de dresser la liste des agents qui peuvent
tre considrs comme cancrognes pour lhomme.
Dautres arguments sont la stabilit de lassociation dans des
recherches diffrentes, autrement dit, partir dassociations dj
observes, leur validation sur des populations diffrentes.
Lexistence dune relation dose-rponse, cest--dire lobservation
que, plus le facteur de risque est important en dose et/ou en dure,
plus le risque augmente.
Bien entendu, lexposition doit prcder lapparition de la maladie.
Il peut sy ajouter des apports de plausibilit biologique, physio-
pathologique et des arguments exprimentaux.
Nanmoins, tous ces arguments ne doivent pas tre ncessairement
prsents. Par exemple, lallergie nest pas dose-dpendante et sa
reproductibilit nest pas constante. En dfinitive, aucun de ces argu-
ments ne peut apporter une preuve indiscutable de la causalit et
aucun ne doit tre considr comme un critre indispensable pour
affirmer la causalit. Cela explique que le cheminement soit long
pour accumuler les observations qui permettent de dterminer une
forte probabilit de causalit entre un facteur de risque et lappari-
tion dune maladie.
3 Rfrences
1. Ronco PM, Flahault A (1994) Drug-induced end-stage renal disease. N Engl
J Med 334: 1711-2
2. Perneger TV, Whelton PK, Klag MJ (1994) Risk of kidney failure associated with
the use of acetaminophen, aspirin, and nonsteroidal antiinflammatory drugs. N
Engl J Med 331: 1675-9
3. Flahault A, Spira A (2011) La situation pidmiologique en France en 2011.
Rapport. Bull Acad Ntle Med (sous presse)
Partie
Le diagnostic 4
Introduction
Les lments sur lesquels le mdecin sappuie pour faire le dia-

gnostic dune maladie sont des symptmes (ou signes fonctionnels),
des donnes dexamen (ou signes physiques), des antcdents et, le
cas chant, des examens complmentaires. Ces derniers peuvent tre
biologiques, radiologiques, isotopiques, etc. Chacune de ces catgories
dexamens complmentaires comprend elle-mme une diversit dex-
plorations de plus en plus nombreuses.
Lapprciation de la valeur diagnostique de ces symptmes, signes,
examens complmentaires sest longtemps faite de faon assez subjec-
tive en fonction de leur valeur intrinsque, mais aussi de lexprience
du mdecin, voire de prfrences subjectives de chacun. Ainsi, il y a
une trentaine dannes, propos de la cholcystite aigu, il tait crit
dans un trait que lictre tait frquent, dans un deuxime quil tait
rechercher, dans deux autres quil se voyait dans 10 % des cas, et ntait
pas mentionn dans deux autres [1].
De faon plus gnrale, la valeur dun lment diagnostique tait sou-
vent qualifie de faon subjective : signe frquent ou bon exa-
men ou, linverse, examen peu fiable , etc.
Ces apprciations sont aujourdhui devenues objectives et peuvent tre
quantifies avec des outils de mesure aussi prcis que le centimtre ou
la balance. Ils constituent autant daides la dcision dans laquelle les
contreparties des examens en termes de dsagrment et de risque pour
les malades, grce aux progrs technologiques, sont de plus en plus
rduites. En revanche, leurs cots sont de plus en plus levs. La plus
grande partie est prise en charge par la solidarit nationale. Ainsi, le
mdecin prescripteur dexamens complmentaires a une double res-
ponsabilit : scientifique et conomique.
Rfrence
1. Languille T, Flamant Y, Maillard JN (1980) La douleur biliaire aigu. Essai de
smiologie critique. Gastroentrol Clin Biol 4: 844-7

Les outils de mesure
1
Au sein dune population bien dfinie, lexamen que lon cherche

valuer peut tre anormal (S +) ou normal (S ). Le critre de juge-
ment est, soit la prsence dune maladie (M +), soit son absence (M ).
Il est alors possible de dterminer, au sein de la population tudie
quatre sous-groupes comme le montre le tableau I.
Insistons, nouveau, sur la ncessit de dfinir clairement au dpart,
dune part les critres sur lesquels lexamen a t considr comme
normal ou anormal, dautre part les critres sur lesquels on a mis en
vidence la prsence ou labsence de la maladie, appels le rfrentiel
externe (gold-standard en anglais) (cf. infra).
Tableau I Les donnes.
M+ M Total
S+ a b a+b
S c d c+d
Total a+c b+d N
M + reprsente, au sein de la population tudie, les malades.
M les personnes qui nont pas la maladie.
S + reprsente la prsence du signe (ou le rsultat anormal de lexamen).
S labsence du signe (ou le rsultat normal de lexamen).
Les quatre sous-groupes du champ du tableau correspondent ainsi :
a leffectif des signes prsents chez les malades ;
b leffectif des signes prsents chez des sujets qui nont pas la maladie (appels
faux positifs ) ;
c leffectif des signes absents chez les malades (appels faux ngatifs ) ;
d celui des signes absents chez les sujets qui nont pas la maladie.

partir des effectifs de ces quatre sous-groupes, il est possible de

1 mesurer laide de variables qualitatives la valeur du signe tudi dans
la maladie [1]. Ces outils de mesure sont des applications des probabi-
lits conditionnelles et du thorme de Bayes [2].
Sensibilit et spcificit (tableau II)

Tableau II Sensibilit et spcificit dun signe.
M+ M Total
S+ a b a+b
S c d c+d
Total a+c b+d N
La sensibilit (Se) est gale a / (a + c).
La spcificit (Sp) est gale : d / (b + d).
La sensibilit
La sensibilit dun signe est le pourcentage de cas o il est prsent
chez les malades, ce que lon peut encore exprimer en disant que cest
la probabilit du signe sil y a la maladie. Elle est estime par le rapport
du nombre de malades chez lesquels le signe est prsent (a) au nombre
de malades (a + c).
Un signe est dautant plus sensible quil est souvent prsent dans la
maladie. Si c = 0, cest--dire pas de faux ngatifs , la sensibilit du
signe est gale 1 (ou 100 %), ce qui signifie que le signe est toujours
prsent chez les malades. Cest le cas de la fivre dans la typhode, ou
de llvation des transaminases dans les hpatites. Beaucoup dtudes
qui concernent lvaluation dun moyen diagnostique sont rtrospec-
tives et ne portent que sur des patients atteints dune maladie, chez
lesquels un examen complmentaire a t tudi. De ce fait, elles ne
peuvent apprcier que la sensibilit de cet examen, ce qui en limite
beaucoup lintrt comme nous allons le voir.
La spcificit
La spcificit dun signe dans une population mesure le pourcen-
tage de sujets chez lesquels il est absent parmi ceux qui nont pas la
maladie. En termes de probabilit, la spcificit estime la probabilit
Les outils de mesure 167
de labsence du signe en labsence de maladie. La spcificit est, en

effet, estime par le rapport du nombre de sujets qui nont pas la mala-
die ni le signe (d), lensemble des sujets qui nont pas la maladie dans
la population tudie (b + d).
Un signe est dautant plus spcifique quil est rarement prsent chez les
personnes qui nont pas la maladie. Sil ny a pas de faux positifs
(b = 0), la spcificit du signe est gale 1 (ou 100 %). Cest ce que
lon appelle alors un signe pathognomonique de la maladie comme le
signe de Koplik dans la rougeole. Ce type de signe est malheureuse-
ment trs rare.
Les limites de la sensibilit et de la spcificit

Pour intressants que soient les estimations de la sensibilit et de
la spcificit, que lon peut assortir de leur intervalle de confiance, ces
deux moyens de mesure ne permettent pas de rpondre aux deux prin-
cipales questions qui intressent le clinicien devant la prsence dun
signe clinique ou devant le rsultat dun examen complmentaire : si
le signe est prsent, quelle est la probabilit que le sujet ait la maladie
que lon cherche diagnostiquer ? Et si le signe est absent, quelle est
la probabilit que le sujet nait pas la maladie que lon a pu voquer ?
Les valeurs prdictives rpondent ces interrogations. Ces valeurs,
encore dnommes probabilits a posteriori, sont, comme la sensibilit
et la spcificit, des probabilits conditionnelles dont les dveloppe-
ments mathmatiques ont t formuls, eux aussi par Thomas Bayes1
(cf. infra).
Valeurs prdictives (tableau III)

Tableau III Les valeurs prdictives.
M+ M Total
S+ a b a+b
S c d c+d
Total a+c b+d N
La valeur prdictive positive (VPP) est gale a/a + b.
La valeur prdictive ngative (VPN) est gale : d/c + d.
1 Bayes tait un pasteur anglican ayant vcu au XVIIIe sicle.
1 La valeur prdictive positive (VPP)

La valeur prdictive positive dun signe estime la probabilit de la
maladie chez les personnes qui ont ce signe. Cette estimation corres-
pond au rapport du nombre de sujets qui ont la maladie et chez les-
quels le signe est prsent (a) sur le nombre de sujets chez lesquels le
signe est prsent (a + b).
La VPP dun signe est dautant plus grande que le signe est rarement
prsent chez les personnes qui nont pas la maladie, autrement dit que
le nombre de faux positifs est faible.
La valeur prdictive ngative (VPN)

La valeur prdictive ngative dun signe estime la probabilit
dabsence de la maladie chez les personnes qui nont pas ce signe. Elle
est dfinie par le rapport du nombre de sujets qui nont pas la maladie
et chez lesquels le signe est absent (d) sur le nombre de sujets chez
lesquels le signe est absent (c + d).
La VPN dun signe est dautant plus grande que labsence du signe
est rare chez les personnes qui ont la maladie, autrement dit que le
nombre de faux ngatifs est faible.
Le lien entre ces quantits

Le thorme de Bayes permet, de faon gnrale, destimer la proba-
bilit de survenue dun vnement, sachant quun autre vnement est
connu (tableau IV). Par exemple, il estime la probabilit dune maladie
lorsquun signe pathologique est prsent en tenant compte de la prva-
lence de la maladie dans la population tudie.
Tableau IV Valeurs prdictives et caractristiques du test.
Le thorme de Bayes permet dcrire :
p(M +) u p(S + M +)
p(M + S +) dans lequel :
p(M +) u p(S + M +) p(M ) u p(S + M )
p (M+) est la prvalence P de la maladie dans la population tudie.
p (M) est le complment de la prvalence 1 p (M+)
| Cette barre verticale exprime une probabilit conditionnelle :
p (S+ |M+) est la probabilit du signe si la maladie est prsente, cest--dire la
sensibilit (Se) du signe.
p (S+ | M) est la probabilit du signe sil ny a pas la maladie ; cest le complment
de la spcificit cest--dire 1 Sp.
Les outils de mesure 169
Appliqu aux valeurs prdictives positives (VPP) et ngatives (VPN), le thorme

de Bayes peut donc scrire :
P u Se
VPP p(M + S +)
P u Se (1 P ) u (1 Sp)
De faon analogue, la valeur prdictive ngative, cest--dire la probabilit dabsence

de la maladie si le signe est absent, scrit :
(1 P ) u Sp
VPN p(M S )
(1 P ) u Sp (1 p) u (1 Se )
Il est possible, par analogie, de calculer de la mme faon la probabilit de maladie si
le signe est absent ou la probabilit dabsence de maladie si le signe est prsent, mais
ces probabilits sont, en gnral, moins utiles en pratique mdicale.
Question pralable en guise dexercice

On avait donn aux mdecins de la clbre Harvard Medical School
de Boston les trois informations suivantes [3] :
la frquence des hpatites, prsumes virales, dans une population
gnrale nord-amricaine est de 1 pour 1 000 ;
les sujets qui ont une hpatite virale ont toujours une lvation des
transaminases ;
mais, dans la population gnrale, on observe que 5 % des sujets
peuvent avoir une lvation des transaminases sans avoir pour
autant une hpatite virale.
Il a t ensuite pos ces mdecins la question suivante : si vous voyez
une personne qui a une lvation des transaminases, quelle est la pro-
babilit quil ait une hpatite virale ?
Seulement 18 % des mdecins interrogs ont su rpondre correcte-
ment cette question. Nous vous proposons de tenter ds maintenant
lexercice. Nous vous assurons que la lecture des paragraphes suivants
vous permettra dy arriver. Vous pourrez confronter votre rponse la
solution qui sera donne ensuite (tableau V).
Rponse la question pose aux mdecins de Harvard

Il est possible de rpondre en remplissant pas pas le tableau
quatre cases (tableau I) en reprenant lnonc des donnes et en ddui-
sant certaines donnes :
Tableau V Rponse lexercice.

1) La frquence des hpatites prsumes virales dans une population gnrale nord-
amricaine est de 1 pour 1 000, ce qui donne :
M+ M Total
S+ a b a+b
S c d c+d
Total 1 999 1 000
2) Les sujets qui ont une hpatite virale ont toujours une lvation des transaminases,
1 ce qui donne :
M+ M Total
S+ 1 b a+b
S 0 d c+d
Total 1 999 1 000
3) Dans la population gnrale, on observe que 5 % des sujets peuvent avoir une
lvation des transaminases sans avoir pour autant une hpatique virale, ce qui
donne (par approximation) :
M+ M Total
S+ 1 50 51
S 0 949 949
Total 1 999 1 000
La sensibilit (Se) du signe est 1/1 soit 100 % ou 1,0 ; la spcificit (Sp) est 949/999
ou 0,05.
p (M+) = 0,001.
p (S+ |M+ ) = Se = 1,0
p (S+ |M) = Sp = 0,05
0,001 u 1,0
La VPP p(M S ) 0,02, soit 2 %
0,001 u 1,0 (1 999) u (1 0,05)
Il est encore plus simple dappliquer la formule du tableau IV qui donne :

VPP = 1/51, soit approximativement 2 %, et
VPN = 949/949, soit 100 %.
Rfrences
1. Lacaine F, Huguier M, Gremy F (1978) Lefficacit dun examen but diagnos-
tique : de la donne la dcision mdicale. Nouv Presse Med 7: 1451-3
2. Price (1763) An essay towards solving a problem in the doctrine of chances
by the late Rev. Mr Bayes, F.R.S. Philosophical transactions: 370-418. (Nous
remercions la bibliothcaire de la facult de mdecine de Lille qui nous a adress
une photocopie de la publication originale de la communication de Price)
3. Casscells W, Schoenberger A, Graybos T (1978) Interpretation by physicians of
clinical laboratory results. N Engl J Med 299: 999-1000
Remarques sur la sensibilit, la spcificit,
les valeurs prdictives. Les courbes ROC 2
Les trois grandes dfinitions

Lvaluation de la valeur diagnostique dun symptme, dun signe
ou dun examen complmentaire dans une maladie dpend des dfi-
nitions :
de la population tudie dans laquelle il y a des malades, mais aussi
des non-malades ;
des critres sur lesquels on a dtermin que lexamen tait normal
ou anormal ;
des arguments sur lesquels on a dtermin que la maladie tait bien
prsente ou, dans le cas contraire absente ; cest, nous lavons indi-
qu, le rfrentiel ou le standard de rfrence externe.
La dfinition de la population (ou de lchantillon)

inclus dans ltude
Limportance de cette dfinition dans linterprtation des rsultats va
tre montre en prenant comme exemple lchographie transcutane
dans le diagnostic de mtastases hpatiques chez des malades qui ont
un cancer primitif connu. Rappelons que le diagnostic de lexistence
ou non de ces mtastases est fondamental pour orienter la stratgie
thrapeutique.
Une tude, ralise dans un service de radiologie nord-amricain, a
concern 189 malades. Elle avait surtout port sur des malades qui
avaient un cancer du sein. Elle a montr que la sensibilit de lexamen
tait de 82 % [1].
Une autre tude a t mene dans un service de chirurgie sur
273 malades atteints de cancers de lappareil digestif. La sensibilit de
lchographie avait t de 66 %[2]. La diffrence entre les rsultats des
deux tudes tait statistiquement significative.

Plusieurs interprtations ont t voques. Les diffrences pouvaient

2 tre dues au fait que les appareils dchographie taient sensiblement
diffrents, mais celui de la seconde tude, un peu plus rcent que celui
utilis dans la premire tude tait plutt plus performant que lautre.
Il pouvait encore sagir de diffrence de performance des radiologues
amricains et franais. Une autre explication possible tait que, dans
un cas, il sagissait surtout de mtastases de cancers du sein et, dans
lautre, surtout de mtastases de cancer du clon qui pouvaient avoir
une chognicit moindre. En fait, la principale explication tait que
les malades avaient t inclus sur des critres assez diffrents dune
tude lautre. Dans le travail du service de chirurgie, seuls les patients
qui navaient pas de mtastases cliniquement dcelables la palpation
avaient t inclus. Dans ltude des radiologues, de tels malades taient
inclus. Dans le premier cas, lexamen complmentaire tait un examen
de dpistage. Dans lautre cas, de grosses mtastases palpables aug-
mentaient, bien entendu, la sensibilit de lchographie qui ne faisait
que les confirmer. Il y avait donc la base une diffrence entre les
personnes dites malades dans les deux tudes, avec des patients
plus atteints dans le second cas. On appelle ce phnomne le biais de
spectre (spectrum bias en anglais).
Ainsi, des diffrences de sensibilit ou de spcificit dun examen
dune tude lautre peuvent sexpliquer par des diffrences de popu-
lations incluses, cest--dire dchantillons. Cela montre encore quun
travail men avec une bonne rigueur mthodologique est dautant plus
intressant quil est plus pertinent : lvaluation de la sensibilit de
lchographie, chez un malade qui a un cancer connu et une mtastase
hpatique palpable cliniquement, a un intrt plus limit que si le foie
parat normal la palpation.
Sur quels critres lexamen que lon cherche valuer

a-t-il t considr comme positif (anormal) ou ngatif (normal) ?
Le choix des critres de normalit ou danormalit nest pas toujours

vident. Il affecte cependant les valeurs de la sensibilit, de la spcificit
ou des valeurs prdictives dun examen. Dans notre exemple de lcho-
graphie dans le diagnostic de mtastases hpatiques, il convient dans le
protocole dtude de dfinir les critres de diagnostic de mtastases. En
effet, toute tumeur hpatique nest pas forcment une mtastase, mais
peut tre un adnome, une hyperplasie nodulaire focale, etc. Pour un
examen biologique, il est possible de prendre comme limite suprieure
de la normale ou bien celle indique par le laboratoire ou bien la
valeur observe, chez les malades inclus dans ltude et qui nont pas
Remarques sur la sensibilit, la spcificit, les valeurs prdictives. Les courbes ROC 173
la maladie, plus ou moins deux carts-types. Ainsi, deux tudes ont

valu la sensibilit et la spcificit des lactico-dshydrognases dans
le dpistage de mtastases hpatiques chez des malades qui avaient un
cancer colorectal connu. Le tableau I montre les rsultats de ces deux
tudes.
Tableau I Rsultats de deux tudes sur la sensibilit

et la spcificit des lactico-dshydrognases dans le diagnostic
de mtastases hpatiques dun cancer colorectal.
Sensibilit (%) Spcificit (%)
tude de Adloff et al. [3] 87 72
tude de Molkhou et al. [2] 51 84
Ces diffrences dans des examens biologiques raliss avec la mme

technique de dosage pouvaient sexpliquer par le fait que dans ltude
dAdloff et al. la limite suprieure de la normale, qui avait t retenue,
tait celle indique par le laboratoire, soit 120 U/L. Dans lautre tude,
les auteurs avaient pris comme limite suprieure de la normale la
moyenne de la valeur observe chez les malades qui navaient pas de
mtastases hpatiques plus deux carts-types, et qui tait de 218 U/L.
Cet exemple montre encore que, pour un mme examen, la sensibilit
et la spcificit voluent toujours de manire antagoniste : renforcer
lune implique que lon rduise lautre.
Sur quels critres le diagnostic de maladie ou de non-maladie

a-t-il t tabli (le rfrentiel ou standard de rfrence externe) ?
En continuant prendre notre exemple du diagnostic de mtastases
hpatiques, il convient de savoir sur quels critres le diagnostic de
mtastases a t port ou rcus. Le critre macroscopique lchogra-
phie est insuffisant. En effet, chez un malade qui a un cancer colorectal
et une lsion hpatique, celle-ci nest pas une mtastase une fois sur
cinq [4]. Lexamen anatomopathologique est, dans ce cas, le standard
de rfrence externe pour dfinir lexistence de mtastase. En revanche,
ce standard est inappropri pour dfinir labsence de mtastase et
mme lintervention chirurgicale ventuelle, la palpation du foie
peut mconnatre des mtastases, notamment centro-hpatiques [5].
Lchographie peropratoire et le suivi du malade sont alors nces-
saires pour sassurer de labsence de mtastases et peuvent, de ce fait,
constituer le standard de rfrence externe de non-maladie [6].
2 Les courbes ROC

Le signe ou lexamen idal serait celui qui aurait une sensibilit de
100 % et une spcificit de 100 % et donc des valeurs prdictives, elles
aussi, de 100 %. Malheureusement, il na pas encore t trouv. En
pratique, il faut faire un compromis entre la sensibilit et la spcificit
qui varient en sens oppos. Si lon privilgie la sensibilit dun examen,
il sera souvent peu spcifique et rciproquement. Le melna est trs
spcifique dune hmorragie digestive, mais il est peu sensible : des
hmorragies digestives peu abondantes nentranent pas de melna.
Inversement, lHmocult est plus sensible, pour dpister du sang
dans les selles, mais il est peu spcifique dhmorragie digestive : un
petit saignement dorigine gingivale ou des facteurs alimentaires, par
exemple, peuvent rendre un Hmocult positif.
Indices globaux
Pour essayer de concilier les termes de cette alternative, examen
sensible, mais peu spcifique ou spcifique, mais peu sensible, des
moyens prenant en compte la fois la sensibilit et la spcificit ont
t proposs.
Ainsi, la fiabilit dun examen estime la somme des vrais posi-
tifs et des vrais ngatifs sur lensemble des cas tudis (a + d)/N.
Un autre outil est le rapport de vraisemblance de lexamen. Cest le
rapport du pourcentage des vrais positifs chez les malades (a/a + c)
sur les faux positifs chez les sujets qui nont pas la maladie (b/b + d).
Par exemple, un rapport de vraisemblance gal quatre signifie que
lexamen est quatre fois plus souvent positif chez les malades que chez
ceux qui nont pas la maladie. Par analogie, il est encore possible de
mesurer le rapport de vraisemblance ngatif quest le rapport du pour-
centage des faux ngatifs chez les malades c/(a + c) sur les vrais
ngatifs chez les sujets qui nont pas la maladie d/(b + d). Un rap-
port de 0,5 signifie que labsence du signe est deux fois moins souvent
observe chez les malades que chez les sujets qui nont pas la maladie.
Les Receiver Operating Characteristics curves ou courbes ROC

Certains signes diagnostiques sont valus par une mesure, par exemple
un dosage, et demandent la dfinition dun seuil pour prendre une dci-
sion oprationnelle. Prenons lexemple du dosage des transaminases chez
des personnes atteintes dune hpatite et chez des sujets sains. La distri-
bution du dosage dans lun et dans lautre groupe, en supposant leur
distribution normale, peut tre dcrite par des courbes de Laplace-Gauss

(fig. 1). Il est habituel que ces deux courbes se superposent partiellement
avec un chevauchement entre les valeurs les plus leves chez les non-
malades et les valeurs les plus basses chez les malades. Si lon prend une
valeur seuil basse, 100 par exemple, il y aura des faux positifs, les sujets
sans hpatite qui ont un taux de transaminases suprieur 100, et trs
peu de faux ngatifs : lexamen sera peu spcifique, mais trs sensible. Si
lon prend au contraire une valeur plus leve, 300, il y aura trs peu de
faux positifs, mais des faux ngatifs reprsents par les malades atteints
dhpatite qui ont un taux de transaminases infrieur 300 : lexamen
sera considr comme trs spcifique, mais peu sensible. On comprend
bien que lorsque lon fait varier le curseur de la valeur seuil en de de
laquelle on considre que le rsultat est normal et au-del de laquelle
on le considre comme tant anormal ou pathologique, on fera varier
chaque fois les valeurs estimes de la sensibilit et de la spcificit de
lexamen. Cest ce que permettent de quantifier les courbes ROC.
Fig. 1 Rsultats de la mesure dune variable quantitative dans une population

comportant un sous-groupe de malades et un sous-groupe de non-malades.
1) La sensibilit et la spcificit dpendent de la valeur limite de la normale que
lon a choisie. 2) Elles varient en sens oppos : lorsque la sensibilit augmente,
la spcificit diminue, et rciproquement.
Les courbes ROC ont t imagines pendant la Seconde Guerre

mondiale par les Britanniques pour rgler leurs radars. Le problme
tait le suivant : les Allemands envoyaient, notamment sur Londres,
des missiles chargs dexplosifs, les V1, puis plus tard le V2. Les
radars anglais cherchaient dtecter ces missiles ds quils survolaient
la Manche afin de les dtruire en vol et de dclencher lalerte pour
permettre aux Londoniens de descendre dans les abris. Le problme
du rglage des radars sest alors pos. Si le rglage tait trop sensible,
un albatros, voire un gros goland, risquait de dclencher lalerte. Mais
si le rglage tait plus spcifique, il risquait dtre insuffisamment
sensible et des missiles pouvaient de ne pas tre dtects. Des tudes de
sensibilit et de spcificit ont donc t menes pour chercher et pour
tablir un seuil optimal de dtection. Cest le but des courbes ROC.
2 laboration des courbes ROC

Les courbes ROC consistent porter sur un graphique, pour une
valeur donne de seuil entre le normal et lanormal dun examen,
sa sensibilit (Se) en ordonne et la spcificit correspondante (Sp)
en abscisse. En rptant ces mesures pour diffrentes valeurs seuil,
on peut dterminer des courbes : cest le principe des courbes ROC
(fig. 2).
Fig. 2 Exemple dune courbe de sensibilit (Se) en fonction de la spcificit

(Sp), mais ceci nest pas lexpression habituelle dune courbe ROC (fig. 3).
Ces courbes montrent quhabituellement, une valeur seuil qui cor-

respondrait une sensibilit proche de 100 % aurait une spcificit
proche de 0 %, alors quune valeur seuil proche de 100 % de spcifi-
cit aurait une trs mauvaise sensibilit. Sur ce graphique, une courbe
ROC proche de la diagonale correspond un test qui na pas dintrt
diagnostique.
En fait, dans les courbes ROC, labores laide de logiciels, laxe des
abscisses correspond, non pas la spcificit, mais son complment,
1 Sp (fig. 3).
Fig. 3 Courbe ROC. Par rapport la figure 2, au lieu de porter en abscisses les
valeurs de la spcificit (Sp), il est port leurs complments (1 Sp).
Sous les conditions rappeles ci-aprs, la valeur seuil optimale est celle
qui correspond sur la courbe son point dinflexion, soit encore au
point dintersection de la courbe ROC et de la deuxime bissectrice de
laxe des abscisses et des ordonnes. Ce choix sapplique dans lhypo-
thse dun cot affect aux erreurs de diagnostic quivalent ou peu
prs quivalent pour les faux positifs et les faux ngatifs .
Il existe des tests statistiques qui permettent de comparer les courbes
ROC observes la premire bissectrice qui reprsente une progres-
sion linaire entre la sensibilit et le complment de la spcificit. Il est
encore possible de comparer deux courbes ROC entre elles pour deux
examens diffrents. Des tests statistiques reposent sur la comparaison
des surfaces sous les courbes (AUROC) (fig. 4). Comme il vient dtre
dit, la courbe ROC qui serait sur la premire diagonale correspond
un test sans intrt diagnostique. Dans cette configuration, laire sous
la courbe AUROC correspondrait 0,5. La valeur de lAUROC aug-
mente avec la qualit diagnostique du test dont on peut tester lintrt,
par exemple, en montrant que son AUROC est significativement plus
grande que 0,5.
Fig. 4 Courbes ROC comparant les valeurs diagnostiques de svrit dans les
pancratites aigus entre deux scores diffrents, le score APACHE (aire sous la
courbe : 0,78) et le score de Glasgow (aire sous la courbe : 0,65) laide dun
test de McNemar (p = 0,005) [7].
Rle de la prvalence de la maladie

La sensibilit et la spcificit sont indpendantes de la prvalence
de la maladie dans la population tudie (bien que des travaux rcents
aient suggr une certaine dpendance entre sensibilit, spcificit et
prvalence).
En revanche, comme nous lavons dj montr propos du thorme
de Bayes, les valeurs prdictives sont troitement dpendantes de la
prvalence de la maladie dans la population tudie (tableaux III et IV
du chapitre I). Le tableau II montre quun examen peut avoir la mme
sensibilit et la mme spcificit quun autre dans deux chantillons
dans lesquels la prvalence de la maladie diffre. Mais les valeurs pr-
dictives diffrent pour cette mme raison.
Ces deux considrations font comprendre que :
les rsultats dune tude de sensibilit et de spcificit dun examen
peuvent tre extrapols une autre population que celle partir de
laquelle elles ont t estimes ;
en revanche, les valeurs prdictives ne peuvent ltre que dans des
populations dans lesquelles la prvalence de la maladie est du mme
ordre que celle de lchantillon qui a servi les estimer.
Tableau II Sensibilit, spcificit, valeurs prdictives et prvalence.

Premier exemple : M+ M Total
S+ 45 10 55
S 5 90 95
Total 50 100 150
Dans ce premier exemple, Se = 45/50 = 90 % VPP = 45/55 = 82 %
Sp = 90/100 = 90 % VPN = 90/95 = 95%
Prvalence = 50/150 = 33 %
Second exemple : M+ M Total
S+ 18 20 38
S 2 180 182
Total 20 200 220
Dans ce second exemple, Se = 18/20 = 90 % VPP = 18/38 = 47 %
Sp = 180/200 = 90 % VPN =180/182 = 99 %
Prvalence = 20/220 = 10 %
Ces deux exemples montrent que, si la sensibilit et la spcificit dun examen sont
indpendantes de la prvalence (et gales dans nos deux exemples), il nen est pas
de mme des valeurs prdictives.
Dans lexemple du tableau II, les valeurs prdictives estimes sur le

premier chantillon, de 82 % pour la VPP et de 95 % pour la VPN,
ne peuvent tre utilises dans le deuxime chantillon dans lequel la
prvalence de la maladie est de 10 % alors quelle tait de 33 % dans le
premier. Dans le cas contraire, il faudrait recalculer les VPP et les VPN
pour la population de patients laquelle on envisage dappliquer le test.
Pour une sensibilit et une spcificit donnes, les VPP augmentent
avec la prvalence de la maladie dans la population tudie alors que
les VPN diminuent (tableau III).
Tableau III Exemple thorique dun examen ayant une sensibilit

et une spcificit de 95 % et des valeurs prdictives en fonction
de la prvalence de laffection dans lchantillon.
Prvalence Valeurs prdictives (%)

(%) positives ngatives
1 16,1 99,9
2 27,9 99,9
5 50,0 99,7
10 67,9 99,4
20 82,6 98,7
50 95,0 95,0
75 98,3 83,7
100 100,0
2 Effectifs ncessaires pour contrler la valeur

des intervalles de confiance et des indices
informationnels dun examen
Lorsque lon estime la sensibilit et la spcificit dun examen, ces
mesures doivent tre assorties de leur intervalle de confiance. Il est
souhaitable que ces intervalles soient aussi rduits que possible. Si un
examen a une sensibilit de 80 % et que la mesure de cette sensibi-
lit a t effectue sur un petit nombre de cas, la valeur infrieure de
lintervalle de confiance 95 % sera de 60 %, voire de 50 %, ce qui
limite considrablement lintrt dune telle tude. Pour rduire cette
ventualit, il est possible de calculer les effectifs quil est ncessaire
dinclure dans ltude. Cest ce que montre le tableau IV.
Tableau IV Exemples du nombre de cas inclure pour une

puissance du test (1 ) de 95 % en fonction de la sensibilit espre
de lexamen que lon cherche valuer et du seuil de lintervalle de
confiance que lon se fixe2.
Valeur infrieure de lintervalle de confiance
0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90
Sensibilit
espre :
0,60 268 1 058
0,65 119 262 1 018
0,70 67 114 248 960
0,75 42 62 107 230 869
0,80 28 40 60 98 204 756
0,85 18 26 33 52 85 176 624
0,90 13 18 24 31 41 70 235 474
0,95 11 12 14 16 24 34 50 93 298
Par exemple, si un laboratoire se propose de commercialiser une ban-

delette urinaire dont il espre que la sensibilit sera de 90 % (0,90) et
sil souhaite que la limite infrieure de lintervalle de confiance soit
80 % (ou 0,80), il lui faudra inclure 235 chantillons durine pour
atteindre cet objectif. Si cet examen doit tre utilis dans une popu-
lation dans laquelle la prvalence de la maladie est de 10 %, il faudra
2 Daprs Thomas G. et Flahault A.
quil y ait environ 2 100 tmoins, cest--dire que ltude devra porter
sur un total de 2 335 chantillons durine.
Rfrences
1. Alderson P, Adam DF, McNeil BJ, et al. (1983) Computed tomography, ultra-
sound, and scintigraphy of the liver in patients with colon or breast carcinoma:
a prospective comparison. Radiology 149: 224-30
2. Molkhou JM, Lacaine F, Houry S, Huguier M (1989) Dpistage des mtastases
hpatiques des cancers digestifs. Place des dosages enzymatiques et de
lchographie. Presse Med 18:1370-4
3. Adloff M, Arnaud JP (1985) tude prospective critique des diffrentes mthodes
de dtection des mtastases hpatiques. Ann Gastroenterol Hepatol 21: 31-4
4. Chan AW, Altman DG (2005) Identifying outcomes reporting bias in randomised
trials on PubMed: review of publications and survey of authors. BMJ 330: 753
5. Smith TJ, Kemeny MM, Sugarbaker PH (1982) A prospective study of hepatic
imaging in the detection of metastastic disease. Ann Surg 33: 519-23
6. Raffaelsen SR, Kronborg O, Larsen C, Fenger C (1995) Intraoperative
ultrasonography in detection of hepatic metastases for coloretal cancer. Dis
Colon Rectum 38: 355-60
7. Mofidi R, Madhavan KK, Garden OJ, Parks RW (2007) An audit of the
management of patients with acute pancreatitis against national standards of
pratice. Br J Surg 94: 844-8
La dmarche diagnostique, choix dun examen,
attitude dcisionnelle 3
La dmarche diagnostique
Le raisonnement intuitif
La dmarche diagnostique intuitive fait appel aux connaissances et
lexprience. Son analyse permet de comprendre laide au diagnostic
que peuvent apporter les probabilits baysiennes.
Cette dmarche diagnostique consiste, partir dun symptme pour
lequel le malade vient consulter, voquer des probabilits diagnos-
tiques a priori qui reposent comme il vient dtre indiqu sur les
connaissances et lexprience. Chez un adulte qui se plaint dune
douleur abdominale aigu, on sait intuitivement quil peut avoir une
appendicite, une cholcystite ou de nombreuses autres affections
moins frquentes.
Ensuite, toujours intuitivement, on intgre dans le raisonnement
dautres donnes que le symptme douleur abdominale aigu
(ge, sexe, autres symptmes, signes dexamen, etc.). Ainsi, dans notre
exemple, si le malade est jeune, le diagnostic dappendicite est plus
probable que sil est g. La localisation de la douleur dans la fosse
iliaque droite augmente encore cette probabilit. En revanche, sil sagit
dune femme, la probabilit a priori dune cholcystite est plus leve
que sil sagit dun homme, la lithiase vsiculaire tant plus frquente
chez la femme que chez lhomme, etc.
On aboutit ainsi, partir des symptmes dont se plaint le malade
et de ses antcdents, puis de lexamen clinique des probabilits
diagnostiques a posteriori.

Si, au terme de ces tapes du raisonnement, il persiste plusieurs hypo-

3 thses diagnostiques, ltape suivante consiste demander des examens
complmentaires. Nous verrons comment ces derniers peuvent tre
choisis et comment ils doivent ltre dans une perspective dcisionnelle.
Cette dmarche intellectuelle fait, notre avis, une grande partie de
lintrt de lexercice mdical, ce qui, comme nous allons lexpliquer,
nexclut pas, bien au contraire, lapport scientifique des probabilits
baysiennes.
La dmarche systmatique
Malgr sa pratique, nous la dconseillons vivement pour des rai-

sons de raisonnement et de cots. Elle consiste, partir dun ou deux
symptmes, demander toute une srie dexamens complmentaires
orients par ce ou ces deux symptmes et commencer rflchir au
vu de leurs rsultats. Il sy ajoute habituellement une mconnaissance
totale du risque de premire espce inhrent tous ces examens, ce
qui amne en refaire. Il est possible de comparer cette attitude celle
de joueurs dans les casinos de Las Vegas qui mettent un jeton dans la
machine sous, abaissent la manivelle en esprant quils vont toucher
le jack pot. Cependant, la diffrence est que les mdecins prescrip-
teurs ne perdent pas leur argent, mais dpensent celui que la solidarit
nationale, par le biais de lassurance maladie, met indirectement leur
disposition.
La prescription dexploration la mode, lance par des travaux de
recherche et repris par le grand public mdical est une erreur. Les inves-
tigations non raisonnes et non guides par un interrogatoire et un exa-
men clinique correct sont inutiles , disait dj en 1977, le professeur
Mornex, qui fut doyen et prsident dUniversit [1]. Plus rcemment,
un enseignant de luniversit de Boston aux tats-Unis ne dit pas autre
chose quand il crit, en substance [2] : Les avances rcentes dans
les connaissances scientifiques et la technologie ont permis le dveloppe-
ment dun vaste ensemble de nouveaux tests, de nouveaux agents phar-
macologiques, et de traitements. Ils sont si facilement accessibles que peu
dentre nous arrivent rsister les prescrire toute occasion [] Ce
faisant, nous entranons la faillite de notre systme de sant [] Nous
nacceptons pas lincertitude [] Il en rsulte que, par rflexe, nous sur-
prescrivons des examens et des traitements dans lide de protger nos
patients, mais aussi nous-mmes. Nous croyons que tout faire et le moyen
de prvenir le mal et que cela va mettre labri de tout blme [] Nous
devons apprendre nos tudiants savoir rflchir plus, attendre plus,
observer plus. Nous devons apprendre nos patients que le plus de
La dmarche diagnostique, choix dun examen, attitude dcisionnelle 185
mdecine nest pas la meilleure mdecine et que des prescriptions co-

teuses ne sont pas synonymes des meilleurs soins .
Le raisonnement objectif
la dmarche assez intuitive qui a t dcrite au dbut de ce cha-
pitre, on peut substituer une dmarche plus scientifique. Nous allons
reprendre lexemple dj voqu dune douleur abdominale aigu.
La premire tape a consist utiliser les rsultats des tudes pid-
miologiques sur les causes des douleurs abdominales aigus chez des
patients adultes (plus de 15 ans) venus consulter en urgence lhpital
pour ce symptme. Une tude a ainsi t mene chez 3 500 malades
[3]. Elle a montr que les causes en taient une appendicite dans 26 %
des cas, une cholcystite dans 10 % des cas, etc. ou encore un kyste de
lovaire compliqu dans 2 % des cas. Ce sont les probabilits a priori
des causes de douleurs abdominales aigus.
Cette tude a t complte par la mesure de la sensibilit et la valeur
prdictive positive de chaque signe dans chacune des affections qui
pouvaient tre la cause des douleurs abdominales aigus.
partir de ces donnes, et des probabilits baysiennes, il a t possible
dlaborer une aide au diagnostic en introduisant dans le modle, une
une, les donnes, ce qui aboutit des probabilits a posteriori [4]. Par
exemple, la probabilit a priori dune cholcystite tait de 10 % comme
nous lavons indiqu. Un ge infrieur 50 ans diminuait cette proba-
bilit de 10 % 3 %. Lappartenance au sexe fminin raugmentait la
probabilit de cholcystite de 3 % 7 %. Le sige de la douleur dans
lhypocondre droit augmentait encore cette probabilit, etc.
Les probabilits baysiennes peuvent ainsi sappliquer plusieurs
hypothses diagnostiques a priori. Pour cela, il convient, comme dans
notre exemple, que les diagnostics soient mutuellement exclusifs et
que toutes les hypothses diagnostiques soient envisages, cest--dire
que la somme de leurs probabilits respectives soit de 100 %.
Dans une situation pour laquelle on connat les probabilits a priori de
diffrentes maladies M1, M2, M3, etc. la probabilit dune maladie M1
si un signe S1 est prsent scrit p (M1_S1) :
p(M 1) u p(S1 M 1)
p(M 1 S1)
p(M 1) u p(S1 M 1) p(M 2) u p(S1 M 2) p(S1 M 3) etc.
Il est encore possible dutiliser les rapports de vraisemblance (RV) de

chaque signe. Si la prvalence est de 50 %, la probabilit a posteriori
(valeur prdictive positive) dune maladie est gale au produit des RV
apport ce produit + 1. Ainsi, une tude sur les gastro-entrites a
montr quelles taient une fois sur deux dorigine virale. Ltude des
3 RV en faveur de lorigine virale de laffection a donn les rsultats
indiqus dans le tableau I [5].
Tableau I Rapports de vraisemblance en faveur de lorigine virale

dune gastro-entrite (daprs [5]).
Rapport de vraisemblance
ge > 15 ans 1,8
ge < 15 ans 0,6
Selles liquides 1,3
Selles molles 0,3
Vomissements 1,5
Absence de vomissement 0,4
Fivre 0,9
Absence de fivre 1,1
Rhinite 0,6
Absence de rhinite 1,3
Ainsi, un malade qui consulte pour une gastro-entrite et qui a moins

de 15 ans, des selles liquides, des vomissements sans fivre ni rhinite a
une probabilit que sa diarrhe soit dorigine virale de :
1,8 u 1,3 u 1,5 u 1,1 u 1,3 5,02
0,83 ou 83 %
(1,8 u 1,3 u 1,5 u 1,1 u 1,3) 1 5,02 1
En introduisant ainsi une une, diffrentes variables, ce que lon

appelle lutilisation squentielle de plusieurs signes, et condition
que ces variables soient indpendantes entre elles, il est possible de
concevoir des systmes informatiques daide au diagnostic. Il ne sagit
l que dune aide au diagnostic qui peut orienter la dcision mdicale,
mais ne se substitue pas elle. Les rsultats obtenus, parfois dcevants,
avec des performances de lordinateur infrieures celles du clinicien,
peuvent tre dus des banques de donnes insuffisantes en nombre
et en qualit. En revanche, de telles expriences ont montr que le fait
dobliger le clinicien entrer des donnes prcises dinterrogatoire
et dexamen dans lordinateur lamenait interroger et examiner
les malades mieux et plus systmatiquement quil ne le ferait autre-
ment. Par exemple, dans laide au diagnostic sur les douleurs aigus
de labdomen, cela oblige bien prciser les caractres dune douleur :
sige, irradiations, type, mode de dbut, etc. ou encore ausculter
labdomen afin de rpondre aux interrogations correspondantes de
lordinateur. ce titre, de tels systmes ont une valeur pdagogique cer-

taine. Ils peuvent aussi tre utiliss de faon presque ludique en choi-
sissant, parmi les diffrentes variables proposes, celle qui augmente le
plus la probabilit dun diagnostic donn et inversement. Autrement
dit, il sagit l dune nouvelle faon dapprendre la smiologie.
Le choix dun examen

Les examens complmentaires sont de plus en plus nombreux et
sophistiqus. Les progrs techniques en diminuent les dsagrments et
les risques pour les patients. Aux angiographies qui ncessitaient jadis
des injections intra-artrielles et la monte de cathters se sont subs-
titues des techniques de scannographie ou de rsonance magntique
nuclaire qui ne demandent quune injection intraveineuse priph-
rique. La tentation est alors dautant plus grande de prescrire facile-
ment ces examens et de les utiliser de faon insuffisamment rflchie.
Les demandes taient parfois motives par le prtexte du dossier
complet , notion qui devait tre dmythifie [1]. Aujourdhui, ces
examens sont souvent demands par les mdecins pour se couvrir
dans la perspective dune ventuelle plainte de malades dans lesprit
dun principe de prcaution. Nanmoins, la multiplication du nombre
dexamens complmentaires que lon peut demander est sujette trois
principales critiques.
Les contreparties de multiplier les examens complmentaires

La premire contrepartie est dordre statistique. Comme il a t
montr, propos du risque de premire espce et des examens biolo-
giques qui ont une distribution normale (cf. p. 98), plus on fait dexa-
mens, plus on augmente le risque que lun dentre eux sorte des limites
de la normale alors mme que le sujet est normal. Rappelons que, si
lon prescrit six examens biologiques dont la distribution est normale
et qui sont indpendants entre eux, il y a une chance sur quatre que
lun dentre eux sorte des limites de la normale . Cela est vrai pour
les examens biologiques comme pour les examens morphologiques
avec des risques derreurs dinterprtation. Ainsi, il est loin dtre
exceptionnel en pratique hospitalire de voir demander un examen
radiologique, puis devant un rsultat ambigu ou peu cohrent avec
le contexte clinique, en demander un autre, en gnral de type diff-
rent (scanner aprs une chographie par exemple) puis, si le rsultat
du second nest pas concordant avec celui du premier, un troisime
examen, etc.
La seconde contrepartie daugmenter le nombre dexamens compl-

3 mentaires que lon peut prescrire est, bien entendu, le cot. Mme si
cela parat marginal par rapport lobjectif de cet ouvrage, on ne peut
pas ne pas rappeler ce propos que leur prise en charge, en grande
partie, par lassurance maladie contribue son dsquilibre avec une
dette cumule en 2006 qui slevait 76 milliards et de 2009 2011, un
dficit annuel dun peu plus de 10 milliards.
La troisime critique que lon peut formuler la multiplication des
examens complmentaires est quelle ne fait que reflter une absence
ou une insuffisance de rflexion mdicale et qui motive les aphorismes
du tableau II. Cest, nos yeux, la plus importante.
Tableau II Aphorismes sur la multiplication

des examens complmentaires.
En France, en labsence de rfrence mdicale opposable, tout mdecin peut prescrire

tous les examens biologiques, radiologiques, isotopiques possibles. Mais, seule la
rflexion aboutit faire des choix qui limitent la demande une prescription
bon escient .
lhpital, lpaisseur et le poids dun dossier mdical ne sont pas toujours
proportionnels la rflexion des mdecins.
Des demandes raisonnes dexamens complmentaires
La demande raisonne dexamens complmentaires constitue cer-

tainement une composante difficile et, de ce fait, intressante de lexer-
cice mdical. En effet, la demande dun examen complmentaire dans
une dmarche diagnostique doit sintgrer dans une stratgie globale.
Celle-ci doit prendre en compte la valeur informationnelle de lexa-
men, telle quelle a t dfinie dans les chapitres prcdents, les rsul-
tats compars des examens entre eux, leurs contreparties en termes de
dsagrgement ou mme de risque pour le patient et de cot, le tout
sans perdre de vue une perspective dcisionnelle. Et quelle merveille
quand lintelligence, ainsi arme et entrane, se met fonctionner enfin
comme un instinct ! [6] .
La valeur informationnelle comparative

des examens complmentaires entre eux
Si lon dispose de plusieurs examens complmentaires pour une

aide au diagnostic, ce qui est particulirement le cas pour les examens
morphologiques, le choix de lexamen doit commencer par prendre

en compte celui qui offre la meilleure valeur informationnelle, cest--
dire celui qui a la probabilit dtre le plus sensible, le plus spcifique,
et davoir les meilleures valeurs prdictives. Ce choix repose sur les
rsultats comparant des examens entre eux dans le contexte clinique
devant lequel on se trouve. Nous avons vu que les comparaisons qui
apportaient le meilleur niveau de preuve de la supriorit dun examen
par rapport un autre reposaient sur des essais randomiss ou mieux
encore pour ces examens, sur leurs ralisations chez le mme malade
qui devient alors son propre tmoin.
Mais le choix dpend encore de lobjectif mdical qui est en jeu. Sil
serait grave de passer ct dun diagnostic possible, il convient, en
premire intention, de demander un examen trs sensible, mme sil
est peu spcifique. Par exemple, dans une politique de dpistage des
cancers colorectaux, il convenait de faire un examen comme lHmo-
cult qui dpiste lexistence de sang dans les selles avec une bonne
sensibilit. Mais cet examen est assez peu spcifique, lhmorragie
pouvant tre due dautres lsions du tube digestif. Il convenait alors,
dans un second temps, de faire, dans la population slectionne par
lHmocult, un examen quasi spcifique qui est la coloscopie.
Un autre facteur qui doit tre intgr dans la dcision de prescrip-
tion est le cot de lexamen. Un exemple est donn par une tude dj
ancienne, mais dmonstrative. Elle avait compar chez des malades qui
avaient un cancer colorectal, lchographie et la scannographie dans
le diagnostic de mtastases hpatiques [7]. Les rsultats ont montr
que lchographie tait un peu moins sensible que la scannographie,
mais un peu plus spcifique, les diffrences ntant pas statistiquement
significatives (tableau III).
Tableau III Valeurs compares de lchographie

et de la scannographie dans le diagnostic de mtastases hpatiques
dans le cancer coloretal [7].
chographie Scannographie p
Sensibilit 82 % 91 % ns
Spcificit 93 % 87 % ns
Compte tenu de ces rsultats, dans la mesure o le cot de lcho-

graphie est environ cinq fois moindre que celui de la scannographie,
une dmarche diagnostique rflchie en termes de cots doit, chez les
malades qui ont un cancer colorectal, limiter la recherche de mtastases
hpatiques la prescription dune chographie.
Mais la composante conomique de la rflexion ne doit pas se limiter

3 lintgration des seules deux donnes que sont la valeur informa-
tionnelle de lexamen et son cot unitaire. La connaissance de donnes
pidmiologiques peut et doit encore intervenir. Lexemple de la radio-
graphie pulmonaire avant une intervention chirurgicale est caricatural.
Une radiographie thoracique cotait environ 20 euros en 2010. Mais,
chez un malade qui na pas de symptomatologie clinique cardiopul-
monaire, des tudes ont montr que la probabilit de dpistage dune
anomalie par la radiographie thoracique tait nulle chez les patients de
moins de 20 ans et de trois sur cent aprs cet ge. Le cot du dpistage
chez ladulte se monte ainsi environ 665 euros [8]. Ces mmes tudes
ont encore montr quune anomalie dpiste navait dutilit dcision-
nelle que dans 0,2 % des cas. Le dpistage utile par une radiographie
thoracique propratoire revient ainsi 333 000 euros. Le mdecin est,
bien entendu, libre de sa dcision. Mais il doit intgrer ce raisonne-
ment dans la prise de celle-ci. En ce qui concerne la radiographie tho-
racique avant une intervention, les travaux cits ont fait abandonner sa
prescription systmatique au profit dun interrogatoire et dun examen
clinique qui ont t ainsi revaloriss [9].
Limportance de cette utilit dcisionnelle peut encore tre apporte par
trois exemples. Le premier est banal. Si un adulte jeune a des douleurs
abdominales et, lexamen une contracture, les unes et lautre prdo-
minant dans la fosse iliaque droite, le diagnostic de pritonite appen-
diculaire est quasi certain (aprs stre assur, sil sagit dune femme,
quelle na pas dantcdent ou de signes pouvant faire discuter une
affection gyncologique). En principe, lindication opratoire ne se dis-
cute pas. Il est alors inutile de chercher une hyperleucocytose. Quelle
existe ou non (ce qui peut se voir dans une pritonite appendiculaire),
la numration des leucocytes ne changera pas la dcision.
Autre exemple, une tude prospective a t faite chez 24 malades qui
avaient un cancer de la tte du pancras afin destimer la valeur du
Pet-Scan dans le diagnostic de mtastases [10]. Les rsultats ont mon-
tr que le Pet-Scan avait une sensibilit de 70 % et une spcificit de
83 %. Il tait donc considr par les biophysiciens qui avaient ra-
lis les examens comme un trs bon examen. En fait, par rapport aux
donnes de lchographie, il navait modifi la dcision que chez un
seul malade. En admettant que le cot unitaire dun Pet-Scan qui,
lpoque, tait denviron 1 500 euros, le cot dun examen utile sur
le plan dcisionnel pouvait tre estim 40 000 euros, ce qui a paru
exorbitant.
Notre troisime exemple montre quil convient parfois de pousser assez
loin le raisonnement et cest bien ce qui fait lintrt de ce type de
rflexion. Nous reprendrons lexemple de lchographie et de la scan-
nographie dans le diagnostic de mtastases hpatiques qui semblait

conclure lintrt de lchographie. En fait, si cette chographie ne
montre pas de mtastases hpatiques chez un malade qui a un cancer
colique ou rectal, il doit tre opr afin de rsquer son cancer. La pal-
pation du foie dcouvrira du reste, dans un faible pourcentage de cas,
des petites mtastases hpatiques passes inaperues lchographie
propratoire dont la sensibilit nest pas de 100 %. Si lon dcouvre
des mtastases rsquables, elles pourront tre rsques dans le mme
temps que le cancer colique avec des probabilits de survie cinq ans
de lordre de 25 % [11]. Sil existe des mtastases qui ne paraissent pas
rsquables, il est encore souhaitable, de faon gnrale, doprer afin
de rsquer le cancer colique primitif et de mettre le malade labri
de complications, hmorragies, occlusion intestinale, etc. Le diagnostic
de mtastases hpatiques avant lintervention ne change donc pas, de
faon gnrale, rptons-le, la dcision chirurgicale. Dans la majorit
des cas, il est ainsi possible de faire lconomie de leur recherche. De
plus, la meilleure mthode de dtection de ces mtastases (standard
de rfrence externe) est lchographie pendant lintervention avec
biopsies des lsions suspectes.
3 Grille de ralisation ou de lecture des tudes

sur lvaluation dun moyen diagnostique
valuation dun moyen diagnostique
1. Les donnes fondamentales sont clairement prcises :
Population sur laquelle ltude a port.
Critres destimation du caractre normal ou pathologique du moyen diagnostique
valu.
Critres sur lesquels, dans la population tudie, le diagnostic de maladie a t fait
ou cart.
2. Les effectifs des quatre sous-groupes qui en dcoulent sont donns :
Vrais positifs .
Faux positifs .
Faux ngatifs .
Vrais ngatifs .
3. Lapprciation de la valeur du moyen diagnostique a t faite en termes de :
Sensibilit.
Spcificit.
Valeur prdictive positive.
Valeur prdictive ngative.
(avec leurs intervalles de confiance).
4. Si le moyen diagnostique valu est quantitatif :
Courbes ROC.
Comparaison de deux (ou plusieurs) moyens diagnostiques
1. Le sujet est son propre tmoin ou, dfaut, essai randomis.
2. Les risques de premire et de seconde espce ont t pris en compte.
3. Pour un moyen diagnostic quantitatif : test statistique de comparaison des courbes
ROC.
Dmarche diagnostique
Prise en compte de :
La valeur informationnelle de lexamen.
Les contreparties statistiques en termes de risque (notamment D et E).
Les contreparties mdicales en termes de dsagrment et morbidit.
Les contreparties conomiques en termes de cots.
In fine, lutilit dcisionnelle.
Il existe une liste ditems pour amliorer la qualit des publications sur
les moyens diagnostiques (STARD, acronyme pour Standard for repor-
ting of diagnostic accuracy).
Rfrences
1. Mornex R (1977) Pour une stratgie des examens paracliniques. Nouv Presse
Med 6: 1725-8
2. Palfrey S (2001) Daring to practice low-cost medicine in a high-tech era. New
England J Med
3. AURC, ARC (1981) Les syndromes douloureux aigus de labdomen. Etude
prospective multicentrique. Nouv Presse Med 10: 3771-3
4. AURC, ARC (1984) Aide au diagnostic et la dcision devant un syndrome
douloureux abdominal aigu. Revue Epidmiol et Sant Pub 32: 40-4
5. Brachet R, Etienney I, Flahault A et al. (1999) Gastro-entrites hivernales.
Calicivirus et Rotavirus ont t les deux familles de virus les plus frquemment
identifies. Le Quotidien du mdecin
6. De Romilly J (1998) Le trsor des savoirs oublis. De Fallois, Paris, p 83
7. Alderson PO, Adams DF, McNeil BJ, et al. (1983) Computed tomography,
ultrasound and scintigraphy of liver in patients with colon or breast carcinoma:
a prospective comparison. Radiology 149: 225-30
8. Blery C (1980) Examens paracliniques pr-opratoires. Le Concours mdical
102: 5607-10
9. National study by the Royal College of radiologists (1979) Preoperative chest
radiology. Lancet 2: 83-6
10. Huguier M, Barrier A, Zacharias T, Valinas R (2006) Rsultats de la tomographie
par mission de positons dans les cancers de lappareil digestif. Bull Acad Natle
Med 190: 75-87
11. Weber JC, Bachellier P, Oussoulzoglou E, Jaeck D (2003) Simultaneous resection
of colorectal primary tumour and synchronous metastases. Br J Surg 90: 956-62
Utilisation des mthodes multifactorielles
dans une dmarche diagnostique 4
Bien souvent la probabilit dun diagnostic est lie plusieurs

donnes. Comme nous lavons indiqu, elles peuvent tre traites en
utilisant les probabilits baysiennes qui, partir dune probabilit
a priori reposant sur des donnes pidmiologiques, transforment, en
introduisant une une les diffrentes donnes dans le modle, cette
probabilit a priori en probabilit a posteriori.
Une autre mthode consiste utiliser des mthodes multifactorielles
prdictives et llaboration de scores.
Nous prendrons lexemple de la lithiase vsiculaire et de la recherche
dune lithiase associe de la voie biliaire principale (VBP).
Les donnes du problme sont les suivantes :
on sait que tout malade que a une lithiase vsiculaire peut avoir une
lithiase associe de la VBP ;
il est important de reconnatre ces lithiases de la VBP pour les
traiter en mme temps que la lithiase vsiculaire afin de mettre le
malade labri de complications comme un ictre, une angiocholite
ou une pancratite aigu, mais les examens radiologiques habituels
propratoires sont trs peu sensibles dans ce diagnostic :
aussi, le dpistage de lithiase de la VBP se faisait habituellement
par une cholangiographie qui tait le plus souvent ralise au
moment de lintervention chirurgicale pour la lithiase vsiculaire.
En France, le dogme tait de faire systmatiquement ces cholan-
giographies peropratoires lors de toute cholcystectomie pour
lithiase vsiculaire. Or, on dcouvrait seulement chez 10 % des
malades une telle lithiase de la VBP. On faisait donc inutilement
une cholangiographie dans 90 % des cas.
Il pouvait alors paratre utile dessayer de dterminer sur lensemble
des malades qui avaient une lithiase vsiculaire lexistence dun sous-
groupe trs faible risque de lithiase de la VBP. Cela permettrait
dviter de faire une cholangiographie peropratoire dans ce sous-
groupe.

Une tude rtrospective a ainsi t faite chez 503 malades qui avaient
4 eu une cholangiographie peropratoire pour dpister une lithiase de
la VBP (variable explique) [1]. Onze covariables ont t tudies.
Huit dentre elles taient lies lexistence dune lithiase de la VBP en
analyse unifactorielle. Lanalyse multifactorielle, utilisant la rgression
logistique, a slectionn cinq variables lies la probabilit leve dune
lithiase de la VBP : lge, des antcdents de colique hpatique, de cho-
lcystite, la prsence de calculs vsiculaires de moins de 10 mm, et une
VBP de plus de 12 mm. Les rsultats ont t exprims par des odds
ratio ajusts sur les autres variables. Par exemple, les patients ayant une
VBP > 12 mm avaient 22 fois plus de risque davoir une lithiase de la
VBP que ceux qui avaient une VBP < 12 mm et ce, indpendamment
des autres covariables. Il a encore t possible de dterminer, partir
dune quation de rgression logistique (en utilisant le logarithme des
odds ratio), un score dont lquation est indique dans le tableau I.
Tableau I Score de probabilit, chez un malade qui a une lithiase

vsiculaire, de lithiase associe de la voie biliaire principale.
0,03 ge (en annes).
+ 2,2 si la voie biliaire principale a > 2 mm de large.
+ 1,5 si les calculs vsiculaires ont < 10 mm.
+ 0,7 si le malade a des antcdents de colique hpatique.
+ 0,8 sil a une cholcystite.
Si une covariable est absente, on la cote 0.
partir de ces donnes, un score pouvait tre calcul pour chaque

malade. Puis, il a t possible de dterminer les valeurs du score
pour lesquelles la probabilit dune lithiase de la VBP tait trs faible,
moyenne ou leve (tableau II).
Tableau II Probabilit dune lithiase de la voie biliaire principale en

fonction de la valeur du score prdictif calcul.
Lithiase de la voie biliaire principale
Score Oui Non Valeur prdictive
effectif effectif positive (%)
t 5,9 50 12 81
< 5,9 > 3,5 35 169 17
d 3,5 5 232 2
Les rsultats de cette tude ont ainsi suggr que, chez les malades dont
le score tait infrieur 3,5, la probabilit de lithiase de la VBP tait de
Utilisation des mthodes multifactorielles dansune dmarche diagnostique 197
2 %. Dans ce sous-groupe, la pratique systmatique dune cholangio-

graphie peropratoire amnerait faire 98 examens inutiles pour deux
examens utiles. Il a donc t dcid de ne plus faire de cholangiogra-
phie dans ces cas qui reprsentaient dans cet chantillon, prs de la
moiti des malades (237 sur 503).
Dans les tudes de ce type, il est toujours souhaitable, sinon ncessaire,
de tester le modle propos sur dautres chantillons de malades que
ceux qui ont servi laborer le score. Cest ce qui a t fait dans notre
exemple dans deux autres tudes qui ont valid ce modle [2, 3].
Rfrences
1. Huguier M, Bornet P, Charpak Y, et al. (1992) Selective contraindications based
on multivariate analysis for operative cholangiography in biliary lithiasis. Surg
Gynecol Obstet 172: 470-4
2. Montariol T, Rey C, Charlier A, et al. (1995) Preoperative evaluation of the
probability of common bile duct stones. French Association for Surgical
research. J Am Coll Surg 172: 470-4
3. Millat B, Deleuze A, de Saxce B, et al. (1997) Routine intraoperative
cholangiography is feasible and efficient during laparoscopic cholecystectomy.
Hepato-gastroenterol 44: 22-7
Concordance
5
Ce chapitre sur la concordance aurait pu tre plac dans la seconde

partie de cet ouvrage qui concerne les comparaisons. Nanmoins, la
mesure de concordance tant surtout utilise en mdecine pour com-
parer linterprtation par deux praticiens dune mme srie dexa-
mens, par exemple radiologiques ou histologiques, il nous a paru plus
logique den expliquer le principe dans ce chapitre.
La concordance sapplique, bien entendu, dautres problmes comme
celui dapprcier si les notes donnes par deux correcteurs des mmes
copies dexamen (ou les notes dun mme correcteur deux moments
diffrents) sont cohrentes entre elles. La concordance peut encore
tre utilise pour apprcier la valeur de deux examens diffrents, par
exemple lexamen cytologique et lexamen danatomopathologie de la
moelle osseuse dans la recherche de cellules cancreuses circulantes.
Si la concordance entre les deux examens est bonne, cela permet de
choisir celui qui est le plus simple raliser ou le moins onreux.
De faon gnrale, la concordance a pour but dapprcier sil y a simi-
litude ou non entre deux ou plusieurs informations se rapportant au
mme objet. Elle apporte une information diffrente et complmen-
taire de celles donnes par la sensibilit, la spcificit ou les valeurs
prdictives dun examen.
Ce que nest pas la concordance
La concordance diffre dune relation statistique

Les tests statistiques permettent de savoir si une diffrence entre
deux rsultats est significative ou non ou encore dans les tudes
dquivalence, sil ny a pas de diffrence ; dans les deux cas par le rejet
de lhypothse nulle H0. Autrement dit, ils apprcient lassociation

qui peut exister entre diffrentes variables. Mais ils ne permettent pas
5 dapprcier une concordance.
En voici une illustration.
Supposons que deux cliniciens examinent, de faon indpendante lun
de lautre, 100 malades et fassent les diagnostics suivants dappendicite
aigu (tableau I).
Tableau I Rsultats (fictifs) du diagnostic de deux examinateurs

chez 100 malades qui ont une suspicion dappendicite aigu.
Docteur Galien :
Pas dappendicite Appendicite
Docteur Vsale :
Pas dappendicite 50 0
Appendicite 0 50
Le calcul du F montre une valeur de 100, ce qui correspond une

valeur de p < 0,001. Il y a donc une relation statistiquement signi-
ficative entre les diagnostics des deux examinateurs. Il y a aussi une
parfaite concordance entre eux (nous verrons que N est gal 1).
Supposons, dans un second exemple tout aussi fictif, que les rsultats
dune autre tude concernant 100 autres malades examins par deux
autres examinateurs, toujours de faon indpendante lun de lautre
soient les suivants (tableau II).
Tableau II Rsultats (fictifs) du diagnostic de deux examinateurs

chez 100 malades qui ont une suspicion dappendicite aigu.
Docteur Hippocrate :
Pas dappendicite Appendicite
Docteur Hunter :
Pas dappendicite 0 50
Appendicite 50 0
Dans ce second exemple, le F est de 100 (p < 0,001). Il existe une

relation statistiquement significative entre les diagnostics des deux
examinateurs. En revanche, il y a une discordance totale entre les deux
examinateurs (nous verrons que N est gal 1).
La concordance nest pas lapprciation dune proportion identique
dvnements.
Prenons, cette fois lexemple, toujours fictif, de deux radiologues
qui voient une srie dchographies et dont les conclusions sont les
suivantes (tableau III) :
Concordance 201
Tableau III Rsultats (fictifs) du diagnostic de deux radiologues

lexamen de N chographies.
Docteur Roentgen :
Examen normal Examen anormal
Docteur cho :
Examen normal a b
Examen anormal c d
La comparaison des pourcentages de diagnostic des deux radiologues

peut tre value laide dun test statistique F appari de McNemar,
comme le montre le tableau IV.
Tableau IV F appari de McNemar.

(Discordance pour Roentgen discordance pour cho 1)
,
Nombre total de discordances
(b c 1)2
ce qui donne : F2 =
b+c
Comme pour le non appari, si ce F est suprieur 3,84, la diffrence est
statistiquement significative.
La comparaison de ces rsultats et le test statistique ne permettent pas

dvaluer sil y a ou non concordance entre les deux radiologues. En
effet, les malades reconnus juste raison par le docteur Roentgen ne
sont pas ncessairement les mmes que ceux reconnus par le docteur
cho.
La concordance
La concordance brute
La concordance brute ou pourcentage dagrments rpond une
notion simple : cest la proportion observe de diagnostics iden-
tiques chez deux examinateurs. Dans lexemple du tableau I, elle est
de 100 % ; dans celui du tableau II, elle est de 0 %. Dans lexemple du
tableau III, elle est gale :
(a + d) / (a + b + c + d).
Cette mesure nest pas trs sensible aux divergences qui peuvent exister
si les effectifs sont trs dsquilibrs entre les classes utilises dans la
cotation.
5 Le coefficient kappa () [1]
Le coefficient kappa permet, comme les tests dinfrence statistique, de

faire la part du hasard dans les rsultats dune tude sur la concordance.
Prenons lexemple de linterprtation de 106 scannographies par deux
radiologues (tableau V).
Tableau V Interprtation de 106 scannographies par deux radiologues.

Effectifs observs.
Interprtation du docteur White :

Examen normal Examen anormal Total
Docteur Black :
Examen normal 56 12 68
Examen anormal 8 30 38
Total 64 42 106
La concordance brute observe (Po) est la somme des rsultats concor-

dants : 56 + 30 = 86 rapporte leffectif total : 106, soit 81 %.
En fait, cette concordance brute est la rsultante de la concordance
relle et de la concordance lie au hasard de lchantillon. Lindex N
permet en quelque sorte dexpurger de la concordance brute la part
du hasard. Notons quil existe des extensions au kappa pour plus de
deux observateurs et quel que soit le nombre de classes tudies.
Pour le docteur White, le pourcentage de rsultats normaux est de
64/106 soit 60 %. Si lon reporte ce pourcentage lensemble des
examens scannographiques trouvs normaux (n = 68) par le docteur
Black, leffectif des rsultats normaux pour celui-ci serait 60 % de 68,
soit 41. Il est possible de calculer de faon analogue les effectifs des
trois autres cases du tableau, ou plus simplement de soustraire 41 des
effectifs des lignes et des colonnes, ce que montre le tableau VI.
Tableau VI Interprtation de 106 scannographies par deux radiologues.

Effectifs calculs.
Interprtation du docteur White :

Docteur Black :
Examen normal 41 27 68
Examen anormal 23 15 38
Total 64 42 106
Concordance 203
La concordance attendue par hasard (Pa) est gale 41 + 15/106, soit

53 %.
Cela peut scrire de faon plus gnrale (tableau VII).
Tableau VII Effectifs calculs.

Examinateur A :
Examinateur B :
Examen normal a' b' l1
Examen anormal c' d' l2
Total c1 c2 N
l1, l2, c1, c2, ayant les mmes valeurs que les valeurs observes.
a' = (l1 x c1) / N.
d' = (l2 x c2) / N.
Le coefficient N estime le rapport entre, au numrateur, la concor-

dance observe et la concordance calcule ou attendue (Po Pa) et
au dnominateur, le complment de la concordance attendue (1 Pa)
(tableau VIII).
Tableau VIII Le calcul du coefficient kappa (N).
Po Pa
N=
1 Pa
ce qui donne dans notre exemple :
0,81 0,53 0,28
N= = = 0,60
1 0,53 0,47
Les valeurs de peuvent tre comprises entre 1 et + 1. Le tableau IX

indique les qualificatifs qui correspondent usuellement diffrentes
valeurs de (chelle de Landis et Koch [2]).
Tableau IX Qualificatifs usuels en fonction

de la valeur de N (daprs [2]).
Valeurs de kappa Concordance considre comme :
1 parfaite
0,81 0,99 excellente
0,61 0,80 bonne
0,41 0,60 modre
0,21 0,40 faible
0,00 0,20 trs faible
< 0,00 dsaccord
Dans notre exemple de lexamen scannographique, le coefficient kappa

5 de 0,60 peut faire considrer que la concordance est modre, alors
que la concordance brute observe tait de 0,81 et pouvait la faire
considrer comme excellente.
Lutilit du coefficient kappa peut tre montre partir de deux autres
exemples dans lesquels la concordance brute observe est similaire
alors que les coefficients kappa diffrent.
Tableau X Premier exemple.

Interprtation
de lexaminateur A Effectifs calculs
Examen Examen
anormal normal anormal normal
Interprtation
de lexaminateur B :
Examen anormal 80 10 81 9
Examen normal 10 0 9 1
Dans ce premier exemple, la concordance observe est de 80 %. La

concordance calcule est de 82 %, proche de la concordance observe.
Le coefficient kappa est gal 0,11, cest--dire que la concordance est
presque nulle.
Tableau XI Second exemple.

Interprtation
de lexaminateur A Effectifs calculs
Examen Examen
anormal normal anormal normal
Interprtation de
lexaminateur B :
Examen anormal 40 10 25 25
Examen normal 10 40 25 25
Dans ce second exemple, la concordance observe est de 80 %, bien

quelle reflte une situation trs diffrente de la prcdente. La concor-
dance calcule est seulement de 50 %. Le coefficient kappa est gal
0,60, cest--dire que la concordance est modre.
Concordance 205
Le kappa pondr
Dans lvaluation de la concordance, des mesures effectues par deux
examinateurs avec une chelle qui comporte plus de deux niveaux
ordonns, on peut juger que tous les dsaccords nont pas le mme
poids. Prenons lexemple de deux anatomopathologistes qui valuent
le degr de fibrose dans le foie avec le score METAVIR, avec un juge-
ment en trois catgories de fibrose allant de F2 (fibrose modre) F4
(cirrhose). On peut considrer quun cart dune unit, par exemple
sur une mme lame, une cotation de F3 par un lecteur et de F4 par
lautre, est moins grave quun cart de deux units.
Supposons que ces deux anatomopathologistes aient examin les
mmes malades et aient abouti aux conclusions suivantes (tableau XII).
Tableau XII Rsultats observs par deux anatomopathologistes

sur une mme srie de lames.
Anatomopathologiste A
Lsion
F2 F3 F4 Total
Anatomopathologiste B
F2 20 5 0 25
F3 4 25 6 35
F4 2 10 28 40
Total 26 40 34 100
Le calcul du kappa donnerait comme rsultat N = (20 + 25 + 28)/100

(34,1/100)/(1 34,1/100) = 0,59. Cette approche considre que seule
lidentit parfaite entre les cotations marque laccord entre les lecteurs.
Plus le nombre de catgories augmente, plus il sera donc difficile de
parvenir une bonne concordance. On peut considrer que cette va-
luation est trop drastique et prfrer choisir de pondrer les erreurs de
telle sorte quun dsaccord dun point soit considr comme presque
concordant et moins grave quun dsaccord de 2 points, par exemple.
Le kappa pondr permet cette approche : on va tenir compte de la
concordance et dans les lectures o des dsaccords existent, on leur
donne un poids dautant plus faible que lcart est fort. Dans notre
exemple, parce que la cotation comporte trois niveaux effectivement
utiliss, on donnera par exemple un poids de 1 en cas daccord parfait,
un poids de en cas de diffrence dun point et un poids de 0 en cas
de diffrence de deux points. Plus gnralement on donnera un poids
inverse la distance entre deux cotations, stalant de 1 en cas daccord
parfait 0 en cas de dsaccord le plus grand.
Le calcul du kappa pondr est dtaill dans le tableau XIII.

5
Tableau XIII Calcul du kappa pondr partir
de lexemple du tableau XII.
1) Pourcentage de concordance observ :
20 + 25 + 28
Avec accord parfait = 73 %
100
4 + 10 + 5 + 6
Avec dsaccord de 1 unit = 25 %
100
2+0
Avec dsaccord de 2 units =2%
100
2) Effectifs attendus :
Anatomopathologiste A
Lsion
F2 F3 F4 Total
Anatomopathologiste B
F2 6,5 10 8,5 25
F3 9,1 14 11,9 35
F4 10,4 16 13,6 40
Total 26 40 34 100
3) Pourcentage de concordance d au hasard :

6,5 + 14 + 13,6
Avec accord parfait = 34,1 %
100
9,1 + 16 + 10 + 11,9
Avec dsaccord de 1 unit = 47 %
100
10,4 + 8,5
Avec dsaccord de 2 units = 18,9 %
100
4) Le kappa pondr est alors gal :
(0,73 + 0,5 * 0,25 + 0 * 0,02) (0,341 + 0,5 * 0,47 + 0 * 0,189)
= 34,1 %
1 (0,341 + 0,5 * 0,47 + 0 * 0,189)
ce qui donne :
0,855 0,576
= 0,66.
1 0,576
Comme attendu, la valeur du kappa pondr est plus leve, puisquil

donne de limportance toutes les rponses, et pas uniquement celles
qui sont identiques entre lecteurs.
Concordance 207
Conclusions
Lanalyse de concordance permet de dterminer, parmi plusieurs
paramtres histologiques dune maladie, ceux qui prtent le moins
des difficults dinterprtation, cest--dire ceux dont le coefficient
kappa est le plus lev [4].
Rfrences
1. Cohen J (1960) A coefficient of agreement for nominal scales : Educational and
psychological measurement. 20: 37-46
2. Landis JR, Koch GG (1977) The measurement of observer agreement for
categorial data. Biometrics 33: 159-74
3. Henk JM, Kunkler PB, Smith CW (1977) Radiotherapy and hyperbaric oxygen
in head and neck cancer. Lancet 2: 101-3
4. Chastang C, Csarini YP, Beltzer-Garelli H, et al. (1984) tablissement dune
classification pronostique en deux stades du mlanome malin primitif partir
dune analyse multidimensionnelle et dune tude de concordance. Rev Epidm
et Sant Publi 32: 243-8
Partie
Les valuations thrapeutiques 5
Introduction
Certains traitements, par leur grande efficacit et leurs effets indsi-

rables limits, ont fait rapidement lobjet dun consensus. Ce fut le cas
du traitement du diabte par linsuline, de la leucmie de lenfant par la
chimiothrapie, de la maladie ulcreuse duodnale par les inhibiteurs
de la pompe protons ou de langor par les drivs nitrs.
Mais les progrs thrapeutiques sont souvent moins vidents. Lem-
pirisme thrapeutique qui se fonde sur des rsultats observs sur un
groupe de malades, sans groupe tmoin, souvent rtrospectivement,
rsultats que lon peut qualifier danecdotiques, est trop critiquable sur
le plan scientifique pour continuer tre accept aveuglment. Lhis-
toire de la thrapeutique est ainsi jonche de traitements que lon a cru
tre efficaces et qui, pour cette raison, ont t largement prescrits mais
qui, en dfinitive, ne se sont pas avrs plus efficaces quun placebo.
Ainsi, le pourcentage de traitements considrs comme efficaces
aprs des tudes non ou mal contrles, nutilisant pas dinsu, avant
de savrer ultrieurement inefficaces ou mmes nocifs, a t estim
prs de 50 % [1].
Bien souvent, le mdecin, dans ses prescriptions thrapeutiques est
amen faire un choix entre plusieurs mdicaments ou encore entre
une attitude mdicale et une intervention chirurgicale ou bien encore
entre deux techniques chirurgicales.
Nous avons voqu les comparaisons rtrospectives ou historiques
cherchant guider ces choix en valuant, par exemple, un nouveau
traitement administr une srie de patients par rapport un autre
traitement plus ancien ou de rfrence pour lequel on dispose de don-
nes recueillies ou publies antrieurement. Ces comparaisons doivent
tre interprtes avec la plus grande prudence et ne permettent gure
de conclusions, les chances tant trop faibles pour que les traitements
que lon cherche comparer aient t administrs des groupes de
malades similaires. Dans ces tudes comparatives, il existe en effet des
biais qui entranent presque inluctablement des diffrences dans les

rsultats, dues dautres facteurs que les traitements que lon cherche
comparer. Ainsi, dans les comparaisons dites historiques , compa-
rant un groupe de malades anciens et de malades traits de faon plus
rcente, des biais sont, par exemple, lis au fait que les malades les plus
rcents ont des affections dont le pronostic spontan est meilleur grce
aux progrs du dpistage ou encore que des traitement(s) associ(s)
celui que lon cherche valuer sont devenus plus efficaces.
Dans les comparaisons qui portent sur deux groupes de malades, vus
pendant la mme priode, le biais habituel est li au fait quil existe des
raisons qui ont gnralement motiv le fait que certains malades aient
reu un traitement et les autres un traitement diffrent.
Dans ces deux types de comparaisons, on peut donc tre quasi cer-
tain que la comparaison des traitements a port sur des groupes de
malades qui ntaient pas similaires.
Nous avons vu que seuls les essais randomiss, mens selon les bonnes
pratiques, garantissaient labsence de ces biais. De ce fait, ils apportent
le meilleur niveau de preuve dans la prise de dcision.
Nous ne reviendrons pas sur ce qui a t dit dans la deuxime par-
tie concernant les comparaisons et particulirement les essais rando-
miss. Ces essais sont encore appels essais contrls parce quil y a
un groupe contrle qui est compar au groupe recevant le nouveau
traitement que lon cherche valuer.
Rfrence
1. Venning GR (1982) Validity of anecdotal reports of suspected adverse drug
reactions: the problem of false alarm. Br Med J 284: 249-52
Les comparaisons thrapeutiques
ne reposant pas sur des essais randomiss 1
Le but de ce chapitre est de montrer tous les alas, les erreurs de

jugement que nous venons dvoquer et que les comparaisons th-
rapeutiques qui ne reposent pas sur les rsultats dessais randomiss
risquent dentraner et de faire commettre.
Les tudes non contrles

Le mdecin avait et a encore lhabitude de fonder sa dcision sur
lenseignement quil a reu, ses lectures ultrieures, son exprience, sa
formation permanente et sur les messages qui lui sont apports par
les reprsentants des firmes pharmaceutiques. Il prescrit en cons-
quence le traitement qui lui parat tre le plus efficace, le mieux tolr,
et ventuellement pas assez souvent , le moins onreux. De ce
dernier point de vue, labsence de prescription mdicamenteuse la
suite dune consultation mdicale, frquente dans certains pays indus-
trialiss de trs bon niveau mdical, soppose la pratique franaise
qui fait de la France le plus gros consommateur de mdicaments au
monde aprs les tats-Unis.
Ces comportements sont fonds sur la conviction du mdecin, ce qui
est normal. Mais elle nest pas toujours, loin sen faut, fonde sur le
meilleur niveau de preuve scientifique existante. Mme si la conviction
du mdecin nest pas dnue dintrt, elle diffre dune valuation
scientifique.
En voici un exemple. Le traitement de lulcre gastro-duodnal par des
complexes ferrico-ferro-sodiques a longtemps t considr comme
relativement efficace puisquil sassociait dans prs de 50 % des cas
une rgression de la pousse ulcreuse. Mais avec la pratique des
endoscopies gastro-duodnales dans des essais randomiss compa-
rant les anti-H2 et un placebo, on sest aperu quenviron 50 % des
malades qui recevaient le placebo gurissaient spontanment. Le taux

de gurison de prs de 50 % avec les complexes ferrico-ferro-sodiques

1 correspondait donc au taux spontan de gurison de ces ulcres et
leur prescription a t abandonne au profit des anti-H2, puis des
inhibiteurs de la pompe proton, la suite dessais thrapeutiques
randomiss.
Un autre exemple concerne la duodno-pancratectomie cphalique,
rsection qui est habituellement ralise dans les cancers de la tte du
pancras. Dans cette intervention, aprs lexrse, le chirurgien doit
effectuer une anastomose entre le pancras corporo-caudal restant et
le tube digestif. Il peut utiliser pour cela lestomac ou le jjunum. Le
principal risque est celui dune fistule de cette anastomose. On a pens
et espr quun traitement prventif par la somatostatine, en inhibant
la scrtion pancratique serait susceptible de rduire ce risque de fis-
tule. De nombreux chirurgiens ont donc prescrit leurs oprs de la
somatostatine dont le cot journalier tait lev, de plusieurs centaines
deuros. Or, en 1997, un essai randomis ayant port sur 120 oprs a
compar un groupe trait par de la somatostatine un groupe tmoin
[1]. Il a montr que le taux de fistules pancratiques ntait pas statis-
tiquement diffrent dans les deux groupes. Cet exemple montre que
la logique qui dcoule de connaissances biologiques, biochimiques,
microbiologiques, etc. inspire certains progrs thrapeutiques, mais ne
suffit pas les prouver.
Les comparaisons historiques

Les comparaisons historiques , bien que dun niveau de preuve
trs infrieur celui des essais thrapeutiques randomiss, peuvent
cependant suffire elles-mmes en cas de progrs thrapeutiques
trs importants. Elles ont ainsi fait la preuve de leur utilit comme
ce fut le cas du traitement des leucmies mylodes chroniques par le
Glivec. Avant, ces leucmies se transformaient toujours en leucmies
aigus rebelles tout traitement, ce qui est devenu exceptionnel. Ces
comparaisons historiques ont ainsi permis de faire bnficier tous les
malades de ce traitement beaucoup plus rapidement que si lon avait
d attendre les rsultats dun essai randomis. Malheureusement, bien
des progrs thrapeutiques sont moins vidents ou plus hypothtiques.
Les comparaisons des rsultats dun traitement ancien avec ceux
obtenus par un traitement plus rcent sont cependant sujettes des
erreurs dinterprtation. Deux exemples le montrent clairement.
Le premier concerne la cholcystectomie par clioscopie. Les avan-
tages attribus cette technique par rapport la cholcystectomie par
mini-laparotomie taient une dure dhospitalisation plus brve et une
reprise plus rapide de lactivit professionnelle. Or, un essai randomis
Les comparaisons thrapeutiques nereposantpas sur des essais randomiss 215
comparant ces deux techniques a t ralis [2]. Les mdecins qui pre-
naient la dcision de la sortie du malade de lhpital et de la reprise de
ses activits professionnelles ne savaient pas le type dintervention qui
avait t faite, clioscopie ou mini-laparotomie. Ltude na pas mon-
tr de diffrence entre les deux traitements. Il est donc probable que
la dure dhospitalisation plus brve et la reprise dactivit plus rapide
aprs chirurgie par clioscopie ntaient pas lies la technique, mais
la conviction des chirurgiens qua priori la clioscopie permettait
de faire sortir plus rapidement les oprs de lhpital et de leur faire
reprendre plus tt une activit normale. Cette tude montre, par ail-
leurs, la supriorit des tudes randomises en simple ou en double
insu sur les accords professionnels et les confrences de consensus,
mme si la contrainte exprimentale est parfois difficile respecter.
Un autre exemple concerne la duodno-pancratectomie cphalique
dont nous avons dj parl. Des donnes biologiques et exprimentales
avaient suggr quaprs exrse, lanastomose du pancras corporo-
caudal restant avec lestomac exposerait moins au risque de fistule que
lanastomose avec le jjunum. De fait, une comparaison historique sur
une soixantaine de malades na montr aucune fistule aprs anasto-
mose pancratico-gastrique alors quil en avait t observ 17 % aprs
anastomose pancratico-jjunale [3]. Un essai randomis a nanmoins
t ralis comparant ces deux techniques [4]. Il a montr que le taux
de fistules tait similaire dans les deux groupes infirmant les rsultats
de la comparaison rtrospective. En fait, en lisant les rsultats de la
premire tude portant sur une comparaison historique, on saperce-
vait que, dans les premires annes de cette tude, il avait t surtout
fait des anastomoses pancratico-jjunales alors que dans les dernires
annes, il avait t surtout fait des anastomoses pancratico-gastriques.
Les meilleurs rsultats obtenus avec cette dernire technique sexpli-
quaient donc probablement par une exprience plus importante des
chirurgiens et non pas par le type de drivation pancratique.
Dans les comparaisons historiques, mme si les auteurs cherchent
vrifier a posteriori que les deux groupes qui ont t compars sont
bien similaires, des diffrences peuvent toujours passer inaperues.
Il en est ainsi dvolutions thrapeutique marginales par rapport au
critre de jugement principal.
tudes prospectives non randomises

Ces tudes ont deux objectifs principaux. Le premier est la faisa-
bilit dun traitement, notamment en cancrologie. Elles permettent
ainsi de rejeter rapidement, sans grand risque de se tromper, un traite-
ment dont lefficacit parat trop faible pour tre value par un essai
randomis, toujours difficile, long et coteux raliser. Les tudes

1 prospectives non randomises permettent galement, dans des essais
en cancrologie ou dans des maladies rares, danalyser la pharmacoci-
ntique des nouvelles molcules (doses, mtabolisme, etc.) ; ce sont les
essais dits de phase 2.
Le principal intrt de ces tudes est le recueil prospectif des don-
nes qui, par rapport au recueil rtrospectif, rduit les risques davoir
des donnes manquantes et de perdre de vue certains malades, ce qui
complique encore linterprtation des rsultats.
Ces tudes sont encore la meilleure faon, en vue dun essai randomis,
de se faire une opinion objective de ce que lon peut attendre dun
nouveau traitement par rapport un traitement de rfrence pour
estimer le nombre de sujets quil sera ncessaire dinclure dans lessai
randomis afin de limiter le risque de deuxime espce (cf. p. 92).
Nanmoins, lorsque ces tudes prospectives sont comparatives, mais
non randomises, il ny a pas de garantie que les deux sous-groupes
chez lesquels on cherche comparer deux traitements seront simi-
laires. En effet, des raisons ont presque toujours motiv le fait que cer-
tains sujets ont reu un traitement et les autres, un autre traitement.
Ces comparaisons sont ainsi trs critiquables, sauf exception.
Leffet placebo
Dans les essais randomiss, si lon cherche apprcier lefficacit
dun traitement, il est souhaitable de constituer un groupe tmoin qui
reoit un placebo du traitement actif, le placebo dsignant une subs-
tance pharmacologiquement inerte. Ce placebo doit avoir le mme
aspect physique que le mdicament. La ncessit de comparer laction
du mdicament avec celle dun placebo, voque propos du traite-
ment de lulcre duodnal se justifie par lexistence, qui a t dmon-
tre, dun effet placebo. Par exemple, sur quinze tudes ayant concern
un peu plus de mille patients ayant des phnomnes douloureux, un
placebo dantalgique tait efficace en moyenne dans 35 % des cas [5].
titre anecdotique, cette tude a paradoxalement montr que les dou-
leurs organiques angoissantes taient celles qui rpondaient le mieux
au placebo.
Leffet placebo peut cependant avoir un substratum biologique comme
cela a t montr par des tudes exprimentales chez lanimal. Il en est
de mme chez lhomme. Par exemple, dans la maladie de Parkinson,
un essai randomis comparant la L-DOPA un placebo a montr au
Pet-Scan que leffet placebo observ correspondait une libration de
dopamine dans le striatum [6].
Dans tout essai thrapeutique randomis, le substratum organique

de leffet placebo justifie dautant plus la comparaison mdicament-
placebo. Cest sur ce type de comparaison que se fonde la Commis-
sion de transparence qui dpend de la Haute autorit de sant pour
valuer le bnfice apport par des nouveaux mdicaments. En fait, il
se dgage une tendance de cette Commission demander des compa-
raisons entre un mdicament de rfrence et un nouveau mdicament
plutt quentre un nouveau mdicament et un placebo.
Lamlioration des tudes observationnelles

Les tudes observationnelles sont une premire tape, souvent indis-
pensable, toute valuation. Encore faut-il quelles soient de bonne
qualit mthodologique. Tel a t lobjectif de la grille de ralisation
de ces tudes (Strengthening the reporting of observational studies in
epidemiology ou STROBE) [7].
1 Grille dvaluation mthodologique dune tude observationnelle [7]

Cette grille sinspire de : Strengthening the reporting of observational studies in
epidemiology, STROBE.
Nous avons mis en gras, ce qui nous parat la fois particulirement important et
souvent en dfaut.
1. Expos des donnes qui ont motiv ltude.
2. Les donnes fondamentales :
a. Sujets inclus dans ltude :
critres dinclusion et dexclusion ;
nombre de sujets remplissant les critres dinclusion, mais non entrs dans lessai
et raisons ;
description de lchantillon ;
tude rtrospective ou prospective ?
b. Ce que lon cherche valuer :
appareil dinvestigation, dispositif mdical implantable etc. (fabricant, date) ;
ou traitement mdical (posologie, mode et horaires dadministration, autres
traitements admis ou non) ;
ou traitement chirurgical (technique) ;
en cas dvnement indsirable, ce qui est prvu ?
3. Les critres de jugement :
principal ;
secondaires ;
recueil par qui et comment (en insu) ?
4. Analyse des rsultats.
dviations par rapport au protocole (inclus secondairement exclus, allocation de
protocole errone etc.) ; jugement en intention de traiter, puis per protocole.
perdus de vue ;
analyse de sous-groupes ;
intervalles de confiance 95 %.
5. Considrations thiques et rglementaires.
consentement clair ;
promotion et obligations lgales.
6. Lors de llaboration du protocole :
date de dbut et de fin espre des inclusions ;
financement.
Rfrences
1. Lowy AM, Lee JE, Pisters PW, et al. (1997) Prospective, randomized trial of
octeotride to prevent pancreatic fistula after pancreaticoduodenectomy for
malignant disease. Ann Surg 226: 632-41
2. Majeed AW, Troy G, Nicholl JP, et al. (1996) Randomized, prospective, single-
blind comparison of laparoscopic versus small-incision cholecystectomy. Lancet
347: 989-94
3. Mason GR, Freeark RJ (1995) Current experience with pancreatogastrostomy.
Am J Surg 169: 217-9
4. Yeo CJ, Cameron JL, Maher MM, et al.(1995) A prospective randomized
trial of pancreaticogastrostomy versus pancreaticojejunostomy after
pancreaticoduodenectomy. Ann Surg 222: 580-92
5. Beecher HK (1955) The powerful placebo. JAMA 1602-6
6. De La Fuente-Fernandez R, Ruth TJ, Sossi V, et al. (2001) Expectation and
dopamine release: mechanism of the placebo effect in Parkinsons disease.
Science 293: 1164-6
7. Von Elm E, Altman DG, Egger M, et al. (2007) The strengthening the reporting
of observational studies in epidemiology (STROBE) Statement. Guideliness for
reporting observational studes. PloS Med 4
Lorsquun essai randomis nest pas possible
2
Si les essais thrapeutiques randomiss sont le moyen qui offre le

plus de garanties scientifiques pour fonder son opinion sur un choix
thrapeutique, des raisons techniques ou thiques peuvent limiter leur
ralisation [1].
Les comparaisons historiques ou ltude dite ici, ailleurs permettent
de constituer un contrle. Cependant, il faut sassurer de la compara-
bilit initiale des groupes dintervention et de ces groupes contrle. Les
tudes multifactorielles, parce quelles permettent un ajustement sur
les diffrences entre groupes, permettent une meilleure comparabilit
entre lintervention et le contrle. Lajustement peut, notamment, tre
ralis par la technique du score de propension o lon comparera les
rsultats chez des sujets qui ont reu des interventions diffrentes alors
mme quils avaient la mme probabilit initiale de recevoir lune ou
lautre.
Les tudes multifactorielles

Voici un exemple dans lequel un essai randomis ntait pas envi-
sageable et pour lequel une tude multifactorielle a permis dapporter
une assez bonne rponse la question pose. Il sagissait du traitement
chirurgical du cancer du tiers moyen du rectum qui avait t dfini
prcisment dans sa hauteur sur le rectum [2]. lpoque de cette
tude, deux traitements taient pratiqus. Le traitement de rfrence
tait lamputation abdomino-prinale du rectum et de lappareil
sphinctrien qui impliquait la constitution dune colostomie termi-
nale dfinitive dans la fosse iliaque gauche. Peu peu, une meilleure
connaissance de lextension, en gnral trs limite vers le bas, de ces
cancers du tiers moyen du rectum et des progrs techniques ont permis
de les rsquer en faisant une anastomose colo-anale qui a lavantage
dviter aux malades une colostomie. Nanmoins, on pouvait craindre
que ces exrses moins tendues, notamment vers le bas, par rapport

aux amputations, augmentent le risque de rcidives et de dcs. Des

2 comparaisons sur des donnes rtrospectives comportaient trop de
biais pour permettre den tirer des enseignements peu contestables.
Thoriquement, un essai randomis aurait t souhaitable pour
savoir ce quil en tait et si la rsection-anastomose ne diminuait
pas les chances de survie des malades. Mais la clause dambivalence
impliquait de ninclure que des malades qui pouvaient avoir, dans de
bonnes conditions carcinologiques et techniques, soit une amputa-
tion, soit une rsection-anastomose. Il aurait alors t impossible sur
le plan thique, la suite dun tirage au sort, de faire un malade une
amputation avec colostomie dfinitive, alors que celle-ci pouvait tre
techniquement vite.
La solution a t de faire une tude multifactorielle. Le critre de
jugement principal a t la survie. Le modle de Cox a t utilis
en incluant, parmi les covariables, le type dintervention ralise et
en regardant si, hauteur constante des autres covariables, ce type
dintervention ralis tait ou non li la survie.
Sur 119 malades inclus dans ltude, il a t dabord fait une tude
unifactorielle portant sur les covariables qui pouvaient tre lies la
survie, incluant le type dintervention ralise. Ensuite, en ne retenant,
parmi les covariables que celles qui avaient une incidence statistique-
ment significative sur la survie (logrank), une analyse multifactorielle
a t faite en utilisant le modle de Cox. Le risque relatif de la rsec-
tion-anastomose par rapport lamputation a enfin t estim en ra-
lisant un ajustement sur les covariables qui taient lies la survie en
analyse multifactorielle. Il tait de 1,05 pour la survie et de 0,78 pour
les rcidives locales. Ces risques relatifs ntaient pas statistiquement
significatifs avec une bonne puissance des tests.
Les conclusions que lon pouvait tirer dune telle tude taient les
suivantes :
1. Bien entendu, le niveau de preuve obtenu par cette tude nattei-
gnait pas celui quaurait eu un essai randomis.
2. Labsence de diffrence statistiquement significative entre les deux
modalits thrapeutiques ne dmontrait pas pour autant lqui-
valence comme cela a t expliqu dans le chapitre concernant les
comparaisons et il aurait mieux valu faire un essai dquivalence
quun essai randomis classique .
3. Il tait nanmoins possible destimer que, sil y avait diffrence entre
les deux traitements, elle tait de faible ampleur.
Des travaux ont vis amliorer la qualit des publications dtudes
non randomises. Le plus diffus est probablement le Transparent
reporting and evaluating with non-randomized designs (TREND)1.
1 www.trend-statement.org:asp/trend/asp.
Lorsquun essai randomis nest pas possible 223
Il comporte une liste de 22 items, mais, contrairement dautres

instruments dvaluation, il ne comprend pas de scores.
Les scores de propension

Cette mthode est couramment utilise en conomtrie. Le score
de propension dsigne la probabilit, pour une personne de caract-
ristiques donnes, dtre expose un traitement. La distribution de
ce score sur les groupes de traitements compars fournit un critre
de jugement de la comparabilit entre ces deux groupes. Sil y a un
biais de recrutement, les scores auront tendance tre levs pour les
patients exposs et faibles pour les non exposs. Afin de neutraliser ce
biais au maximum, un sous-chantillon de patients comparables entre
les deux groupes peut tre labor, par appariement sur les scores de
propension : chaque patient expos au nouveau traitement est
appari au patient du groupe tmoin ayant le score le plus proche,
condition que la diffrence entre les deux scores ne soit pas trop
grande. Ce sous-chantillon possde ainsi des caractristiques proches
de lessai clinique. Toutefois, il ne permet dassurer une similitude des
groupes que sur les caractristiques observes.
Un exemple rcent concerne la mortalit aprs gastroplastie de rduc-
tion chez les obses. Un objectif de ces interventions est de rduire la
mortalit de ces personnes, distance de lintervention, en leur vi-
tant le dveloppement de pathologies lies lobsit. Dans un travail,
les auteurs ont compar 850 patients ayant subi une gastroplastie
une population contrle de 41 255 personnes [3]. La mortalit obser-
ve dans le groupe dobses oprs, six ans aprs lintervention tait
de 7 % contre 15 % dans le groupe contrle. Mais les oprs taient
plus souvent plus jeunes et de sexe fminin que les sujets du groupe
contrle. Les auteurs ont alors calcul un score de propension , cest-
-dire la probabilit davoir subi une intervention selon lge, le sexe,
le poids, etc. lissue de ce calcul, il leur a t possible de slectionner
847 oprs et 847 tmoins ayant le mme score de propension. Ces
deux groupes taient alors similaires en tout point, sauf la gastroplastie.
La comparaison de la mortalit entre ces deux groupes a montr une
mortalit de 7 % dans chaque groupe suggrant que la gastroplastie
ne semblait pas rduire la mortalit par comorbidit chez les obses.
Signalons quil existe dautres nouvelles approches de modlisation
statistiques comme les modles causal utilisant les graphes dirigs
acycliques ou les modles structuraux marginaux .
La diffrence entre les tudes multifactorielles et les scores de propen-
sion est que les premires incluent dans lanalyse finale des rsultats
tous les malades de ltude, alors que les scores de propension nin-
2 cluent quune partie du groupe tmoin, slectionne par des carac-
tristiques aussi proches que possible de celles du groupe trait. Les
tudes multifactorielles sont plus applicables quand il ny pas de diff-
rence quantitativement importante entre les deux groupes, et les scores
de propension quand le groupe tmoin est beaucoup plus important
que le groupe dintrt.
La recherche dun consensus : la mthode Delphi

En labsence de rsultats dessais randomiss ou danalyses multifac-
torielles, un pis-aller est la mthode Delphi. Son nom vient de la ville
de Delphes, en Grce, o la pythie, oracle dApollon, faisait ses prdic-
tions. Le principe de la mthode repose sur les rponses dun groupe
dexperts des sries de questionnaires prtablis. Aprs chaque srie
de questions, une synthse des rponses est remise chacun dentre
eux avec les arguments sur lesquels sont fondes ces rponses. Ensuite,
il est demand aux experts de revoir leurs rponses la lumire de
la synthse quils ont reue. Ce processus est rpt, souvent trois ou
quatre fois. Les rponses sont anonymes pour limiter le risque que les
ides de certains experts, dont laura est importante, influencent trop
et lemportent sur celles des autres. En gnral, on constate qu la
suite de ce processus, les divergences sestompent et convergent vers
un certain consensus.
La qualit finale du rsultat repose, en dfinitive, sur celle des experts
et sur la capacit des analystes dans le traitement des rponses et de la
conduite de tout lexercice.
Le processus peut galement dboucher sur le constat quun consensus
est impossible dans ltat actuel des connaissances, et pointer ainsi les
tudes mener en priorit.
Par exemple, une enqute a port sur la prescription des radiographies
en ranimation dans une trentaine de cas cliniques [4]. Cette enqute
a montr que les praticiens taient, notamment, en dsaccord sur le
recours la radiographie systmatique et quotidienne chez les patients
sous ventilation mcanique. Pour cette raison, un essai randomis a t
ralis. Il a montr que la radiographie la demande nentranait pas
de perte de chance pour le patient, tout en rduisant son irradiation
et les cots [5].
Lorsquun essai randomis nest pas possible 225
Rfrences
1. Solomon MJ, McLeod RS (1995) Should we be performing more randomized
controlled trials evaluating surgical operations? Surgery 118: 459-67
2. Huguier M, Chastang C, Houry S, et al. (1997) Sphincter-saving resection or not
for cancer of the midrectum. Am J Surg 174: 11-5
3. Maciejewski ML, Livingston EH, Smith VA (2011) Survival among high-risk
patients after bariatric surgery. JAMA 305(23): 2419-26
4. Hejblum G, Loos V, Vibert JF, et al. (2008) A web-based Delphi study on the
indications of chest radiography for patients in ICUs. Chest 133: 1107-12
5. Hejblum G, Chalumeau-Lemoine L, Loos V, et al. (2009) Comparison of routine
and on-demand prescription of chest radiography in mechanically ventilated
adult: a multicentre, cluster-randomized, two-period cross-over study. Lancet
374: 1687-93
Revue systmatique et mta-analyses
des essais randomiss 3
Les mta-analyses constituent une revue systmatique de la lit-

trature scientifique, dans laquelle laccent est mis sur une synthse
quantitative des rsultats. Le matriau de base de la mta-analyse est
ltude randomise recherche de faon exhaustive et systmatique 1 ;
cest--dire quelles doivent prendre en compte tous les essais rando-
miss ayant inclus des malades aux caractristiques similaires et ayant
compar des traitements, eux aussi similaires avec les mmes critres
de jugement. De mme que pour un essai randomis classique, lobjec-
tif est destimer lefficacit ou non dun traitement par rapport un
autre et limportance des diffrences observes l o les tudes exis-
tantes, prises une une, donnent des rsultats divergents [1]. Elles dif-
frent dune simple sommation de ces tudes par lintroduction dun
facteur de pondration. De plus, en rassemblant la totalit des donnes
disponibles, les mta-analyses permettent, en principe, de dceler des
effets indsirables rares qui nauraient pas t vus dans chaque tude.
La revue systmatique ou mta-analyse doit rpondre des critres de
qualit similaires ceux des essais randomiss. Au lieu dinclure des
malades comme dans un essai randomis, on y inclut des essais th-
rapeutiques. On doit y retrouver les donnes fondamentales des essais
randomiss : critre dinclusion et de non-inclusion des tudes que
lon analyse, dfinition des traitements qui sont compars, dfinition
des critres de jugement.
Ces exigences de qualit des revues systmatiques reposent au dpart
sur la similitude des essais inclus, ce qui est loin dtre vident.
1. Les populations incluses dans les essais doivent tre similaires. Par
exemple, dans des tudes de chimiothrapie dans les cancers colorec-
taux rsqus, des malades chez lesquels lexamen anatomopatho-
logie de la pice dexrse a montr des mtastases ganglionnaires,
mais qui nont pas de mtastases viscrales apparentes.
1 Des logiciels comme Revman ont pour but la recherche darticles en vue dune mta-analyse.

2. Les traitements qui ont t valus dans chaque essai doivent tre
3 les mmes ou peu diffrents les uns des autres afin que linterprta-
tion de leur efficacit ne soit pas entache dambigut. Dans notre
exemple de chimiothrapie adjuvante, le ou les produits utiliss, les
posologies, les modes dadministration doivent tre les mmes ou
trs peu diffrents et sil y a des diffrences dun essai lautre qui
paraissent acceptables pour que lessai soit quand mme inclus dans
la mta-analyse, bien entendu, ces diffrences doivent, tre signales.
3. Il faut enfin que les essais aient les mmes critres de jugement, du
moins le mme critre de jugement principal. Il faut encore quils
aient t estims de la mme faon ce qui est vident pour une
survie, mais ne lest pas toujours pour une rcidive ou un dosage
biologique.
Toutes ces conditions sont rarement runies. Nanmoins, il est alors
possible de faire des mta-analyses plus globales afin de dgager des
tendances gnrales, par exemple en incluant tous les essais randomiss
portant sur une mme classe thrapeutique et non pas sur un mme
traitement. Plus rarement, dfaut de comparaison directe entre deux
traitements A et B, il est possible de comparer les rsultats de deux
mta-analyses, lune comparant le traitement A un placebo, lautre le
traitement B un placebo. Lutilisation des odds ratio permet alors,
dfaut de comparaison directe entre le traitement A et le traitement B,
de se faire une opinion sur la supriorit ventuelle dun traitement
par rapport lautre.
Les biais rencontrs dans les mta-analyses

Une mta-analyse sur un sujet ne doit pas inclure les essais ran-
domiss qui ont t mal conduits, ni, comme nous venons de le voir,
les essais sur le sujet qui ont t raliss avec des critres dinclusions
ou de jugement diffrents. Les raisons dexclusion de ces essais de la
mta-analyse doivent alors tre indiques.
Le biais le plus important des mta-analyses est ditorial : la slection
de celles-ci par les priodiques mdicaux. En effet, si lon peut rai-
sonnablement admettre que tous les essais randomiss dont les rsul-
tats sont positifs ont fait lobjet dune publication, en revanche il faut
toujours craindre que des essais de recherche de supriorit dont les
rsultats sont ngatifs ne soient pas publis ou seulement sous forme
de rsums de communication des congrs, rsums qui ne sont pas
indexs sur les sites de banques informatiques de donnes. Ce biais
de non-publication amne surestimer leffet dun traitement. Ainsi,
une tude a compar les rsultats dune mta-analyse qui avait inclus
21 essais randomiss qui avaient t publis avec ceux de 29 tudes sur
Revue systmatique et mta-analyses desessaisrandomiss 229
le mme sujet qui avaient t enregistres, mais dont huit navaient

pas t publies [2]. La mta-analyse des essais publis montrait une
diffrence statistiquement significative en faveur dun traitement
(p = 0,02), alors que la mta-analyse de lensemble des 29 essais ne
montrait pas de diffrence en faveur de ce traitement (p = 0,25).
Un autre biais est reprsent par les publications multiples dun mme
essai randomis. Bien que cette pratique ne soit pas thiquement
acceptable, des auteurs peu scrupuleux peuvent sy livrer. Par exemple,
une recherche sur des essais randomiss qui ont t publis concernant
londanstron a montr que ctait le cas pour 17 % dentre eux [3]. Ces
publications redondantes sont parfois difficiles dpister lorsquelles
sont ralises dans des langues diffrentes avec des auteurs mis dans
des ordres diffrents, voire qui ne sont pas toujours les mmes.
Cest la raison pour laquelle, lopinion qui consiste estimer que les
mta-analyses constituent le niveau de preuve le plus lev de la mde-
cine factuelle est sujette caution cause de ces biais qui ne sont pas
toujours dtectables, loin sen faut.
Les registres dessais randomiss qui existent, par exemple, en France,
lAgence franaise de scurit sanitaire des produits de sant ont pour
principal objectif dinformer la communaut scientifique des essais en
cours, dviter des essais redondants et de limiter un risque de biais
par dfaut des mta-analyses.
Htrognit des essais randomiss

inclus dans une mta-analyse
Si linclusion de tous les essais randomiss dans une mta-analyse
est indispensable, un dsquilibre risque de se produire si les effectifs
de malades inclus dans les diffrents essais sont trs diffrents les uns
des autres. Les tudes qui ont inclus le plus grand nombre de malades
tirent vers elles lensemble des rsultats. La mta-analyse sloigne
alors dautant plus de ce qui tait son objectif.
De plus, une mta-analyse na de sens que si les rsultats des diff-
rents essais analyss ne sont pas diamtralement opposs cest--dire
sil ny a pas dhtrognit qualitative. Dans le cas contraire, la mta-
analyse est un instrument inadapt. La rflexion doit alors porter
sur la comprhension des causes qui sont susceptibles dexpliquer de
telles divergences de rsultats, ce qui peut tre une source intressante
denseignements.
Nanmoins, le plus souvent, il nexiste que des diffrences limites dans
lefficacit dun traitement dun essai lautre. Cest lhtrognit
quantitative que lon ne peut voquer que si les diffrences dun essai
lautre varient plus que ce que les fluctuations dchantillonnage pou-

3 vaient laisser prvoir. Des tests, peu puissants, peuvent mesurer cette
htrognit. Ils permettent de vrifier labsence de diffrence signi-
ficative entre les rsultats de chaque essai par rapport aux autres. En
pratique, ltude de la reprsentation graphique des odds ratio permet
une valuation suffisante de lhomognit relative des rsultats des
diffrents essais inclus dans la mta-analyse.
En labsence dhtrognit, une mthode (de Peto) permet de
calculer les rapports de cotes selon un modle effet fixe.
Lvaluation des rsultats : lutilisation des odds ratio

Lutilisation des odds ratio trouve une excellente application dans les
mta-analyses.
Prenons lexemple fictif dune mta-analyse ayant port sur trois essais
thrapeutiques randomiss (tableau I).
Tableau I Exemple fictif dune mta-analyse portant sur trois essais

randomiss.
Groupe trait Groupe contrle

Essais Nombre de malades Nombre de malades
vivants dcds vivants dcds
A 37 2 41 1
B 151 11 146 4
C 102 5 101 7
partir de ces donnes, il est possible de calculer pour chaque essai

lodd ratio associ aux dcs et son intervalle de confiance. Le tableau II
montre ce calcul pour le premier essai (A).
Tableau II Calcul de lodds ratio du premier essai (A).
Lodds des dcs du groupe trait est gal 2/37 (pt) = 0,05.
Lodds des dcs du groupe contrle trait est gal 1/41 (pc) = 0,02.
2/37 2 u 41
Lodds ratio est gal : = = 2,2 .
1/41 37 u 1
Le tableau III montre le calcul de la variance de cet odds ratio, lcart-

type, et lintervalle de confiance.
Revue systmatique et mta-analyses desessaisrandomiss 231
Tableau III Variance de lcart-type et de lintervalle

de confiance de lodds ratio.
pt (1 pt) pc (1 pc) 0,05 (1 0,05) 0,02 (1 0,02)
Variance (s) = + = + = 0,0016
nt nc 39 42
Lcart type est gal 0,0016 = 0,041.
Intervalle de confiance 95 % de lodds ratio = odds ratio (1,96 u 0,041), soit 2,2
0,08
ce qui scrit :
odds ratio Intervalle de confiance 95 %
Essai A 2,2 2,192 2,280
De la mme faon, on peut calculer les odds ratio pour lessai B et

lessai C avec leurs intervalles de confiance.
Souvent ces rsultats sont exprims sous forme de graphiques sur les-
quels laxe des abscisses reprsente la valeur de lodds ratio de chaque
essai et de lanalyse combine de tous les essais. On nomme ce gra-
phique forest plot . Le trait vertical reprsente la valeur 1 de lodds
ratio. La valeur estime de chaque odds ratio est indique par un carr
ou un losange dont la taille est proportionnelle aux effectifs de lessai.
Enfin, les traits horizontaux expriment lintervalle de confiance de
lodds ratio (fig. 1).
Le tableau IV montre un exemple de mta-analyse sur la prvention
des fistules digestives par lenrobage de lanastomose avec une colle
biologique [4].
Tableau IV Mta-analyse sur la prvention des fistules digestives

aprs rsection-anastomose par une colle biologique.
Fistules Intervalle de
Odds ratio
Groupe tmoin Groupe trait confiance 95 %
tude : 1 1/28 1/32 1,15 0,07-18,88

2 6/49 6/57 1,16 0,36-3,93
3 8/94 3/51 1,45 0,40-5,23
4 5/52 2/48 1,47 0,71-3,06
Total 20/223 12/188 1,47 0,71-3,06
Cet exemple montre quil y a moins de fistules dans le groupe trait

que dans le groupe tmoin. Ce rsultat suggre une homognit rela-
tive. Nanmoins, aussi bien pour chaque essai que dans le rsultat
global de la mta-analyse, les diffrences ne sont pas statistiquement
significatives comme le prouve bien le fait que tous les intervalles de

3 confiance englobent la valeur 1.
La figure 1 montre la traduction graphique du tableau IV.
Fig. 1 Reprsentation graphique de la valeur des odds ratio de chaque essai

randomis inclus dans la mta-analyse et de leur intervalle de confiance. Dans
cet exemple, lchelle des abscisses qui reprsente la valeur des odds ratio est
logarithmique.
Qualit des mta-analyses

Une liste ditems a t labore sur les critres de qualit des mta-
analyses [5] (Quality of reporting of meta-analyses, QUORUM). Un
diagramme permet notamment danalyser le nombre dessais retrou-
vs pour la mta-analyse ainsi que le nombre et les raisons dexclusion
de certains essais.
Rfrences
1. Pignon JP, Poynard T (1991) Mta-analyse des essais thrapeutiques. Gastro-
enterol Clin Biol 15: 229-238
2. Simes J (1986) Publication bias: the case of an international registry of clinical
trials. J Clin Oncol 4: 1429-1441
3. Tramr MR, Reynolds DJM, Moore RA, McQuay HJ (1997) Impact of covert
duplication on meta-analysis: a case study. Br Med J 315: 635-640
4. Urbach DR, Kennedy ED, Cohen HM (1999) Colon and rectum anastomosis do
not require routine drainage. A systematic review and meta-analysis. Ann Surg
229: 174-180
5. Moher D, Cook JD, Eastwood S, et al. (1999) Improving the quality of reports
of meta-analyses of randomised controlled trials : the QUORUM statement.
Lancet 354: 1896-900
Choix dun traitement
4
Le choix dun traitement doit intgrer :

le bnfice et les contreparties mdicales que lon peut attendre
dun traitement par rapport ceux dautres traitements, voire
labstention thrapeutique dans certains cas ;
le cot direct du traitement et celui ventuel de ses effets adverses.
Ces analyses de cot-avantage relvent aujourdhui de la mdecine.
Il convient de signaler dans le cadre de la mdecine factuelle laide que
peut constituer pour rpondre une question de pratique clinique le
Patient intervention control outcome (PICO)1. Le P concerne le patient
et le problme quil pose ; I lintervention value ; C la comparai-
son par rapport un autre traitement ; O le critre de jugement des
rsultats.
Bnfices et contreparties mdicales des traitements

Les comparaisons qui portent sur des traitements entre eux doivent
faire la balance entre les avantages attendus et les contreparties mdi-
cales lorsque celles-ci ne sont pas ngligeables. Nous avons donn
lexemple dun essai randomis sur la chimiothrapie intra-artrielle
des mtastases hpatiques des cancers colorectaux compare la
chimiothrapie intraveineuse [1]. Cet essai randomis a montr un
bnfice statistiquement significatif sur la survie (logrank). Mais le
gain de mdiane de survie ntait que de quatre mois et, en contrepar-
tie, dans le groupe de chimiothrapie intra-artrielle, il y a t observ
prs de 60 % dhpatites chimiques ou de cholangites sclrosantes
dues la chimiothrapie. Pour cette raison, la voie dadministration
intra-artrielle, avec les antimitotiques alors utiliss a t abandonne.
Mais il est habituel que le rapport bnfice/contreparties mdicales
soit nettement en faveur du traitement le plus efficace.
1 http//askmedline.nlm.nith/ask/pico.php.

Dans ces valuations, il est souvent souhaitable dinclure, parmi les cri-
4 tres de jugement, la qualit de vie qui prend en compte la perception
par le patient de son propre tat de sant grce des instruments de
mesure qui ont t valids. Parmi ces instruments, on distingue des
instruments gnriques2 et des instruments spcifiques, adapts la
maladie et son traitement. Par exemple, dans les maladies chroniques
inflammatoires de lintestin, cest le cas de lInflammatory Bowel
Disease Questionnaire. Il en est dautres qui sont adapts un groupe
de pathologies comme le Gastrointestinal Quality of Life Index pour les
maladies digestives ou le Quality of Life Questionnaire Core 30 Items,
dclin par organe en cancrologie3.
Les tudes de cot-avantage
Ces tudes se dcomposent en tudes cot-bnfice,

cot-efficacit, cot-utilit
Les tudes cot-bnfice sont destines relier les cots aux cons-
quences exprimes en units montaires. Elles consistent valuer, par
rapport une situation de rfrence (Ref), la somme des diffrences
entre les cots des prises en charge dans cette situation de rfrence
(Cref) et les cots en cas de traitement (Tt) (CTt). Ces diffrences
de cots sont values pour chaque dpense dhospitalisation (C1),
de mdecine de ville (C2), mdicamenteuse (C3), etc. On calcule la
diffrence entre le cot du Tt et celui de la situation de Ref (tableau I).
Tableau I tudes cot-bnfice.
Diffrences de cots de prise en charge : (C1Tt C1Ref) + (C2Tt C2Ref), etc. o :

C1Tt est le cot dun type de frais (par exemple hospitalisation) chez les sujets
traits ;
C1Ref est le cot de ce mme type de frais chez les sujets de rfrence ;
C2Tt est le cot dun autre type de frais (par exemple soins extrahospitaliers) chez
les sujets traits ;
C2Ref est le cot de cet autre type de frais chez les sujets de rfrence.
Diffrence lie au cot du traitement : CTt Cref, cest--dire le cot du traitement
moins le cot chez les sujets de rfrence (qui est nul sil na pas t trait).
Agrgation cot/bnfice absolue = (C1Tt C1Ref) + (C2Tt C2Ref), etc. (CTt
Cref).
2 Comme le Medical Outcomes Study (MOS) 36 items Short Form ou SF-36.

3 www.quolid.org du MAPI Research Institute.
Choix dun traitement 235
Ceci peut tre illustr par un exemple4. Il concerne, chez la femme

mnopause, lvaluation, par rapport labsence de traitement, de
deux stratgies de traitement hormonal, lune pendant quinze ans,
lautre vie, afin dessayer de diminuer le risque dostoporose et de
fractures du col du fmur. Les cots compars ont concern les frais
dhospitalisation pour traitement dune fracture du col du fmur, les
frais de soins domicile, ceux en institution et les frais du traitement
hormonal. Les donnes sont indiques dans le tableau II.
Tableau II Cots de prvention chez 100 000 femmes mnopauses

dune fracture du col du fmur par un traitement hormonal,
en millions deuros. Les donnes.
Cots
En Traitement
Hospitalisation domicile
institution hormonal
Pas de traitement
167 156 2 236 0
hormonal
Traitement
142 141 2 186 129
pendant 15 ans
Traitement vie 75 121 2 138 282
partir de ces donnes, on peut calculer les cots et les bnfices des
deux stratgies de traitement par rapport labsence de traitement
(tableau III).
Tableau III Cots et bnfices des deux stratgies thrapeutiques

par rapport labsence de traitement.
15 ans par rapport rien
Bnfice (167 142) + (156 141) + (2 236 2 186) = 90
Cot 129 0 = 129
Traitement vie par rapport rien
Bnfice (167 75) + (156 121) + (2 236 2 138) = 225
Cot 282 0 = 282
Lagrgation cot-bnfice absolue est gale la diffrence entre le

cot et le bnfice (tableau IV).
4 Daprs Van der Loos, Thse de doctorat, Lausanne, 1984.
Tableau IV Agrgation cot-bnfice absolue.

4
Stratgie 15 ans de traitement : 90 129 = 39
Stratgie de traitement vie : 225 282 = 57
Cet exemple montre que lagrgation cot-bnfice absolue de la stra-

tgie du traitement sur 15 ans est prfrable celle du traitement vie.
Il est encore possible dvaluer lagrgation cot-bnfice relative qui
est gale au rapport cot/bnfice (tableau V).
Tableau V Agrgation cot-bnfice relative.
Stratgie 15 ans de traitement : 129/90 = 1,43

Stratgie de traitement vie : 282/225 = 1,25
Cette fois, cest la stratgie du traitement vie qui et prfrable.

Ainsi, la stratgie agrgation cot-bnfice absolue de traitement sur
15 ans est celle qui procure le gain le plus lev, cest--dire la plus
grande diffrence entre le bnfice et le cot. La stratgie cot-bnfice
relative de traitement vie est celle pour laquelle le quotient cot sur
bnfice est plus faible.
La divergence entre les rsultats de ces deux types destimation suggre
que cest alors la discussion quelle suscite qui peut tre intressante.
Les tudes cot-efficacit

Ces tudes ont pour objectif de relier les cots dun traitement ses
rsultats en termes de sant et exprims en units physiques comme
le nombre danne de vies sauves, le nombre de maladies vites, etc.
Si une stratgie est la plus efficace en termes de sant et de gain, elle
simpose comme le bon choix. Si deux stratgies ont la mme effica-
cit, ltude cot-efficacit permet de choisir celle qui offre le gain le
plus lev au nom de la minimisation des cots.
Mais il y a parfois divergence. Dans notre exemple prcdent, il
a t montr que les esprances de vie 50 ans taient les suivants
(tableau VI) :
Tableau VI Esprance de vie 50 ans (en jours).

Esprance de vie Gains defficacit
Pas de traitement hormonal 12 143
Traitement pendant 15 ans 12 163 20
Traitement vie 12 206 63
Choix dun traitement 237
La stratgie traitement pendant 15 ans apporte un gain deffica-

cit de 20 jours pour un cot de 39 millions pour 100 000 femmes
(tableau IV). Lautre stratgie traitement vie apporte un gain
defficacit de 63 jours pour un cot de 57 millions. Il est donc logique
de choisir cette deuxime stratgie en termes defficacit. Mais cest
celle qui cote le plus cher.
Il existe alors deux mthodes daide la dcision : lagrgation cot-
efficacit en moyenne et lagrgation cot-efficacit marginale. Leur
objectif est, en se ramenant une efficacit similaire des deux strat-
gies, de comparer leurs cots respectifs. Pour ce faire, il convient de
supposer que, pour chaque traitement, le gain ou le cot est fonction
du niveau defficacit atteint.
Lagrgation cot-efficacit en moyenne suppose que cette fonction
soit de type linaire. Il est donc possible de calculer le gain dune unit
defficacit et le traitement choisi sera celui dont le gain dune unit
defficacit sera le plus important.
En reprenant notre exemple, le gain dune unit defficacit pour le
traitement de 15 ans est de : 39/20 = 1,95. Le gain dune unit deffi-
cacit pour le traitement vie est de : 57/63 = 0,90. Lagrgation cot-
efficacit amne ainsi prfrer la stratgie du traitement de 15 ans.
En fait, lhypothse de linarit est trs rarement satisfaite sur le plan
conomique, dune part du fait de lexistence de cots fixes, dautre
part de limpossibilit daccrotre indfiniment lefficacit dune strat-
gie. Ainsi, dans les cas frquents o lhypothse de linarit ne peut tre
satisfaite, il est possible dutiliser lagrgation cot-efficacit marginale.
Lagrgation cot-efficacit marginale suppose que les gains et les effi-
cacits de deux traitement que lon compare soient proches lun de
lautre. Par ailleurs, il est ncessaire de dcider pour lequel des deux
niveaux defficacit la comparaison des gains sera effectue. Dans notre
exemple, le gain defficacit du traitement vie est suprieur celui
du traitement pendant 15 ans. Si lon compare les deux traitements
en partant du niveau defficacit du traitement pendant 15 ans, la
procdure cot-efficacit marginale consiste estimer quelle serait la
dpense gnre par une unit supplmentaire defficacit pour le trai-
tement de 15 ans, puis la dpense pour atteindre le niveau defficacit
du traitement vie.
Par exemple si la stratgie traitement pendant 15 ans gnre un
cot de 1 000 et une efficacit de 100 et si la stratgie traitement
vie gnre un cot de 1 200 pour une efficacit de 105, pour gagner
une unit defficacit avec la premire stratgie, il faudrait dpenser
1 000/100 = 100 et pour atteindre 105, il faudrait une dpense de
1 500. efficacit similaire, cest alors la stratgie traitement vie
qui sera privilgie.
Les tudes cot-utilit relient les cots dune action mdicale des
4 critres qui ne sont plus montaires, mais ses consquences expri-
mes en termes mdicaux, par exemple les quivalents dannes de
vie gagnes, pondres par la qualit. On peut ainsi comparer dans
les cancers pidermodes du canal anal, la chirurgie et la radiothra-
pie ou dans le reflux gastro-sophagien, le traitement mdical par les
inhibiteurs de la pompe proton et la chirurgie.
Rfrence
1. Rougier P, Laplanche A, Huguier M, et al. (1992) Hepatic arterial infusion of
floxuridine in patients with liver metastases from colorectal carcinoma: long-
term results of a prospective randomized trial. J Clin Oncol 10: 1112-8
Partie
Les valuations pronostiques 6
Introduction
La connaissance dun pronostic permet de prdire la probabilit

dune volution chez un malade, par exemple 75 % de chances de sur-
vie cinq ans aprs une intervention chirurgicale pour un cancer. Cette
notion est probabiliste : chez un malade dtermin, si la connaissance
de ce pronostic permet destimer quil a plus de chances dtre en vie
au bout de cinq ans que linverse, il nest pas possible pour autant de
savoir sil sera parmi les 75 % de survivants ou bien parmi les 25 % de
malades dcds.
Lintrt de la connaissance dun pronostic ne se limite pas ce type
de prdiction individuelle. Cette connaissance permet encore dadap-
ter un traitement en tenant compte du pronostic. Ainsi, dans les can-
cers du clon, aprs une exrse chirurgicale apparemment complte,
le taux de survie cinq ans, en labsence de mtastases ganglionnaires
lexamen anatomopathologique, est de lordre de 80 %. Mais il est
infrieur sil existe des mtastases ganglionnaires. Dans ces cas, les
essais thrapeutiques randomiss ont montr quune chimiothrapie
augmentait la survie. Ainsi, la connaissance de la valeur pronostique
des mtastases ganglionnaires et les rsultats des essais randomiss
font prescrire une chimiothrapie chez les malades qui ont t op-
rs dun cancer du clon et qui ont des mtastases ganglionnaires.
Cependant, ces chimiothrapies ont des contreparties notamment
digestives et hmatologiques. Pour cette raison, deux orientations dans
les recherches caractrisent la logique des dmarches mdicales dans
ce domaine. Certaines recherches se font vers des chimiothrapies, au
moins aussi efficaces sur des essais dquivalence, mais mieux tol-
res et moins astreignantes. Dautres recherches cherchent identifier,
parmi les malades qui ont des mtastases ganglionnaires, un sous-
groupe faible risque de rcidive chez lequel on pourrait viter, pour
cette raison une chimiothrapie. Cest le cas dtudes gnomiques ou
des micro-satellites.

Dans le mme tat desprit, un troisime intrt des tudes pro-

nostiques est de contribuer aux valuations thrapeutiques par les
essais randomiss. En effet, la connaissance dun facteur de pronos-
tic dterminant doit amener raliser une stratification sur ce facteur
pronostique.
Enfin, la connaissance des facteurs pronostiques permet de rduire le
nombre dexamens complmentaires qui peuvent tre raliss dans
un but pronostique en ne prescrivant que ceux qui apportent une
information pertinente et non redondante avec celle dautres examens.
Tableau I Diffrents intrts de lvaluation dun pronostic.
1. La prdiction individuelle chez un malade et la connaissance de lvolution dune

maladie.
2. Ladaptation dun traitement la gravit dune maladie.
3. Dans llaboration du protocole dun essai thrapeutique randomis, la mise en
uvre ventuelle dune stratification.
4. La limitation de la prescription dexamens complmentaires vise pronostique
ceux qui sont ncessaires et suffisants.
Lvaluation dun pronostic consiste apprcier lassociation entre,

dune part, un ou des facteurs susceptibles davoir un lien avec ce
pronostic et appels variables expliquantes ou covariables et, dautre
part, celui qui est appel variable explique ou variable dpendante.
Les variables expliquantes peuvent tre des caractristiques du sujet
(ge, sexe, etc.) ou des facteurs de comorbidit (obsit, diabte, car-
diopathie, etc.), mais surtout des facteurs prsums tre lis la gra-
vit de la maladie. Les variables expliques sont souvent des variables
quantitatives (survie un mois aprs le dbut de la maladie), mais
plus souvent encore ce sont des donnes censures (survie, apparition
dune rcidive, etc.).
Dans toutes ces valuations, la qualit dun travail se juge dabord sur
la prcision avec laquelle toutes ces variables ont t dfinies en pri-
vilgiant les critres objectifs dapprciation sur les critres subjectifs.
Pour raliser ces valuations, les outils statistiques privilgis sont
les analyses unifactorielles, premire tape des analyses multifacto-
rielles, cest--dire selon la nature des variables tudies, la rgres-
sion multiple, la rgression logistique, le modle de Cox et lanalyse
discriminante (voir la deuxime partie de cet ouvrage).
Les analyses multifactorielles permettent de comprendre, au moins en
partie, les liens qui existent entre des covariables et une variable expli-
que. partir de ces donnes, elles permettent de faire une prdiction.
Pour ce faire, il convient dabord daffecter chaque covariable un
coefficient calcul partir du logarithme de lcart-type du logarithme
Introduction 243
du risque relatif. Ensuite, le score de chacun des malades sur lesquels

ltude a port est la somme des valeurs des covariables significa-
tives affectes de leur coefficient. Des groupes de malades aussi iden-
tiques que possible sont ensuite constitus en fonction de leur score.
Il convient enfin de valider les seuils ainsi proposs sur une ou des
populations diffrentes de celle sur laquelle a port ltude initiale.
dfaut, des validations internes sur la population initiale, comme celle
dite de Monte Carlo , permettent destimer la robustesse du score.
Exemple utilisant le modle de Cox
1
Voici un exemple dtude multifactorielle servant de point de

dpart llaboration dun score pronostique [1]. Cette tude concer-
nait les malades qui avaient eu un cancer de lsophage rsqu
chirurgicalement. La variable explique tait la survie.
Dans un premier temps, 21 covariables ont t analyses. En ana-
lyse unifactorielle, neuf dentre elles taient lies la survie (test du
logrank).
Dans un deuxime temps, ces neuf covariables ont t incluses dans un
modle de Cox. Celui-ci a montr que seules quatre variables taient
indpendamment associes un mauvais pronostic (tableau I).
Tableau I Modle de Cox. Rsultats dun travail sur les facteurs

de pronostic de la survie de malades ayant eu un cancer
de lsophage qui a t rsqu de faon apparemment curative [1].
Coefficient de Risque relatif
Covariables cart-type p
rgression b instantan
ge > 65 ans 0,05 0,02 0,02 1,05
Classification ASA* 0,39 0,25 0,01 1,47
Infiltration paritale 0,40 0,15 0,03 1,49
Envahissement
0,38 0,19 0,01 1,46
ganglionnaire
* ASA : American Society of Anesthesiology. ASA est un score global de risque en quatre
classes ordonnes qui tient compte des fonctions vitales dun malade.
Ensuite, il convient daffecter chaque covariable indpendante un

coefficient, calcul comme il a t indiqu, partir du logarithme du
risque relatif instantan (tableau II).

Tableau II Score pronostique de la survie de malades

1 ayant eu un cancer de lsophage qui a t rsqu
de faon apparemment curative.
ge 1,03 + (0 si < 65 ans ; 1 si > 65 ans)

ASA* 7,56 + (*cette classification va de 0 4)
Infiltration paritale 7,85 + 1 si elle intresse la sous-muqueuse
2 si elle intresse la musculeuse
3 si elle dpasse la musculeuse
Envahissement ganglionnaire 7,40 0 sil ny a pas de mtastase ganglionnaire
1 sil y a mtastase juxta-tumorale
2 sil y a mtastase distance de la tumeur
Les coefficients 0, 1, 2, 3 ne sont acceptables que si lon admet lhypo-

thse, qui est forte dans cet exemple, dune volution linaire du risque
relatif entre les classes de chaque variable.
Ces scores, comme celui-ci, sont en pratique difficiles appliquer. Il
est donc souhaitable de chercher les simplifier. Cest ce qui a t
fait dans notre exemple. Lge qui avait une influence prs de huit
fois infrieure celle des trois autres covariables a t supprim. Les
coefficients des trois autres covariables, tant assez proches les uns des
autres ont t considrs comme gaux entre eux. On aboutit ainsi au
score simplifi montr dans le tableau III.
Tableau III Score pronostique simplifi de la survie de malades

ayant eu un cancer de lsophage qui a t rsqu
de faon apparemment curative.
ASA 1 4
Infiltration paritale 1 3
Envahissement ganglionnaire 0 2
La valeur de ce score simplifi pouvait aller de 2 9.

Les malades ont ensuite t regroups en trois catgories deffectifs
peu diffrents les uns des autres :
le groupe 1 constitu de malades qui avaient un score de 2 4 ;
le groupe 2 constitu de malades qui avaient un score de 5 ou 6 ;
le groupe 3 constitu de malades qui avaient un score de 6 9.
La figure 1 montre que les courbes de survie de ces trois groupes
taient bien spares les unes des autres, ce qui suggre la qualit du
modle. Il aurait t souhaitable, ce qui na pas t fait, de valider ce
score sur un autre ou sur dautres chantillons de malades que celui
partir duquel il a t tabli.
Exemple utilisant le modle de Cox 247
Fig. 1 Courbes de survies de malades ayant eu un cancer de lsophage,

rsqu, en fonction dune classification en trois groupes partir dune tude
multifactorielle utilisant le modle de Cox.
Un autre exemple montre la combinaison de trois mthodes biosta-

tistiques. Il concerne une classification pronostique des mlanomes
malins primitifs. Dans une premire tape, trois anatomopathologistes
ont relu indpendamment les lames de 198 mlanomes malins de
stade I [2]. Les critres de jugement ont t le type histologique, linva-
sion dans le derme, lpaisseur tumorale. Une tude de concordance a
t faite pour chaque paramtre avec estimation des coefficients kappa.
Ltude pronostique unifactorielle a t ralise pour chaque patholo-
giste utilisant le test du logrank. Le critre de jugement du pronostic
a t la dure de survie sans rcidive. Les trois covariables ont ensuite
t introduites dans un modle de Cox dans un pas pas ascendant.
Lpaisseur de la tumeur a toujours t le premier paramtre slec-
tionn. Parmi les codages dpaisseur utiliss, le codage optimal a t
celui en deux classes, moins de 2 mm, et plus de 2 mm. En outre, cette
classification avait abouti des effectifs quilibrs pour cet chan-
tillon et la concordance de jugement pour ces deux classes tait trs
leve (coefficient kappa > 0,70). Ltape suivante a t la validation du
modle sur un autre chantillon de 145 malades. Cette classification a
permis de mettre en uvre un essai randomis. Ce travail est ainsi un
modle de dmarche dans la rigueur scientifique dun travail clinique.
1 Rfrences
1. Ptrequin P, Huguier M, Lacaine F, Houry S (1997) Cancers de lsophage
rsqus : modle prdictif de survie. Gastroenterol Clin Biol 21: 12-6
2. Chastang C, Csarini JP, Beltzer-Garelli H, et al. (1984) tablissement dune
classification pronostique en 2 stades du mlanome malin primitif partir
dune analyse multidimensionnelle et dune tude de concordance. Rev Epidem
et Sant Publ 32: 243-8
Exemple utilisant lanalyse discriminante
2
Cet exemple concerne des patients qui ont une cirrhose hpatique
et qui ont fait une hmorragie digestive, le plus souvent due une
hypertension portale. La variable que lon a cherch expliquer est la
mortalit un mois [1].
Comme dans lexemple prcdent, il a dabord t fait une analyse uni-
factorielle de chaque covariable que lon pensait intressant dinclure
dans le modle. Le tableau I montre le coefficient de Mahalonobis et
sa signification statistique.
Tableau I Malades ayant une cirrhose hpatique et ayant eu

une hmorragie digestive. Survie un mois. Analyse unifactorielle.
Coefficient de % de malades
Covariable p
Mahalonobis bien classs
Ascite 0,364 < 0,01 63
Bilirubinmie 0,303 < 0,01 70
Temps de Quick 0,286 < 0,01 67
Cause de lhmorragie 0,158 < 0,05 61
Mdicament gastro-agressif 0,154 < 0,05 58
Type de lhmorragie 0,084 n.s. 48
Dans ce tableau, les covariables ont t classes par ordre dcroissant

du coefficient et de signification statistique. Les valeurs prdictives
positives et ngatives pour chaque covariable ont ensuite t calcules
ainsi que le pourcentage de malades bien classs comme le montre la
dernire colonne du tableau.
Selon le mme principe, il a t fait ensuite une analyse multifacto-
rielle en ajoutant la covariable ascite les autres covariables une une
(tableau II).

Tableau II Malades ayant une cirrhose hpatique et ayant eu

2 une hmorragie digestive. Survie un mois. Analyse multifactorielle.
Coefficient % de malades
Covariable
de Mahalonobis bien classs
Ascite 0,364 63
Ascite + bilirubinmie 0,587 72
Ascite + bilirubinmie +
0,764 72
cause de lhmorragie
Ascite + bilirubinmie +
0,864 75
cause + Quick
17 covariables 1,710 79
Ce tableau montre quau-del des quatre covariables les plus discri-

minantes, certes, plus on inclut de covariables, plus le pourcentage de
malades bien classs augmente, mais ceci de plus en plus faiblement
alors que le modle devient de plus en plus complexe.
Notons encore que, dans cet exemple, les auteurs du travail ont utilis
lanalyse discriminante, mais ils auraient pu se servir de la rgression
logistique.
Exemple utilisant lanalyse discriminante 251
Grille de ralisation ou de lecture des analyses multifactorielles prdictives

1. Lobjectif de lanalyse est pertinent sur le plan mdical, cest--dire que :
le choix de la population tudie ne doit pas aboutir confirmer ce qui est dj
bien tabli ;
les covariables potentiellement importantes sont bien incluses dans ltude.
2. Les dfinitions fondamentales sont clairement prcises :
la population sur laquelle ltude a port ;
les covariables expliquantes incluses dans le modle sont bien dfinies ;
il en est de mme de la variable explique.
3. Le choix du modle est correct
si la variable explique est quantitative : utilisation de la rgression multiple ;
si la variable explique est qualitative deux classes : utilisation de la rgression
logistique ;
si la variable explique est censure : utilisation du modle de Cox ;
lanalyse discriminante dans certains cas.
4. Lanalyse a dabord comport une tude unifactorielle pour slectionner, en
gnral en retenant un p < 0,25, les covariales proposes lanalyse multifactorielle.
Remarque : le modle ne devait inclure au maximum quune covariable par dix
vnements, deux pour 20, trois pour 30, etc.
5. Dans les meilleurs travaux, les rsultats ont t valids sur un ou plusieurs
chantillons de malades diffrents de ceux de lchantillon initial. Sinon, la discussion
des auteurs du travail devrait, au moins, attnuer la porte des rsultats observs.
Rfrence
1. Poynard T, Chaput JC, Mary JY, et al. (1980) Analyse critique des facteurs lis
la mortalit au trentime jour dans les hmorragies digestives hautes du
cirrhotique. Gastroenterol Clin Biol 4: 655-65
partie
pidmiologie 7
Introduction
tymologiquement et historiquement, lpidmiologie est ltude

des pidmies de maladies transmissibles. Mais, dans son acception
moderne, lpidmiologie est ltude de tout vnement de sant et
de situations dintrt sanitaire, des associations entre ces vnements
ou ces situations et de limpact sur la population des expositions aux
facteurs de protection ou de risque [1]. Ces facteurs peuvent dpendre
de caractristiques de lindividu comme le sexe, lge, des facteurs
gntiques, des comportements individuels comme lalcoolisme, le
tabagisme, la surcharge pondrale ou lobsit, ou de lenvironnement
comme la pollution atmosphrique, les nuisances sonores ou bien de
protection comme le contrle de la tension artrielle.
Plus rcemment, certains auteurs ont parl dpidmiologie clinique
propos de lvaluation diagnostique, thrapeutique ou pronostique,
cest--dire pour tout ce qui concerne lvaluation mdicale.
Nous retiendrons ici uniquement ce qui concerne lpidmiologie lie
la sant publique. Cest la science de lanalyse de la sant au niveau
des populations, base sur une approche descriptive et surtout compa-
rative ou analytique. Elle repose sur lutilisation de statistiques, donc
au recours au calcul de probabilits et au concept de risque.
Il existe en effet, deux aspects de lpidmiologie :
lpidmiologie descriptive qui tudie dans des populations la dis-
tribution, lvolution au cours des annes ou dans des zones gogra-
phiques diffrentes de phnomnes de sant bactriens ou viraux,
mais aussi la couverture vaccinale, les suicides, les maladies chro-
niques, le risque thrapeutique, etc. Le moyen utilis est une enqute
transversale ( une date donne (cross-sectional en anglais) ou longi-
tudinale (un suivi sur une priode). On peut suivre la totalit de la
population ou un chantillon reprsentatif de celle-ci ;
lpidmiologie analytique qui tudie les facteurs susceptibles
de favoriser la survenue de maladies. Elle utilise comme princi-
pales mthodes les enqutes cas-tmoins et les enqutes de cohorte

(exposs-non exposs) ; les autres mthodes, cas-cohorte, cas-

tmoins embots dans la cohorte, cas-croiss, tant des modles
drivs ou apparents aux deux prcdents (tableau I).
Tableau I Les diffrents types denqutes pidmiologiques.

Lpidmiologie descriptive :
les tudes dobservation transversales ou longitudinales.
Lpidmiologie analytique ou prdictive :
les tudes cas-tmoins ;
les tudes de cohorte, encore appeles exposs-non exposs.
Rfrence
1. Flahault A, Spira A (2012) La situation de lpidmiologie en France en 2011.
Bull Acad Natle Med (sous presse)
Lpidmiologie descriptive :
les enqutes transversales 1
Lpidmiologie descriptive est synonyme de connaissances des

indicateurs de sant. Elle a pour champ daction essentiel ltude
de la mortalit et de la morbidit (reconnue ou ressentie) dans une
population. Cest, par exemple, la photographie pidmiologique
prise un jour donn dans une population pour recenser les surcharges
pondrales et les obsits.
Mesure de frquence (ou de risque absolu)

En pidmiologie descriptive, les tudes transversales consistent
recueillir des observations une date donne, et les enqutes longitu-
dinales au cours dune priode donne. La mesure de frquence dun
tat de sant utilis est la prvalence (tableau I).
Tableau I Mesures de frquence (ou de risque absolu).
Prvalence : nombre ou proportion de personnes concernes par un vnement

dans une population donne, un moment donn.
Incidence : nombre ou proportion de nouveaux cas au cours dune priode donne,
dans une population donne.
La prvalence est la proportion de personnes concernes par lv-

nement de sant dans une population donne un moment donn.
Cette prvalence ponctuelle peut sexprimer par le nombre de cas dans
la population, mais aussi en rapportant ce nombre de cas une popu-
lation, cest--dire en pourcentage. Au sens dmographique, cest une
statistique qui mesure ltat dune population un moment donn. La
prvalence peut tre analyse globalement ou selon le sexe, les tranches
dge, la rgion, etc. Par exemple, en France, la prvalence du cancer du
clon-rectum tait denviron 109 000 personnes en 2002, ce qui cor-
respond 1,6 dans la population. Il est encore possible de mesurer

la prvalence sur une priode donne. On parle alors de prvalence de

1 priode.
En revanche, lincidence est le nombre de nouveaux cas recenss pen-
dant une priode de temps donne. Le taux dincidence rapporte ce
nombre la population risque. Au sens dmographique, cest une
statistique qui mesure lvolution de ltat dune population dans un
intervalle de temps. Par exemple, en France, lincidence annuelle des
cancers du clon tait de 40 500 cas, avec chez lhomme 40 nouveaux
cas pour 100 000 personnes et chez la femme de 25 pour 100 000 [1].
Le taux dincidence peut tre calcul en comptant la population
risque sous forme de personnes annes : on parle alors de densit din-
cidence. Par exemple, si 1 000 personnes risque sont suivies pendant
deux ans et que 28 sont devenues sro-positives au VIH, pendant cette
priode, la densit dincidence est de 1,4 pour 100 personnes annes.
Prvalence et incidence sont deux notions complmentaires, comme
le sont la position et la vitesse. Par exemple en 1998, le taux dinci-
dence de linfection VIH en France baissait, probablement en partie
grce aux mesures de prvention, tandis que la prvalence continuait
augmenter en raison de la longue dure dincubation de la maladie
et de leffet des traitements qui prolongent la survie des malades. De
mme, en 1977, la loi qui renforait le numerus clausus des tudiants
en mdecine en deuxime anne allait rduire lincidence du nombre
de mdecins, tandis que la prvalence devait continuer augmenter
jusquen 2003 environ.
Certaines tudes pidmiologiques descriptives reposent sur des
donnes recueillies en permanence grce, notamment, aux registres
de morbidit (cancers, malformations congnitales, etc.) aux dcla-
rations obligatoires de certaines maladies transmissibles ou deffets
indsirables de mdicaments ou sur des donnes spcifiques dtudes
transversales. Ces dernires peuvent porter sur lensemble de la popu-
lation ou sur un chantillon, au mieux reprsentatif de la population,
cest--dire tir au sort.
Ce peut tre encore les donnes recueillies chaque jour par un rseau
de mdecins sentinelles pour connatre en temps rel le niveau
pidmique et tablir la cartographie de la grippe, des gastro-entrites
ou de tout autre maladie dans une population. En France, le rseau
des mdecins sentinelles de lINSERM reprsente environ 1 % des
mdecins gnralistes. Ils sont bnvoles et volontaires pour rappor-
ter par voie tlinformatique lInstitut national de la sant et de la
recherche mdicale, selon des protocoles standardiss, les informations
quils observent dans leur pratique quotidienne.
Lpidmiologie descriptive: lesenqutestransversales 259
Rptition des mesures de frquence

Les tudes transversales peuvent faire lobjet de comparaisons dans
le temps : ce sont les tudes de sries chronologiques encore appe-
les tudes avant-aprs lorsquelles valuent une intervention. Ce
renouvellement dans le temps des enqutes sur un mme problme
de sant dune population, concerne, par exemple, le suivi dune cou-
verture vaccinale dans une classe dge ou le taux dinfections noso-
comiales. Ce type dtude permet destimer lefficacit de certaines
politiques de sant publique : campagnes pour la vaccination, mesures
hospitalires dhygine.
Ces tudes transversales peuvent aussi faire lobjet de comparaisons
entre des populations diffrentes ou des rgions diffrentes ; ce sont
les tudes dites ici-ailleurs . Ces comparaisons doivent parfois tre
ajustes pour ne pas fausser leur interprtation. Ainsi, lorsque lon
compare des taux de mortalit ou de morbidit entre des rgions, il
est ncessaire de procder une standardisation de ces taux sur lge.
Par exemple, une enqute de la Caisse nationale dassurance mala-
die a montr que lon faisait deux fois plus dappendicectomies par
100 000 habitants dans la rgion Nord-Pas-de-Calais que dans la
rgion Provence-Alpes-Cte dAzur [2]. Cependant, dans le Nord de
la France, la population est plus jeune que dans le Sud : cette diff-
rence dge contribue la diffrence car, dans le Sud, de nombreuses
personnes auront dj subi une appendicectomie dans lenfance ou
au dbut de lge adulte. Il est dans ce cas possible de comparer les
taux par classe dge, par exemple chez les 10-20 ans dans les deux
rgions ; ou de standardiser les taux en se rapportant une popula-
tion de mme ge. Dans notre exemple, lajustement des taux dappen-
dicectomies en fonction des classes dge a montr que la diffrence
entre les deux rgions persistait classes dge similaires suggrant que
des comportements mdicaux diffrents expliquaient les diffrences
observes.
Rfrences
1. Launoy G, Grosclaude P, Pienkowski P et al. (1992) Cancers digestifs en France.
Comparaison de l'incidence dans 7 dpartements et estimation de l'incidence en
France. Gastroenterol Clin Biol 16 :633-8
2. Caisse nationale dassurance maladie (1992) Lactivit chirurgicale dans les
tablissements de sant. Rsultats mdicaux nationaux. Paris, Caisse nationale
dassurance, Tome 1 : 177-8
Lpidmiologie analytique
2
Lpidmiologie analytique, ou explicative, a pour but dtudier des

facteurs susceptibles de favoriser la survenue de maladies. Thorique-
ment, le meilleur niveau de preuve pour atteindre cet objectif serait de
faire un essai randomis. En ralit, il ne serait pas acceptable, sur le
plan thique aprs tirage au sort, dexposer une partie des sujets inclus
dans une telle tude un facteur qui serait potentiellement pathogne.
Il est donc ncessaire de procder diffremment.
Pour ce faire, on dispose de deux principaux types denqutes explica-
tives. Leurs objectifs sont un peu diffrents. Les enqutes cas-tmoins
partent dun chantillon de sujets atteints dune maladie que lon
compare une srie tmoin de sujets non atteints par cette maladie.
Les enqutes de cohorte diffrent dans la mesure o lon compare deux
groupes de sujets que lon va suivre dans le temps, les uns exposs un
facteur de risque potentiel, les autres non exposs.
Les enqutes cas-tmoins

La caractristique essentielle de cette mthode est que lon consti-
tue deux groupes de sujets, dun ct des malades (M+), et de lautre
des personnes non malades, appeles tmoins, contrles, ou rfrents
(M). Les sujets du groupe tmoin devront provenir de la mme
population que les cas. Autrement dit, il faut que les sujets tmoins,
sils avaient t des cas, aient pu tre inclus dans le groupe des cas.
Lorsque ceci nest pas ralis, des biais substantiels peuvent apparatre
dans lanalyse. Cest donc bien la constitution du groupe tmoin qui
est le plus difficile raliser dans une telle tude. Le but des tudes cas-
tmoins est de comparer dans chacun des deux groupes la frquence
des expositions antrieures (E+) ou labsence dexposition (E)
des facteurs de risque prsums comme le montre le tableau I. Dans
ce type dtude, par construction, le recueil de linformation sur les
expositions et les facteurs de risque est rtrospectif.

Tableau I Principes et objectifs des enqutes cas-tmoins.

2
On part de deux groupes, lun de malades (M+) et lautre de sujets non malades
(M).
On cherche savoir si la frquence des expositions un facteur de risque (E+) ou
non (E) est diffrente entre ces groupes.
Cela permet de dresser le tableau suivant :
M+ M
E+ a b
E c d
partir duquel, il est possible de calculer les odds et les odds ratio :
Odds chez les malades : a/b
Odds chez les non malades : c/d
ad
Odds ratio :
bc
Ces odds ratio sont indpendants de la frquence de la maladie dans la

population tudie. Ils donnent une bonne approximation du risque
relatif quand la maladie est rare et que lenqute nest pas biaise.
Objectifs
Les enqutes cas-tmoins peuvent rpondre deux objectifs un peu
diffrents.
Ou bien elles sont destines tayer ce qui ntait quune hypothse
dune liaison entre, par exemple, une exposition certains anorexi-
gnes et la survenue dune hypertension artrielle pulmonaire et
quantifier la force dassociation. Pour ce faire, on observe un groupe
de sujets ayant une hypertension artrielle pulmonaire et un groupe de
sujets aussi similaires que possible nayant pas dhypertension artrielle
pulmonaire. On compare ensuite entre ces deux groupes, les niveaux
dexposition antrieure aux anorexignes5.
Ou bien ces enqutes sont exploratoires afin de tester un certain nombre
dhypothses. Cest ainsi quun grand nombre de facteurs de risques
potentiels du carcinome vaginal chez la jeune fille avaient t recher-
chs et ont permis de suspecter la prise de Distilbne par la mre.
Lutilit dcisionnelle de ces enqutes cas-tmoins peut tre illustre
5 Cet exemple avait t donn dans notre ouvrage Biostatistiques au quotidien publi par
Elsevier, Paris en 2000.
Lpidmiologie analytique 263
par un autre exemple [1]. Des mdecins gnralistes ont interrog 500
de leurs malades ayant consult au lendemain des ftes de fin dan-
ne 1995 pour une gastro-entrite. Trente pour cent de ces malades
avaient consomm des hutres dans les dix jours qui avaient prcd
les symptmes. Il tait donc tentant de penser que les hutres taient
responsables dune grande partie de ces gastro-entrites. En ralit,
il tait ncessaire, avant de tirer une telle conclusion avec les cons-
quences que cela aurait pu avoir en matire conomique, notamment
pour les ostriculteurs, dobserver un groupe de sujets similaires, mais
qui navaient pas eu de gastro-entrite. Cette tude a t ralise par les
mdecins du rseau sentinelle . Il sest avr que la consommation
dhutres chez les sujets tmoins tait la mme que celle des malades
qui avaient eu une gastro-entrite. On ne pouvait donc probablement
pas incriminer de faon dterminante les hutres, dans cette pidmie
hivernale de gastro-entrite. Le fait que 30 % des malades atteints de
gastro-entrite avaient consomm des hutres sexpliquait par le fait,
qu cette priode de lanne, beaucoup de Franais mangent des
hutres. Les rsultats de cette enqute suggraient alors de chercher
dautres causes lorigine des gastro-entrites qui avaient t observes.
De fait, en 1999, ce mme rseau de mdecins a permis didentifier la
cause dau moins la moiti des cas de gastro-entrites survenant lors
de ces pidmies hivernales. Il sagissait de familles de virus entriques,
principalement de Calicivirus et de Rotavirus [2].
La mesure de la force dassociation dans une tude cas-tmoins est
lodd ratio dont le calcul est indpendant de la frquence de la maladie
(tableau I). En revanche, il nest pas possible de calculer directement le
risque relatif qui, lui, dpend de la frquence de la maladie.
Principaux avantages et inconvnients

Ces tudes cas-tmoins ont lavantage dtre relativement rapides
raliser, car elles ne ncessitent pas le suivi des personnes. Leur cot est
beaucoup moins lev que celui des enqutes prospectives (cohorte) ou
des essais thrapeutiques. Elles permettent dexplorer plusieurs hypo-
thses simultanment, notamment par des analyses multifactorielles
utilisant la rgression logistique.
Elles ont cependant des inconvnients. Tout dabord elles ne per-
mettent pas de connatre lincidence dune maladie puisque le nombre
de cas et de tmoins est fix de manire arbitraire par linvestiga-
teur. De plus, sil est assez ais de constituer un groupe de malades,
il est habituellement beaucoup plus difficile de trouver et de choisir
des sujets tmoins appropris. Enfin, de nombreux biais peuvent tre
prsents dans ces analyses : biais de mmorisation : il est probable que

2 les sujets malades se remmorent plus dexpositions suspectes quun
sujet tmoin indemne de la maladie ; biais de participation : imaginons
que dans une tude sur les tumeurs crbrales et le tlphone portable,
les cas soient plus susceptibles de participer que les tmoins sils ont
utilis un tlphone portable ; biais de slection : lorsque la popula-
tion de tmoins reprsente imparfaitement la population risque, par
exemple si lon recrute des tmoins lhpital plutt quen popula-
tion gnrale ; biais de classement lorsque par exemple la mesure de
lexposition sera ralise avec plus derreur chez les tmoins, biais de
confusion lorsquune association retrouve (par exemple consomma-
tion dalcool et cancer du poumon) nest pas causale mais sexplique
par une tierce variable (ici le tabagisme), etc.
Une partie importante de linterprtation de ces tudes est donc de
vrifier que limpact des biais et facteurs de confusion ninfirme pas la
conclusion. Pour ces diffrentes raisons, les enqutes cas-tmoins sont
surtout utilises lorsquon ne peut pas raliser de cohorte, cest--dire
pour des maladies rares ou dont le dlai de survenue aprs une expo-
sition prsume un facteur de risque responsable est trs long. Elles
sont encore volontiers utilises lorsque lon a besoin dune rponse
rapide pour faire face un risque sanitaire, par exemple lors dune
pidmie de listriose.
Les enqutes de cohortes exposs non-exposs

La cohorte romaine tait constitue de 600 soldats. Le mot cohorte
a ensuite t repris pour voquer dimportants effectifs de popula-
tions en dplacement. En pidmiologie, une cohorte est ltude dite
longitudinale dun chantillon de sujets initialement non malades,
mais les uns exposs un (ou des) risque(s), les autres non exposs.
Lobjectif est de mesurer la survenue dvnements de sant (maladie,
dcs) au sein de cet ensemble de sujets, puis de comparer lvolution
du nombre de nouveaux cas entre sujets exposs et non exposs. Ces
tudes se diffrencient bien des enqutes cas tmoins qui cherchent,
comme on vient de le voir, rtrospectivement une exposition des fac-
teurs de risque hypothtiques auprs de groupes de malades et de non
malades.
Moyens destimation
Les enqutes de cohortes comparatives permettent destimer direc-
tement le risque relatif associ lexposition. Lorsque plusieurs fac-
teurs de risque potentiel sont tudis, il est possible et souhaitable de
faire des analyses multifactorielles.
Objectifs
Il existe deux types denqutes exposs-non exposs.
Certaines cohortes sont dites historiques ou rtrospectives .
Elles reposent sur le recueil rtrospectif des donnes en se basant sur
des fichiers dj constitus pour une autre raison. Par exemple, des
cohortes historiques ont t utilises pour tudier lassociation entre
lexposition professionnelle lamiante et la survenue dun msoth-
liome. Il a suffi de reprendre, en milieu professionnel, les comptes ren-
dus des visites en mdecine du travail et les radiographies thoraciques
dun groupe de travailleurs ayant eu une profession les exposant
lamiante et dun groupe de travailleurs de mme ge, de mme sexe et
ayant la mme consommation de tabac et dalcool, mais non exposs
lamiante. Cette comparaison a montr que lexposition profession-
nelle lamiante constituait bien un facteur de risque de msothliome.
Dans les pays o la rglementation lautorise, le croisement de fichiers
nominatifs permet de raliser des cohortes historiques virtuelles
ou lectroniques qui ouvrent de nombreuses et utiles possibilits.
Ainsi, au Canada, le croisement de fichiers de patients qui ont reu
une prescription de mdicaments et de fichiers de patients hospita-
liss pour des ractions indsirables suspectes dtre dues au mme
mdicament, a montr le rle des E2 mimtiques utiliss seuls, sans
corticodes, comme facteur de risque dtat de mal asthmatique [3].
Dautres tudes de cohortes comparatives reposent sur le recueil pros-
pectif de deux cohortes parallles, lune expose un facteur de risque
(par exemple le tabagisme), et lautre non expose. Les sujets sont
alors suivis plusieurs mois, voire plusieurs annes, pendant lesquelles
on collige la survenue dvnements prsums lis lexposition (par
exemple les broncho-pneumopathies et le cancer du poumon). Il
convient de remarquer que lessai randomis est une forme particu-
lire de cohorte comparative avec la particularit que les deux cohortes
sont dtermines par le tirage au sort. Les cohortes comparatives sont,
aprs les essais randomiss, les mthodes de comparaison les moins
sujettes des biais.
Les tudes avec recueil prospectif des donnes sont surtout intres-
2 santes et utiles lorsque le dlai pressenti entre lexposition aux facteurs
de risque et lapparition dune maladie est relativement bref et que
lincidence de la maladie est leve.
En revanche, les dlais dobservation peuvent tre trop longs. Par
exemple, pour lexposition lamiante, il aurait fallu attendre 30 ans
de recueil prospectif des donnes avant que les msothliomes appa-
raissent pour se rendre compte que lamiante augmentait leur risque
de survenue.
Au pire, lorsque lexposition est assez frquente et distribue de
manire htrogne dans la population et que les vnements (mala-
die, dcs) sont rares ou surviennent tardivement aprs lexposition
au facteur de risque potentiel, ltude de cohortes est pratiquement
impossible raliser. Par exemple, pour avoir 95 % de chances de
dtecter un cas dune maladie dont la frquence serait de 1/10 000, il
faudrait suivre 30 000 personnes. La constitution dune telle cohorte
prsenterait des difficults logistiques difficilement surmontables et un
cot considrable alors que quelques cas et leurs tmoins permettent
parfois de reconnatre dventuelles relations entre lexposition un
facteur de risque et lapparition dune maladie.
Le tableau II montre les donnes qui peuvent guider le choix dune
mthode pidmiologique.
Tableau II Choix dun type dtude pidmiologique

en fonction des possibilits.
1. Maladies rares ou dont le dlai de survenue aprs lexposition au facteur de risque

est trs long ou bien que lon a besoin dune rponse rapide, par exemple en cas
dalerte sanitaire :
o tude cas-tmoins.
2. Maladies assez frquentes, mais dont le dlai de survenue aprs lexposition au
facteur de risque est long :
o Cohortes historiques .
3. Maladies dont lincidence est leve et le dlai de survenue aprs lexposition au
facteur de risque est relativement bref :
o Cohortes avec recueil prospectif des donnes.
Cette dernire mthode est celle qui est le moins sujette des biais. Au mieux,
lallocation des sujets dans le groupe expos ou non expos est ralise par tirage au
sort : cest lessai randomis, mais qui, en dehors dune perspective de prvention, est
peu praticable en pidmiologie pour des raisons thiques.
Les biais
Le groupe tmoin
Dans toutes les enqutes pidmiologiques, le choix pertinent du
groupe tmoin, cest--dire dans les enqutes cas-tmoins les non-
malades et dans les enqutes exposs-non exposs, les non-exposs,
est fondamental. En effet, lorsquun tirage au sort nest pas possible
comme dans un essai thrapeutique par exemple, il est indispensable
que les chantillons de groupes tmoins soient le plus reprsentatifs
possible de la population afin de limiter le risque de biais li une
slection des sujets au moment de leurs recrutements.
Dautres biais, lors de lanalyse des rsultats, sont le rejet des cas parce
que des donnes sont partiellement manquantes ou encore, dans le
suivi dune cohorte, le fait que des sujets ont t perdus de vue. Des
techniques permettent de limiter les consquences de ces biais comme
lanalyse actuarielle des rsultats (cf. les variables censures p. 37).
Des biais peuvent tre lis aux erreurs de mesures

Des erreurs peuvent tre lies un questionnaire mal conu au
dpart, des appareils de mesure insuffisamment prcis, aux obser-
vateurs eux-mmes, etc. La validation des dossiers dinclusion dans
ltude, le contrle du suivi et des rsultats observs, permettent de
quantifier limpact de ces erreurs sur les rsultats, voire de les corriger.
Les facteurs de confusion

Ces facteurs ont t voqus propos des tudes mutifactorielles.
Il y a facteur de confusion lorsque, de faon la fois simultane et
indpendante, lexposition et lvnement de sant sont influencs
par un facteur extrieur qui na pas t pris en compte. Un facteur de
confusion est le fait dune association relle, mais qui nest pas causale
pour autant. On pourrait donc dire quil ne sagit pas dun biais stricto
sensu.
2 Remarques
Effectifs
Dans les enqutes cas-tmoin, comme dans les enqutes de cohorte,

le calcul du nombre de sujets ncessaire se fait sur la base de la compa-
raison de deux pourcentages : exposs chez les cas contre exposs chez
les tmoins dans ltude cas-tmoin ; incidence chez les exposs contre
incidence chez les non-exposs dans la cohorte.
Dans les enqutes cas-tmoins, le facteur limitant est gnralement le
nombre de cas. Sur le plan de la puissance statistique, on peut augmen-
ter la puissance en incluant plusieurs sujets tmoins pour chaque cas.
Nanmoins, au-del de quatre cinq sujets tmoins par cas, ce gain
de puissance devient ngligeable. Lorsque les diffrences dexposition
sont majeures, ce type dtude peut tre trs efficace. Il avait suffi de
huit cas et de 32 tmoins pour montrer que la prise de stilbestrol chez
les femmes enceintes favorisait la survenue dun cancer du vagin chez
leurs filles [4]. Ce cancer apparat dans ladolescence et cette tude a
fait proscrire formellement le stilbestrol pendant la grossesse.
Dans lenqute de cohorte, on pourra choisir dinclure un chantillon
reprsentatif de la population pour lexposition. Cependant, pour
maximiser la puissance nombre de participants fix, il sera mieux
dinclure autant dexposs que de non-exposs. Lorsque cela nest
pas possible, on peut dsquilibrer les groupes, mais il faudra alors
augmenter les effectifs pour garder la mme puissance.
Causalit
Une fois les donnes recueillies, la comparaison des rsultats entre

les deux groupes cas-tmoins, exposs-non exposs doit faire inter-
venir des tests statistiques comme dans toute comparaison. Mais, en
dehors des essais randomiss, des diffrences statistiquement signifi-
catives entre un facteur dexposition et une maladie ne signifient pas
ncessairement quil y ait un lien de causalit entre eux.
Rappelons que pour suspecter une lsion causale, il ne suffit pas quil
y ait des diffrences statistiquement significatives entre une exposition
ou non un risque et une maladie, mais quil faut que des condi-
tions supplmentaires soient runies. On donne la liste ci-dessous des
critres dus Bradford-Hill, qui sont couramment utiliss, sans pour
autant apporter une garantie de causalit.
1. Le risque de maladie doit tre statistiquement plus lev lorsque

lon est expos au facteur de risque considr que si lon ne lest pas.
2. Les tudes pidmiologiques doivent ensuite tablir des associations
entre les facteurs dexposition et le risque de survenue de maladie,
dont la force est estime par le risque relatif.
3. Il convient encore que lassociation soit confirme dans plusieurs
tudes utilisant, de ce fait, des mthodes parfois un peu diffrentes les
unes des autres, portant sur des populations diffrentes.
4. Les relations entre lintensit du facteur de risque, cest--dire
la dure et la dose dexposition (par exemple pour le tabagisme, le
nombre de paquets annes), sont des arguments supplmentaires [5].
5. Lexposition au facteur de risque doit prcder la survenue de la
maladie.
6. Ajoutons enfin les arguments exprimentaux et la plausibilit
biologique.
Aucune de ces donnes ne peut, elle seule, apporter une preuve indis-
cutable de causalit, mais aussi, aucune ne doit tre considre comme
un critre indispensable pour affirmer la causalit, sauf bien entendu
la temporalit qui est la squence dans le temps : exposition surve-
nue de la maladie.
Risques relatifs et risques attribuables

Une difficult supplmentaire en pidmiologie est que, mme si
une relation causale existe entre un facteur de risque et la survenue
dune maladie, toute survenue de la maladie ne sera pas due ce
facteur, et toute exposition ne dclenchera pas la maladie. Les rela-
tions pidmiologiques sont avant tout de nature probabiliste. Cha-
cun sait quun cancer du poumon peut se voir chez un malade qui na
jamais fum, mais que le tabagisme augmente ce risque. Une tude
avait montr quentre 50 ans et 69 ans, le fumeur multipliait par 78 le
risque quil avait de mourir dun cancer du poumon dans les quatre
annes suivantes [6]. En termes de sant publique, il est important de
connatre limpact du facteur de risque lchelle dune population,
par exemple sous forme du nombre de cas attribuables ce facteur.
La fraction du risque attribuable est fonction du risque relatif, mais
aussi de la proportion de sujets exposs au facteur de risque dans la
population. Cest ainsi quun facteur de risque peut entraner un risque
relatif trs lev dune maladie, mais seulement un trs petit nombre
de cas si peu de personnes sont exposes ce facteur de risque. Inverse-
ment, si un facteur de risque na quun faible pouvoir pathogne, mais
que ce facteur est trs rpandu, il pourra gnrer un grand nombre
daffections dans la population. Par exemple, le formaldhyde aug-

2 mente le risque relatif de cancer du nasopharynx de 1,5 2. Ce produit
est utilis dans de nombreux objets courants, mais il naugmente le
risque de ce cancer qui ne sobserve quentre 2 et 5 cas/million dhabi-
tants qu des niveaux importants dexposition. La relation de causalit
qui a t montre entre une exposition importante au formaldhyde
et le cancer du nasopharynx ne justifie donc pas, en termes de fraction
du risque attribuable, des mesures de sant publique majeures dans la
population gnrale. En revanche, il est trs important de rduire le
niveau dexposition des travailleurs exposs des niveaux levs [7].
Imputabilit
Certaines maladies sont facilement imputables une cause parce
quelles sont particulirement graves, voire mortelles et quelles suc-
cdent brve chance au risque : affection virale fulgurante, expo-
sition des polluants trs forte dose, etc. Mais la grande majorit
des maladies ont des causes multiples. Il devient alors trs difficile,
voire impossible, de montrer quune maladie est imputable un fac-
teur dtermin. Cette impossibilit pose des questions socitales,
notamment en matire dindemnisation des personnes atteintes par
une maladie susceptible dtre favorise par un facteur de risque
environnemental ou mdicamenteux par exemple.
Rfrences
1. Letrilliart L, Desenclos JC, Flahault A (1997) Risk factors for outbreak of acute
diarrhea in France: case-control study. Br Med J 315: 1645-9
2. Brachet R, Etienney I, Flahault A, et al. (1999) Gastro-entrites hivernales :
Calicivirus et Rotavirus ont t les deux familles de virus les plus frquemment
identifies. Le Quotidien du mdecin
3. Spitzer WO, Suisssa S, Ernst P, et al. (1992) The use of E-antagonist and the risk
of death and near death from asthma. New Engl J Med 326: 501-6
4. Herbst AL, Ulfelder H, Poskanzer DC (1971) Adenocarcinoma of the vagin.
Associaition of maternal stilbestrol therapy with tumor appearance in young
women. N Engl J Med 284: 878-81
5. Huguier M (1976) Le tabac : risques calculables. Le Concours Mdical 98:
7291-3
6. Hammond EL, Horn D (1958) Smoking and death rates. Report on forty-four
months of follow-up of 187 783 men. JAMA I. Total mortality 166: 1159-72
7. Flahault A, Spira A (2011) La situation de lpidmiologie en France. Bull Acad
Natle Med (sous presse)
Prvention et dpistage
3
Prvention
Les enqutes pidmiologiques trouvent un maximum dintrt
lorsquelles ouvrent la possibilit de la mise en uvre de mesures
de prvention, de dpistage ou de matrise des risques. Encore faut-
il prouver quil y a non seulement une association statistique, mais
encore un lien de causalit entre un facteur de risque et une maladie.
Une fois un facteur de risque reconnu, toute politique de prvention
devrait tre assortie dindicateurs qui permettent dvaluer son effi-
cacit, par exemple, le suivi de mesures dimpact, comme la mesure
du risque attribuable avant et aprs lintervention vise prventive.
Ainsi, en France, les campagnes menes entre 1985 et 2003 pour dimi-
nuer le tabagisme ont t trs efficaces parmi les cadres chez lesquels
la proportion de ceux qui consommaient rgulirement des cigarettes
a diminu de 45 % 2 %, alors que chez les ouvriers, cette diminution
a t moindre, passant de 56 % 49 % chez les hommes et quelle
a mme augment dans cette catgorie socioprofessionnelle chez les
femmes de 19 % 31 %.
Dpistage
Le dpistage, au sens strict, est le diagnostic dune maladie avant
lapparition de symptmes ou de signes cliniques. Lhypothse qui
justifie le dpistage est que le traitement plus prcoce de la maladie
quil permet, amliore le pronostic ou rduit le risque que fait courir
la maladie.
Lvaluation des moyens de dpistage dont on dispose se fait, comme
pour le diagnostic en termes de sensibilit, de spcificit et de valeurs
prdictives. De faon gnrale, le dpistage de masse utilise de pre-
mire intention un examen sensible, sans contreparties mdicales, peu

onreux, mais souvent peu spcifique comme lHmocult ou mieux

3 limmunologie pour dpister la prsence de sang dans les selles. Dans
un deuxime temps, dans le sous-groupe ainsi slectionn, on ra-
lise des examens plus spcifiques, par exemple une coloscopie pour
reconnatre la prsence ventuelle dune tumeur colique.
En divisant le cot total du dpistage par le nombre de cas dpists, il
est possible de calculer le cot unitaire du dpistage.
Il convient encore de sassurer que le dpistage a un intrt dcision-
nel. Par exemple, lutilit dun dpistage du cancer de la prostate au-
del de 70 ans peut tre discute, si lhistoire naturelle de ce cancer,
cet ge, montre quil volue lentement, reste longtemps pas plus symp-
tomatique quun adnome et que la probabilit de mourir dune autre
cause est plus leve que celle de mourir des consquences directes de
ce cancer de la prostate.
En fait, si le bnfice dun dpistage nest pas vident ou contest, un
essai randomis est indiqu comparant la survie dun sous-groupe de
sujets qui ont eu un dpistage et le traitement ventuel qui en dcoule
sil est positif et un groupe tmoin non dpist. Ce dpistage peut
stendre la surveillance dun malade guri, mais susceptible de faire
une rcidive de sa maladie. Dans ces cas, la surveillance a pour objectif
de dpister une rcidive qui, reconnue plus tt, avant dtre devenue
symptomatique, serait plus facile traiter. Malgr la logique apparente
de ce type de raisonnement, des essais randomiss sont justifis pour
sen assurer. Or plusieurs de ces essais, contrairement ce que lon
pouvait logiquement esprer, nont pas montr damlioration de la
survie grce au dpistage. Ainsi, un essai randomis a t ralis chez
325 malades qui avaient eu une rsection apparemment complte dun
cancer colorectal [1]. Deux protocoles de surveillance ont t compa-
rs, lun par de simples visites mdicales, lautre intensif avec plusieurs
examens complmentaires susceptibles de dpister une rcidive. Le
critre de jugement principal a t la survie. Il na pas t observ de
diffrence entre les deux groupes, ce qui a remis en cause lutilit de
programmes de surveillance intensive et onreuse dans ces cas.
Rfrence
1. Shoemaker D, Black R, Gilles L, Toouli J(1998) Yearly colonoscopy, liver CT and
chest radiography do not influence 5-year survival of colorectal cancer patients.
Gastroenterology 114: 7-14
pidmiologie thorique
4
Lpidmiologie thorique [1] repose sur la modlisation des vne-

ments de sant dans des populations. La thorie mathmatique des pi-
dmies repose sur le paradigme de la contagion interhumaine. Celle-ci
peut tre directe en cas de grippe par exemple. Il est alors possible de
prvoir le nombre de cas dans une population en utilisant le taux de
reproduction de base, cest--dire le nombre de cas secondaires infec-
ts directement par un cas index. Si la contagion se fait par linterm-
diaire dun hte vecteur, moustique par exemple en cas de paludisme,
le mme type dapproche est possible en prenant en compte le trajet
particulier du pathogne.
Il est ensuite possible de reconstituer, laide dquations math-
matiques ou de simulations sur ordinateur, des dynamiques de
transmission dagents infectieux, bactriens ou viraux. La thorie
mathmatique fournit des trajectoires pidmiques dans le temps et
dans lespace. Lorsquelle repose sur des observations initiales, elle
autorise des simulations de scnarios quelle permet dvaluer. Il est
encore possible de proposer des prdictions qui aident des choix poli-
tiques de sant publique, par exemple, la couverture vaccinale mini-
male atteindre pour obtenir un niveau de protection suffisant dans
la population, lge optimal de la vaccination, limpact de fermeture
des locaux scolaires, de certains lieux publics ou des aroports. Ce sont
ainsi des modles mathmatiques qui ont montr linutilit de la fer-
meture des aroports dans le cas de la grippe H1N1, ce qui aurait eu
de trs lourdes consquences conomiques et sociales pour un gain
trs faible, voire nul, sur le plan de la sant des populations.
Lexemple de lpidmie de grippe H1N1 montre cependant la dif-
ficult de ces prvisions initiales. Les premiers modles ont repos
sur les observations de cas survenus au Mexique en avril 2009. Ceux
publis en France par lInstitut de veille sanitaire, en octobre la mme
anne, estimaient que le nombre de dcs pourrait se situer entre
3 000 et 90 000, ce qui tait une fourchette trs large. En dfinitive,

le dcompte fin 2010 a montr 312 dcs. Tous les autres organismes
4 de veille sanitaire dans les pays dvelopps ont galement surestim le
risque, en basant leurs projections notamment sur la plus svre des
pandmies passes (celle de 1918), alors que lon a maintenant observ
que sur les 5 dernires pandmies grippales, 4 avaient eu un impact
modr en nombre, quoiquimportant car touchant plutt des indivi-
dus jeunes. Bien entendu, les prvisions peuvent saffiner avec le temps
et se rapprocher alors de la ralit.
En conclusion, autant lestimation prcoce de limportance dune pi-
dmie est difficile, autant lapport de la modlisation mathmatique
comme aide la dcision dune politique de contrle et de prvention
est souvent prcieux.
Rfrence
1. Flahault A, Spira A (2011) La situation de lpidmiologie en France. Bull Acad
Natle Med (sous presse)
Les logiciels de biostatistiques
Nous donnons, titre indicatif, une liste de logiciels statistiques

couramment utiliss. Dans tous ces logiciels, les avantages et les incon-
vnients sont trs subjectifs. Dans un traitement statistique, la phase
qui prend gnralement le plus de temps est celle de la saisie et du
nettoyage des donnes, bien plus que celle de lanalyse proprement
dite. Nous attirons donc lattention sur la ncessit dune conception
ergonomique du cahier dobservation, afin de faciliter ces tapes.
Selon le volume dinformation saisir, lorganisation de la saisie elle-
mme, un tableur (par exemple Open Office Calc, Microsoft EXCEL)
pourra tre suffisant ; lutilisation de bases de donnes savrera nces-
saire en cas de gros volumes et de questionnaires dpendants (Open
Office BASE, Microsoft ACCESSTM ou SQL ServerTM, MySQLTM). De
plus en plus, les logiciels de statistiques permettent galement de crer
des outils de saisie. On attirera galement lattention sur la disponibi-
lit de solution de saisie distance par exemple avec LIMESurvey qui
permet la saisie par Internet. Finalement, toute base de donnes doit
tre dclare la CNIL et recevoir une autorisation.
Ci-aprs, une liste non exhaustive des logiciels utilisables est donne
par ordre alphabtique. noter que dautres logiciels, non spcifiques,
offrent des capacits statistiques : certains tableurs ainsi que certains
logiciels tourns vers la ralisation de graphiques. Pour des analyses
simples, le choix du logiciel nest pas essentiel, tous les logiciels propo-
sant au minimum les tests usuels. Le choix devra tre fait avant tout
en fonction des ressources disponibles, de lapptence envers lunivers
informatique, et des possibilits locales de soutien !
Biostatgv : Le site internet Biostatgv (http://www.u707.jussieu.fr/
biostatgv) permet de raliser la plupart des tests classiques. Les calculs
sont faits dans le logiciel R (voir ci-aprs). Il sagit donc dune solution
simple pour effectuer des analyses descriptives, ainsi que des tests de
diffrence, dassociation. Il est galement possible de calculer la taille
des essais ou nombre de sujets.
R : Le logiciel R est un logiciel libre, gratuit, disponible sur le site
CRAN (http://cran.r-project.org). Ce logiciel est trs utilis dans le
milieu acadmique. Il peut tre enrichi facilement par un systme de
bibliothques qui apporte des fonctionnalits supplmentaires. Linte-

raction avec le logiciel prend la forme de scripts ou programmes
qui vont indiquer les traitements ou transformations que lon sou-
haite appliquer aux donnes. Il est gratuit, extensible et les mthodes
modernes sont rapidement disponibles. Il existe des extensions
(RCommander) dont le but est de rendre lutilisation plus ergono-
mique, la plupart des commandes tant ralises au clavier.
S-plusTM : Il sagit dun logiciel commercial. S-plus est trs semblable,
dans ses capacits, au logiciel R dcrit plus haut. Il bnficie dune
interface plus conviviale, permettant de raliser un bon nombre dop-
rations en utilisant la souris (lecture des donnes, analyses standards),
cependant le mode dinteraction privilgi reste le clavier. Il bnfi-
cie dune compatibilit trs bonne avec le logiciel R qui permet de
bnficier des librairies dveloppes pour ce dernier. Laccs rapide
aux innovations statistiques est donc possible par le biais de librairies
additionnelles.
SASTM : le logiciel SAS est un logiciel commercial, dit par la compa-
gnie SAS. SAS implmente une trs grande varit de mthodes statis-
tiques. Il est particulirement performant dans le traitement de gros
volumes de donnes, et trs utilis dans le milieu industriel. Linter-
action avec le logiciel a lieu principalement sous la forme de scripts ou
de programmes qui dcrivent les traitements ou les transformations
que lon souhaite appliquer aux donnes.
SPSSTM : Il sagit dun logiciel commercial, dit par IBMTM. Labord de
SPSS ressemble un tableur, ce qui rendra le logiciel familier et dimi-
nuera la courbe dapprentissage initiale. SPSS permet de raliser les
tests classiques rencontrs en recherche clinique et en pidmiologie.
Linteraction peut aussi avoir lieu par le biais de scripts ou petits
programmes entrs au clavier.
STATATM : Il sagit dun logiciel commercial, dit par StataCorpTM.
Ce logiciel propose un choix important de mthodes classiques et
modernes. Il met galement en avant la possibilit de crer de nouvelles
analyses par la programmation. Linteraction a lieu principalement par
le clavier, plus que par la souris.
Quelques notations en biostatistiques
On utilise gnralement les lettres majuscules (X, Y, Z, P, etc.) pour

dsigner des variables alatoires. Par exemple, la proportion P de
mtastases hpatiques chez les malades atteints dun cancer est une
variable alatoire (quantitative) qui prend des valeurs p0 diffrentes
dans chaque chantillon de malades observs. De mme, le taux de
cholestrol (Tc) dans une population franaise, etc. Si lon mesure
ces variables, par exemple sur un groupe de sujets ou de malades ou
sur une srie dexpriences (cest--dire sur un chantillon), la valeur
que prend la variable scrit en minuscules : s est une mesure (ou
ralisation) de X, y est une mesure ou ralisation de Y, etc.
La notation est diffrente selon que lon indique par une lettre grecque
ce que serait la vraie valeur qui est rarement connue, par exemple
le pourcentage S de nouveau-ns de sexe masculin dans la population
franaise qui est de 51,5 % ou bien par une lettre latine minuscule, la
valeur mesure, dite estime dans un groupe de personnes que lon
peut considrer tre des chantillons de cette population (tableau I).
Tableau I Notation des valeurs selon quelles sont relles

ou une estimation sur un chantillon.
Valeur estime
Vraie valeur
sur un chantillon
Probabilit S p
Complment de la probabilit
1S q=1p
inverse
Moyenne P m
Variance V s
cart-type V s
Coefficient de corrlation U r
Coefficient de concordance N k
Les grandes lois de probabilit se notent avec des lettres majuscules cur-
sives avec, entre parenthses, les paramtres de la loi correspondante :
loi normale N (, V) ;
loi binomiale B (n, S) ;

loi de Poisson P (O).
Dautres notations ont t utilises :

6 x reprsente la somme des valeurs x de lchantillon ;
i reprsente un individu, i 1, le premier de lchantillon, i 2 le
second, etc. ;
xi est la variable mesure chez lindividu i correspondant ;
N est la taille de leffectif de lchantillon tudi ;
C24 reprsente une combinatoire, cest--dire dans cet exemple le
nombre de faons de classer ou de ranger deux sujets parmi une liste
de quatre ;
sA signifie la variance (s) de lchantillon A ;
sA signifie lcart-type (s) de lchantillon A ;
X veut dire la valeur absolue de X (cest--dire que cette valeur
soit + X ou X) ;
! est une factorielle, cest--dire le produit dont les facteurs sont tous
les entiers successifs gaux ou infrieurs un nombre donn. Par
exemple : ! 4 = 4 3 2 1 = 24.
Lexique
Les * renvoient un autre mot.

Les mots entre [ ] sont les termes anglais correspondants.
A
Actuarielle (mthode) [actuarial method]
Mthode destimation adapte aux variables censures* (survie, rci-
dive, etc.). Elle repose sur le principe des probabilits conditionnelles*.
Les taux de survie sont valus intervalles rguliers, par exemple tous
les 6 mois, tous les ans.
Ajustement [adjustment]
Ceci consiste prendre en compte linfluence dune tierce variable
dans la mesure de la corrlation entre deux variables dintrt. Le but
est de dterminer si la corrlation persiste lors de cet ajustement. Il est
la base des tudes multifactorielles*.
Alatoire (variable) [random]
Des variables sont dites alatoires lorsque leur valeur dpend de lin-
dividu sur lequel elles sont mesures. Elles se diffrencient ainsi des
constantes, plus souvent prsentes en physique ou en mathmatiques.
Alpha, (risque)
Dsigne le risque de premire espce*.
Ambivalence (clause d) [ambivalence clause]
Dans un essai randomis* les sujets inclus doivent pouvoir recevoir
lune ou lautre des interventions que lon cherche comparer.
Analyse
en composante principale [principal component analysis]
Mthode danalyse multifactorielle* descriptive qui permet de dter-
miner les variables qui contribuent le plus la variabilit observe,
ainsi que les groupes de variables corrles.
discriminante [discriminant analysis]

Mthode danalyse multifactorielle qui permet, laide de covariables*
de dterminer un score numrique permettant la discrimination
optimale entre deux groupes de sujets A et B.
factorielle de correspondance
Mthode danalyse multifactorielle* descriptive applicable si les
variables tudies sont qualitatives. Son principe est assez proche de
celui des analyses en composante principale*.
intermdiaire [intermediate analysis]
Dans un essai randomis*, analyse ralise avant la fin de lessai. Nces-
site de rflchir aux tests rpts et au contrle du risque de premire
espce.
multifactorielle [multivariate analysis]
Slectionne les covariables indpendantes entre elles et lies la
variable que lon cherche expliquer. Elles reposent sur le principe
dajustement*. Voir : rgression multiple*, rgression logistique*,
modle de Cox*, analyse discriminante*.
squentielle [sequential analysis]
Il sagit dune procdure permettant les analyses intermdiaires.
Consiste faire une analyse cumule aprs chaque vnement ou aprs
un groupe dvnements.
sous-groupes
Analyse ralise sur une partie dun chantillon. Ncessite de corriger
pour des tests multiples pour contrler le risque de premire espce.
unifactorielle [univariate analysis]
tude des liens entre une variable expliquante (ou covariable) et une
de variance [ANalyis Of Variance ANOVA]
Compare les moyennes de plus de deux groupes dans des chantillons
indpendants (ANOVA un facteur) ou apparis* (ANOVA deux
facteurs). Cest une gnralisation du test t de Student plus de deux
groupes.
Appari (chantillons)
Qualifie deux chantillons dans lesquels chaque observation correspond
prfrentiellement une de lautre chantillon.
Par exemple pression artrielle diastolique et systolique ou encore
cholestrolmie avant et aprs traitement.
Lexique 281
Association (force d)
Mesure lintensit des liens qui peuvent exister entre deux variables.
Voir : coefficient de corrlation*, risques relatif*, rapports de cote
[odds-ratio]*.
Aveugle (prescription en) [blind]

Dans un essai randomis*, ignorance par le prescripteur de ce que le
patient reoit. Si patient et mdecin sont dans cette ignorance (seul un
tiers a cette connaissance) on parle de double aveugle ou de double
insu .
Bayes
Pasteur britannique (XVIIIe sicle), auteur dun thorme qui permet
dinverser le conditionnement dans une probabilit conditionnelle.
Il permet par exemple de relier les valeurs prdictives dun test la
sensibilit et spcificit de celui-ci. Voir : sensibilit, spcificit, valeurs
prdictives.
beta, (risque) [beta type of error]

Dsigne le risque de deuxime espce*.
Bilatral (test) [two tailed or two sided analysis]

Se dit dun test lorsque lhypothse alternative ne privilgie pas une
direction pour la diffrence, cest--dire ne teste pas spcifiquement
une augmentation ou une diminution, mais lune ou bien lautre de
ces possibilits. Cest la forme privilgie des tests.
Unilatral*.
Cas-tmoins (enqute) [case control study]

Protocole emblmatique de ltude pidmiologique. Les participants
sont inclus sur la base de leur statut vis--vis de la maladie dintrt, et
non pas sur lexposition un facteur de risque. On a donc un groupe
de cas , prsentant la maladie ; un groupe de tmoins qui ne la
pas. Lanalyse consiste comparer la frquence dexposition entre ces
deux groupes.
Causalit [causality]
Relation de cause effet entre un vnement et un autre. Une ques-
tion importante en pidmiologie est de dcider si une association
observe est causale.
Censure (variable) [censored data]

Qualifie la dure jusqu un vnement dintrt, lorsque le suivi est
interrompu avant la ralisation de lvnement.
Ex : la dure de survie est censure si le patient nest pas suivi jusqu
son dcs.
Chi carr () [Chi square]

Test statistique semi-paramtrique pour tester lexistence dune
association entre des variables catgorielles, qualitatives.
Clause dignorance
Dsigne le secret dattribution dans un essai randomis*.
Cochran (test de) [Cochran Q test]

Test statistique pour estimer lassociation entre des variables qualitatives
en ajustant sur une tierce variable*.
Coefficient de corrlation [coefficient of correlation]

Valeur permettant lestimation du degr dassociation entre deux
variables quantitatives. Le coefficient va de -1 1, la valeur 0
correspondant labsence dassociation.
Coefficient kappa () [Kappa coefficient]

Coefficient permettant de mesurer la concordance en excs du hasard.
Coefficient de Mahalanobis [Mahalanobis coefficient]

Distance standardise utilise notamment dans les analyses
discriminantes*.
Coefficient de rgression partielle [coefficient of partial regression]

Mesure la relation mathmatique entre deux variables.
Cohorte (tude de) [cohort study]

tude longitudinale dun chantillon de sujets les uns exposs un
risque, les autres non exposs.
Combinaison [combination]
Nombre de faons de rpartir k succs parmi n tentatives.
Comparaison historique [historical comparison]

Dsigne une tude o les chantillons compars ont t slectionns
des moments diffrents dans le temps.
Composante principale (analyse en*)

Voir analyse.
Lexique 283
Concordance [concordance]
Mthode dapprciation de laccord entre plusieurs observateurs
concernant un mme patient.
CONSORT [Consolidated standard of reporting trials]

Ensemble de recommandations pour lcriture dun article dtaillant
les rsultats dun essai randomis.
Continue (variable) [continuous variable]

Se dit de variables quantitatives prenant des valeurs relles.
Corrlation (coefficient de)

Coefficient de corrlation*.
Corrlation partielle [partial correlation]

Mesure dassociation entre deux variables quantitatives ajuste sur des
variables tierces.
Courbe actuarielle [Actuarial curve]

Mthode actuarielle*.
Courbe de Kaplan Meier [Kaplan Meier curve]

Kaplan-Meier*.
Courbes de rpartition
Pour variables quantitatives dont les valeurs sont portes en abscisse et
les frquences relatives cumules en ordonnes.
Courbe ROC [receiver operating characteristic]

En ordonnes : sensibilit dun examen ; en abscisse : 1 - la spcificit,
estimes pour diffrentes valeurs seuil de lexamen.
Courbe de survie [survival curves]

Figuration graphique de variables censures : actuarielles*, Kaplan
Meier*.
Cot-bnfice (tude) [cost-benefit analysis]

Relie les cots ses consquences exprimes en units montaires.
Cot-efficacit (tude) [cost-effectiveness analysis]

Destine relier les cots dune action mdicale ses consquences
exprimes en units physiques (critre defficacit).
Cot-utilit (tude) [cost-usefulness analysis]

Relie les cots dune action mdicale ses consquences exprimes en
variables qualitatives, nombre dannes de vie gagnes, annes-qualit
de vie, etc.
Covariable [covariable]
Dsigne habituellement des variables expliquantes dans une analyse
multifactorielle*.
Variable expliquante*.
Cox (modle de) [Cox model]
Mthode danalyse multifactorielle* pour des variables censures*.
Critre de jugement
Rsultat dun examen, dun traitement, dun pronostic ou la survenue
dune maladie sur lequel est base une comparaison entre chantillons.
On distingue critre principal et secondaire.
D
Date des dernires nouvelles [date of last news]
Dans ltude de la survie, date de lvnement (dcs, rcidive, etc.) ou
date laquelle le sujet a t revu pour la dernire fois.
Date de point [date of follow-up]
Dans ltude de la survie, date laquelle on cesse le suivi. Elle
correspond la date de censure pour tous les sujets nayant pas fait
lvnement dintrt.
Degr de libert [degree of freedom]
Paramtre associ certaines distributions, comme le chi-carr, le
Student. Le nombre de degr de libert permet de choisir le seuil de
rejet de lhypothse nulle dans les tests correspondants.
Delphi
La technique Delphi est une mthode de dtermination de consensus
partir de jugements rpts dun groupe dexperts.
Dpendante (variable) [dependent variable]
Variable dont la valeur se modifie avec les modifications dune ou
dautres variables considres dans ltude.
Descriptives (mthodes multifactorielles) [multivariate descriptive
methods]
Ces analyses, en composante principale, factorielle de correspondance
situent sur un plan les covariables standardises.
Deuxime espce (risque) [beta type of error]
Risque beta*.
Discontinue (variable) [discontinuous variable]
Se dit de variables quantitatives prenant des valeurs entires.
Lexique 285
Discrte (variable)
Variable discontinue*.
Discrtisation [discretisation]
Transformation dune variable continue en une variable discrte par
arrondi.
Discriminante (analyse) [discriminant analysis]
Analyse discriminante*.
Double aveugle [double blind]
Voir Aveugle*.
E
cart-type [standard deviation]
Racine carre de la variance. Sil sagit de la valeur thorique (de la
population) on la note s, sil sagit dune valeur estime partir dun
chantillon, on note s.
chantillon appari
Voir Appari*.
chelle visuelle analogique [visual analogic scale]
Moyen de mesure de critres subjectifs de jugement.
Effectifs (dune tude) [number]
dans un essai randomis, la dtermination des effectifs est ncessaire
pour limiter le risque de deuxime espce.
pidmiologie [epidemiology]
tymologiquement, tude des pidmies des maladies transmissibles.
Aujourdhui, dsigne ltude des maladies, de leurs facteurs de risque,
et des interventions dun point de vue populationnel.
pidmiologie analytique
tudie les facteurs susceptibles de favoriser la survenue de maladies.
Synonymes : pidmiologie explicative et prdictive.
pidmiologie descriptive
Synonyme de connaissance des indicateurs de sant.
pidmiologie explicative et prdictive
Epidmiologie analytique*.
Enqute (ou tude) cas-tmoins [case control study]
Cas-tmoins (enqute)*.
Enqute (ou tude) longitudinale [cohort study]

Cohorte*.
Enqute (ou tude) transversale [cross-sectional study]

tude pidmiologique descriptive ralise sur un chantillon donn,
un moment donn.
quivalence
Lquivalence est obtenue lorsque la non-infriorit* est montre dans
les deux sens. Lquivalence nest pas synonyme de test non significatif.
Erreur de premire espce [alpha type of error]

Risque de premire espce*.
Erreur de deuxime espce [beta type of error]

Risque de deuxime espce*.
Erreur de troisime espce [gamma type of error]

Risque de troisime espce. Trs peu usit.
Essai crois [crossover trial]

Administration un sous-groupe dun traitement A, puis dun
traitement B et un autre sous-groupe du traitement B, puis A.
Essai randomis [randomized study]

Consiste, au sein dune population, constituer deux (ou plus) sous-
groupes par tirage au sort pour comparer entre eux deux (ou plus)
examens complmentaires ou deux (ou plus) traitements quils soient
mdicaux, chirurgicaux ou un traitement mdical et un traitement
chirurgical.
thique (dun essai randomis) [ethical considerations for a randomized

study]
Il nest licite dentreprendre un essai randomis qu la double condi-
tion presque paradoxale : la fois esprer quun traitement est plus
efficace quun autre (ou quun placebo) et douter de cette hypothse.
tude
cot-bnfice
Relie les cots ses consquences exprimes en unit montaire.
cot-efficacit
Relie les cots dun traitement ses rsultats en termes de sant
exprims en units physiques.
Lexique 287
cot-utilit
Relie les cots dune action mdicale ses consquences en termes
mdicaux.
multicentrique [multicentric study]
tude mene en commun par plusieurs centres ou plusieurs quipes.
multifactorielle [multivariate study]
Estime les liens entre des variables expliquantes et une variable que
lon cherche expliquer.
(ou enqute) transversale * [cross-sectional study]
multifactorielle [univariate study]
Estime les liens entre une variable expliquante et une variable que lon
cherche expliquer.
(ou enqute) longitudinale * [cohort study]
Exclus-vivants
Dans lestimation de la survie, les exclus-vivants sont les sujets qui ne
sont pas dcds au moment de la date de point de ltude, celle o
lon cesse de recueillir les nouvelles.
Expliquante (variable) [covariable]

Covariable*.
Explique (variable)
Variable que lon cherche expliquer, notamment dans une rgression.
Exposs
En pidmiologie dans une enqute prospective, sujets exposs un
facteur de risque prsum.
Facteurs de confusion
Facteur responsable de la liaison observe entre deux autres variables.
Un facteur de confusion peut mener une conclusion errone dans
une tude pidmiologique.
Factorielle
Rsultat de la multiplication de tous les nombres entiers infrieurs ou
gaux ce nombre (en excluant le zro). On utilise le symbole !
pour noter cette opration.
Fisher (test exact de) [Fisher exact test]

Test statistique non paramtrique pour estimer les liens entre des
variables qualitatives dans des chantillons ou groupes indpendants.
Le test du chi-carr est une trs bonne approximation du test de Fisher
lorsque les chantillons sont grands.
Fonction de rpartition
Synonyme : frquences relatives cumules.
Frquence cumule
Synonyme : fonction de rpartition.
Friedman (test de) [Friedman test]

Test statistique non paramtrique pour comparer les distributions de
plusieurs chantillons apparis.
Gauss (loi) [Gaussian distribution]

Loi normale*.
Gold standard [gold standard]

Stricto sensu talon or. Anglicisme pass dans le langage courant, qui
dsigne le test de rfrence, celui qui permet de dterminer la prsence
ou non de la maladie.
Grades de recommandation [degrees of recommandation]

Niveaux de preuve scientifique. Ils sont exprims par des lettres, le
meilleur niveau correspondant la lettre A.
Historique (comparaison) [historical comparison]

Comparaison historique*.
Hypothse nulle [null hypothesis]

Dans un test statistique, lhypothse qui correspond au statu quo ,
cest--dire labsence de diffrence, de corrlation, etc.
Ignorance (clause d) [clause of ignorance]

Dans un essai randomis, cest le fait quau moment de linclusion du
sujet dans lessai, le prescripteur ignore le traitement qui sera allou
au sujet.
Lexique 289
Incidence [incidence]
En pidmiologie, nombre de nouveaux cas dune maladie, recenss
pendant une priode de temps donne (en gnral annuelle).
Insu [blind]
Aveugle*.
Intention de traiter (analyse en) [intention to treat analysis]

Au terme dun essai randomis, analyse des rsultats selon le traite-
ment qui a t thoriquement allou par le tirage au sort, de tous les
sujets randomiss.
Interaction [interaction]
On dit quil y a interaction entre deux facteurs de risque lorsque le
risque relatif associ la prsence conjointe de ces deux facteurs diffre
de celui qui serait confr indpendamment par chacun des facteurs
de risque.
Intermdiaire (analyse) [intermediate analysis]

Analyse intermdiaire*.
Intervalle de confiance [confidence interval]

Estimation, partir dun pourcentage observ sur un chantillon, de la
fourchette dans laquelle aurait 95 % de chances de se situer la ralit.
Kaplan-Meier (mthode) [Kaplan-Meier estimation]

Mthode non paramtrique destimation de la probabilit de survie.
Lestimation repose sur le principe des probabilits conditionnelles.
La probabilit de survie est recalcule aprs chaque vnement, en pre-
nant en compte le nombre de personnes censures. Cest la mthode
dtude de la survie la plus utilise en pidmiologie clinique.
Kappa (coefficient) [Kappa value]

Coefficient qui permet de quantifier la concordance entre deux
mesures.
Kappa pondr (coefficent)

Coefficient qui permet de quantifier la concordance entre deux
mesures, en donnant moins de poids aux discordances lgres.
Kruskall-Walis (test de) [Kruskall-Walis test]

Test statistique non paramtrique pour comparer la distribution dune
variable quantitative entre plus de deux chantillons. Utilise dans les
mmes circonstances que lanalyse de Variance, extension du test de

Wilcoxon-Mann-Whitney plus de deux chantillons.
Laplace-Gauss (loi de) [Gaussian distribution]

Loi normale*.
Loi binomiale [binomial distribution]

Loi de distribution de variables discontinues lorsquelle sapplique
des donnes qui ont des caractristiques binaires.
Loi normale [Gaussian distribution]

Loi de distribution de variables quantitatives continues dfinie par la
moyenne et la variance
Loi de Poisson [Poisson distribution]

Loi de distribution de variables discontinues. Dans le cas dvnements
rares, cest une bonne approximation de la loi binomiale.
Logistique (rgression) [logistic regression]

Rgression logistique*.
Logrank (test du) [Logrank test]

Test statistique paramtrique pour estimer les liens entre des variables
qualitatives et des variables censures.
Longitudinale (tude) [cohort study]

Cohorte*.
McNemar (test de) [McNemar test]

Test statistique paramtrique pour comparer le pourcentage de succs
lorsque les chantillons sont apparis.
Mahalalobis (coefficient de) [Mahalanobis coefficient]

Coefficient de Mahalanobis*.
Mann-Whitney (test de) [Mann-Whitney test]

variable quantitative entre deux chantillons. Sutilise dans les mmes
circonstances que le test de Student*. Aussi connu comme test de
Wilcoxon-Mann-Whitney.
Lexique 291
Mantel-Haenszel (test de) [Mantel-Haenszel test]

Test statistique non paramtrique pour estimer les liens entre plusieurs
variables qualitatives et une variable qualitative. Aussi connu comme
test de Cochran Mantel Haenszel.
Mdiane [median]
Valeur qui partage lchantillon ordonn en deux parties deffectif
gales.
Mta-analyse [meta-analysis]
tude synthtisant toutes les donnes recueillies sur le sujet et se
diffrenciant dune simple synthse bibliographique.
Mthode actuarielle [actuarial method]

Actuarielle*.
Mthodes descriptives [descriptive methods]

Types danalyses multifactorielles comme lanalyse en composante
principale ou lanalyse factorielle de correspondance.
Mthode de Kaplan-Meier [Kaplan-Meier estimation]

Kaplan-Meier*.
Mthodes prdictives [predictive methods]

Types danalyses multifactorielles.
Modle de Cox.
Cox*.
Moyenne arithmtique [mean]

Somme des valeurs observes divise par le nombre de variables
observes.
Multicentrique (tude) [multicentric study]

tude multicentrique*.
Nombres au hasard [hazard numbers]

Sries de nombres obtenus par une procdure alatoire.
Nominale (variable)
Variable qualitative. Elle peut tre deux ou plusieurs classes et, dans
ce dernier cas tre ordonne ou non.
Non-inferiorit
La non-infriorit dun traitement est montre lorsque lefficacit nest
pas infrieure de plus dune marge, fixe a priori, de lefficacit du
traitement de rfrence.
Normale (loi) [Gaussian distribution]

Loi normale*.
Odd n.m.
Terme anglais signifiant cote .
Odds-ratio
Anglicisme signifiant rapports de cotes .
Ordonne (variable qualitative)

Variable qualitative dont les valeurs ont un ordre logique ; par exemple
Absent / Faible / Moyen / Fort pour lexpression dun
symptme.
P (ou P value)
Probabilit quune diffrence gale la diffrence observe avait, dtre
obtenue sil ny avait pas de diffrence entre les interventions compa-
res. Egalement appel degr de signification.
Participation une tude (temps de) [contribution period]

Dlai entre la date des dernires nouvelles et la date dorigine.
Pas pas (analyse) [stepwise analysis]

Mthode danalyse multifactorielle qui consiste juger squentielle-
ment lintroduction ou le retrait des variables explicatives.
Pearson (coefficient de corrlation de) [Pearson correlation coefficient]

Test statistique paramtrique pour estimer lassociation entre deux
variables quantitatives.
Permutation de nombres alatoires (table de) [permutation random

number table]
Tables utilises pour rpartir de manire alatoire des sujets inclus
dans un essai randomis afin de produire un tirage au sort quitable.
Lexique 293
Perdus de vue (sujets) [lost of follow-up]

Sujets en vie lors de la date des dernires nouvelles si elle est antrieure
la date de point.
Pertinence clinique [clinical relevance]

Permet de sassurer que le rsultat dun essai randomis a un effet
suffisamment important.
Peto (mthode de) [Peto method]

Mthode applique dans les mta-analyses pour calculer les rap-
ports de cotes selon un modle effet fixe, cest--dire en labsence
dhtrognit.
PICO acronyme [pour Patient Intervention Control Outcome].
Placebo (effet) [placebo effect]

Effet, souvent positif, psychologique, physiologique ou psychophysio-
logique de tout produit non li au principe actif.
Point (date de) [date of follow-up]

Date de point*.
Poisson (loi de) [Poisson distribution]

Loi de Poisson*.
Pondration [weighting]
Attribution chacun des lments servant laborer une moyenne ou
un indice ou un score, dun coefficient qui exprime son importance
relative.
Prcision
En statistique, valeur correspondant la demi-largeur de lintervalle
de confiance.
Prcision diagnostique [diagnostic accuracy]

Estimation de la valeur globale dun test diagnostique.
Prdictives (mthodes multifactorielles) [multivariate analysis]

Multifactorielle (analyse)*.
Prdictives (valeurs) [predictive values]

Probabilits au vu du rsultat dun test que le sujet ait ou nait pas la
maladie explique par ce test.
Premire espce (risque de) [alpha risk]

Risque de premire espce*.
Prvalence [prevalence]
Dans une population, nombre de cas (anciens et nouveaux) observs
un instant donn.
Probabilits baysiennes [bayesian probabilities]

Bayes*.
Probabilits conditionnelles [conditional probabilities]

Probabilit dun vnement si un autre vnement est prsent.
Propension (score)
Score de propension*.
Puissance (dun test) [test powerfull]

Dans une comparaison, complment du risque de deuxime espce
(1 ).
Qualit de vie [quality of life]

La qualit de vie applique la sant (Health Related Quality of Life)
est estime par des scores gnraux ou plus ou moins spcifiques dune
maladie ou dun ensemble de maladies.
QUOROM acronyme [pour quality of reporting of meta-analyses]

Liste ditems laquelle doit satisfaire une mta-analyse dessais
randomiss.
Randomisation [randomisation]
Essai randomis*.
Rangs [ranks]
Les tests non paramtriques reposent sur la notion de rangs et
saffranchissent ainsi de la contrainte de distribution normale qui est
exige pour utiliser des tests paramtriques.
Rapports de hasards [hazards ratio, HR]

Risque relatif de survenue dun vnement dans une analyse
multifactorielle ralise selon le modle de Cox.
Rapports de cotes [odds ratio]

Cette mesure approche de faon correcte le risque relatif dont lutilisa-
tion nest motive que pour des raisons mathmatiques.
Lexique 295
Rapport de vraisemblance [likelihood ratio]

Dans un examen complmentaire, rapport du pourcentage de vrais
positifs chez les malades celui du pourcentage de faux positifs
chez les sujets inclus dans ltude, mais qui nont pas la maladie.
Rfrentiel [frame of reference]

Critre externe de jugement de la prsence ou non dun signe ou dune
maladie.
Rgression [regression]
linaire [linear regression]
tudie et mesure la relation mathmatique qui peut exister entre
deux (rgression simple) ou plusieurs (rgression multiple) variables,
lorsque la variable dpendante est quantitative.
logistique [logistic regression]
Mthode danalyse multifactorielle utilisable lorsque la variable expli-
que est qualitative deux classes, les covariables tudies pouvant tre
quantitatives ou qualitatives.
multiple [multiple linear regression]
Rgression intgrant plusieurs variables explicatives.
partielle (coefficient de) [coefficient of partial regression]
Coefficient de rgression partielle*.
simple [single linear regression]
Rgression linaire*.
REVMAN [Review Manager]

Logiciel dvelopp par la Cochrona collaboration comme aide la
recherche de revue systmatique ou en vue dune mta-analyse. www.
cc-ims.net/RevMan/download.htm.
Risque [risk]
absolu [absolute risk]
Mesure de frquence du nombre de nouveaux cas sur leffectif de la
population tudie pendant une priode donne (incidence) ou de cas
existants un instant donn (prvalence).
attribuable [attributable risk]
Fraction tiologique dun risque pouvant tre soit celui chez les sujets
exposs au risque, soit et le risque attribuable en population.
de premire espce [alpha type of error]
Alpha*.
de deuxime espce [beta type of error]

Beta*.
de troisime espce [gamma type of error]
Dans une comparaison, risque de conclure tort quun lment de la
comparaison est suprieur un autre alors que cest linverse.
en excs
Diffrence entre le risque de survenue dune maladie chez les sujets
exposs au risque et le risque de cette mme maladie chez les sujets
non exposs.
relatif [relative risk]
Rapport entre le risque chez les sujets exposs au risque et le risque
chez les sujets non exposs.
Risques proportionnels (modle de) [proportional hasard model]

Hypothse ncessaire lutilisation du modle de Cox pour les donnes
censures. Cox*.
ROC (courbe) [receiving operative characteristic curves].

Courbe ROC*.
Squentielle (analyse) [sequential analysis]

Analyse squentielle*.
Sensibilit [sensitivity]
Probabilit quun signe diagnostique soit prsent chez un individu
atteint dune maladie.
Score pronostique [prognosis score]

Estimation dune probabilit pronostique, base sur des coefficients
calculs partir des risques relatifs dune tude multifactorielle.
Score de propension [propensity score]

Il dsigne la probabilit quavait une personne de recevoir une
intervention dans une tude observationnelle.
Score de qualit de vie [score of life quality]

Qualit de vie*.
Secret dattribution [concealment of allocation]

Dans un essai randomis, au moment ou un sujet est inclus dans lessai,
personne ne doit savoir a priori du traitement qui lui sera allou.
Lexique 297
Spearman (coefficient de corrlation) [Spearman coefficient]

Test statistique non paramtrique pour estimer lassociation entre
deux variables quantitatives.
Spcificit [specificity]
Probabilit quun signe diagnostique soit absent chez un individu non
atteint dune maladie.
Standard de rfrence externe [frame of reference]
Rfrentiel*.
Standardisation [standardization]
Action de rapporter une mesure son cart-type.
STARD [Standard for reporting of diagnostic accuracy]
Liste ditems pour amliorer la qualit des publications sur les moyens
diagnostiques.
Statistiquement significative (diffrence) [statistically significant]
Dans une comparaison, lorsque la diffrence observe est juge incom-
patible avec le seul effet du hasard.
Stratification [stratification]
Dans un essai randomis, si un facteur de pronostic est important, au
lieu de faire un tirage au sort sur lensemble de cette population, on
fait un tirage au sort parmi les malades qui ont ce facteur de pronos-
tic et un autre chez ceux qui ne lont pas. On dit dans ce cas que la
randomisation est stratifie sur ce facteur.
STROBE [Strengthening the reporting observational studies in
epidemiology]
Grille dlaboration et dvaluation des tudes observationnelles.
Student (test de) [Student test]
Test statistique paramtrique pour comparer la moyenne dune
variable quantitative entre deux chantillons.
Supriorit
La dmonstration de supriorit dun traitement sur un autre est
obtenue en cas de test statistique significatif.
Survie actuarielle [actuarial survival]
Actuarielle (mthode)*.
Survie cumule [cumulative survival]
Taux de survie un temps t qui est le produit des taux de survie ant-
rieurs par le taux de survie dans le dernier intervalle.
t (test) [t test]
Test de Student*.
Taux dincidence.
Incidence*.
Test bilatral [bilateral test]

Bilatral*.
Test paramtriques [parametric tests]

Tests utiliss lorsque les variables tudies suivent une distribution que
lon peut dcrire mathmatiquement partir de paramtres comme la
loi normale.
Tests non paramtriques [non parametrics tests]

Tests qui ne demandent pas dhypothse sur la distribution des
variables tudies.
Tirage au sort [randomisation]

Base des essais randomiss assurant les meilleures chances que les
groupes compars soient similaires.
Transversale (tude)
Epidmiologie descriptive*.
Tronque (variable) [censored data]

Censure (variable)*.
Unilatral (test) [unilateral test]

Se dit dun test lorsque lhypothse alternative privilgie une direction
pour la diffrence dintrt : augmentation ou diminution. Bilatral*.
Valeurs prdictives [predictive values]

Prdictives (valeurs)*.
Variable [variable]
alatoire [random variable]
Variable dont les mesures sont soumises des fluctuations dchan-
tillonnage.
Lexique 299
apparie [match variable]

Appari*.
censure (ou tronque) [censored variable]
continue [continuous variable]
Variables quantitatives qui prennent des valeurs relles avec de nom-
breuses dcimales.
dpendante
Variables explique dans une rgression.
discrte [discrete variable]
Variables quantitatives qui prennent des valeurs entires.
expliquante [explainatory variable]
Variable susceptible dinfluencer une autre variable que lon cherche
expliquer dans une rgression.
Covariable*.
explique (ou dpendante) [explained variable]
Variable que lon cherche expliquer.
qualitative (ou nominale ou catgorielle) [nominal variable]
Variables qui peuvent prendre des valeurs distinctes.
quantitative
Variable numrique.
discrte [discrete variable]
Variable discontinue*.
nominale [nominal variable]
Variable qualitative*.
tronque [censored variable]
Variance
Valeur quantifiant ltendue de la dispersion des valeurs autour de la
moyenne.
Vraisemblance (rapport de) [likelihood ratio]
Rapport de vraisemblance*.
W
Wilcoxon (test) [Wilcoxon rank sum test]
variable quantitative entre deux chantillons. Mann-Whitney*.
X
X (ou plutt ) [Chi square]
Chi carr*.
Y
Yates (correction de) [Yates correction]
Correction parfois employe dans le test du chi-carr. On prfre
cependant utiliser le test exact de Fisher. Fisher*. Chi carr*.
Format typographiquement par DESK (53) :

02 43 01 22 11 desk@desk53.com.fr
Impression & brochage - France

Numro dimpression : 04495130722 - Dpt lgal : aot 2013
10-31-1470 / Certifi PEFC / Ce produit est issu de forts gres durablement et de sources contrles. / pefc-france.org

Biostatistiques Pour Le Clinicien-Springer

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Biostatistiques Pour Le Clinicien-Springer

Încărcat de

Drepturi de autor:

Formate disponibile

Michel Huguier et Pierre-Yves Bolle

ISBN 978-2-8178-0463-7 Springer Paris Berlin Heidelberg New York

Lutilisation dans cet ouvrage de dsignations, dnominations commerciales, marques de

Maquette de couverture : Jean-Franois Montmarch

Prcautions concernant les traitements

Risque relatif et odds ratio .......................................................... 127

Les comparaisons historiques ................................................ 214

3. Prvention et dpistage .......................................................... 271

Les logiciels de biostatistiques ....................................................... 275

Michel Huguier est professeur honoraire de chirurgie digestive. Il sest

Pierre-Yves Bolle est ingnieur civil des Mines, professeur de biosta-

Michel Huguier et Pierre-Yves Bolle, Biostatistiques pour le clinicien

La plupart des ouvrages de biostatistiques ont un abord trs math-

Un ouvrage indispensable. Pourquoi ?

Michel Huguier et Pierre-Yves Bolle, Biostatistiques pour le clinicien

Un ouvrage accessible tous. Comment ?

Tout travail scientifique, quil soit exprimental ou clinique, doit

Tableau I Les quatre dfinitions fondamentales.

Sur quoi a-t-on travaill ?

En corollaire, pour un lecteur, le contrle de la qualit de ces dfini-

Michel Huguier et Pierre-Yves Bolle, Biostatistiques pour le clinicien

est ais, mme pour un lecteur un peu entran, de reconnatre facile-

Tableau II Les caractristiques des variables.

Les variables qualitatives et quantitatives

Michel Huguier et Pierre-Yves Bolle, Biostatistiques pour le clinicien

quune population similaire celle qui a t dfinie par les critres

lcho-endoscopie et de lcho-Doppler pour valuer lenvahissement

1 Matriel dtude clinique

Comment a-t-on travaill ?

conditions, elles permettent de suivre lvolution, par exemple de

Qui a fait quoi ?

du projet de protocole, du suivi des inclusions et de leur validation

Comment a-t-on travaill ?

Ce que lon a cherch valuer

Les valuations dun outil diagnostique

Les valuations thrapeutiques

appliquer [4]. De plus, les premiers malades que chaque chirurgien

Les facteurs de pronostic et les facteurs de risque

Ce que lon cherche valuer

simuler une mtastase et des mtastases de moins de quelques mil-

1 Les critres de jugement

Il existe plusieurs sortes de variables qualitatives (tableau I).

Tableau I Les variables qualitatives.

Les variables qualitatives sont dites ordonnes sil existe un ordre

Michel Huguier et Pierre-Yves Bolle, Biostatistiques pour le clinicien

Tableau II Lintervalle de confiance (approximation de la loi normale).

soit dans notre exemple :

On devine intuitivement que, plus lchantillon est important (dans

Tableau III Valeurs du coefficient zD en fonction de la probabilit

Probabilit souhaite 90 % 95 % 99 % 99,5 % 99,9 %

Valeurs du coefficient za 1,645 1,960 2,576 2,807 3,291

Dans tout travail faisant tat de variables qualitatives, mesures par

Comme leur nom lindique, les variables quantitatives servent

Variables continues. Distributions.

Michel Huguier et Pierre-Yves Bolle, Biostatistiques pour le clinicien

variables continues, comme la loi log-normale qui est souvent appro-

Tableau I Distribution de la concentration dacide urique srique

3 Simon Poisson (1781-1840) tait un mathmaticien franais.

Fig. 1 Reprsentation graphique dune variable quantitative continue dite

Les valeurs observes peuvent alors tre reprsentes sous forme

Fig. 2 Histogramme reprsentant la distribution des concentrations de lacide

Certains histogrammes sont parfois reprsents avec des largeurs de

Fig. 3 Histogramme avec des largeurs de colonnes diffrentes : les effectifs

Il est encore possible de faire une courbe de frquences relatives