Sunteți pe pagina 1din 48

PLACE DES STATISTIQUES

DANS LA RECHERCHE
MEDICALE

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

PLAN

Dfinition des statistiques

chantillonnage

Mise en place dune tude

Interprtation des rsultats

Analyse des bases de donnes

Mthodes multivaries

Exemples

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Petits chantillons

Grands chantillons

Master Recherche Biologie et Sant

INTRODUCTION

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

La Statistique et les Biostatistiques

La STATISTIQUE : discipline traitant du recueil (plans dexprience,


sondages, ), du traitement et de linterprtation de donnes
caractrises par une grande variabilit.

Partie des mathmatiques appliques, utilisant la thorie des probabilits.


Beaucoup de domaines dapplications

Sondages : enqutes dopinion


Industrie : contrle de qualit
Marketing : scoring, profil de consommateurs
Mdecine : pidmiologie, recherche clinique
..

Statistiques appliques la Mdecine = BIOSTATISTIQUES

Donnes spcifiques : variabilit inter et intra, donnes interprtes,


Mthodes spcifiques : survie, courbes ROC, plans dexprience

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Problmatique actuelle

Rvolution
Informatique

Nouveaux
enjeux

Multiplication des sources de donnes ( SIH, Internet, .)


Explosion des moyens de calculs (PC 4GHz)
Mise disposition de plus en plus de logiciels de plus en plus
volus (SPSS, STATVIEW, S+, STATISTICA, R .)
Politique de Recherche et de Publication
Rigueur exige
Besoin de mthodes exploratoires efficaces (grandes bases de
donnes)

Ncessit dune mthodologie statistique rigoureuse

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Mthodologie statistique

Employer bien sr la " bonne" procdure statistique pendant lanalyse

MAIS cela ne suffit pas

Choisir le bon type dtude


Choisir le bon plan dexprience
Choisir les bons critres de jugement
Qualit des donnes recueillies

Avant l tude

Analyse statistique rigoureuse (tests, modles, )


Bonne interprtation des rsultats

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Fin dtude

Master Recherche Biologie et Sant

Schma gnral dune tude

Projet :
Objectifs,
Bibliographie
Plan danalyse

Echantillon
Recueil des
donnes

Analyse
Descriptive

Analyse
Infrentielle

Interprtation
Rapport

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Lchantillonnage

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Linfrence statistique

On dsire tudier une population P

Principe :

On tire un chantillon E de taille n issu de P


On analyse les caractristiques de E
On gnralise P

Attention !!

E doit tre un chantillon reprsentatif de P


E doit tre de taille suffisamment leve pour pouvoir extrapoler les rsultats

Dfinir trs prcisment la population que lon dsire tudier !!

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Les fluctuations dchantillonnage

Quand on tire alatoirement un chantillon, on a des fluctuations.

Exemple : on sintresse aux 10 premiers tudiants entrant dans lamphi. On


comptabilise 7 femmes et 3 hommes. Peut-on en dduire que 70% des tudiants
sont des femmes ? NON !!!

Soit X le nombre de femmes parmi


les 10 tudiants. On peut montrer que
X suit une loi binomiale de taille 10
et de paramtre 0.5 (on considre que
dans la population totale, les
proportions dhommes et de femmes
sont les mmes) et calculer la
probabilit dobserver 0,1,2,,10
femmes.
Statistiques et Recherche Biomdicale

0.3
0.25

P(X=k)

0.2
0.15
0.1
0.05
0

P. Devos CERIM Sept 2005

10

Master Recherche Biologie et Sant

Les prendre en compte

Comment prendre en compte les fluctuations dchantillonnage ?

1) En vrifiant que lchantillon est reprsentatif (tests dadquation par


exemple)
2) En donnant la marge derreur que lon commet en raisonnant sur un
chantillon (Intervalles de confiance)
3) En matrisant les risques derreurs (puissance)

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Mise en Place dune tude

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Les diffrents types dtudes

tude rtrospective : tude la plus frquente

Pas dinclusion de patients


Collecte de donnes partir des dossiers
Rapide et simple mettre en uvre

Comparabilit des groupes


Qualit des donnes recueillies

tude prospective pilote

En gnral, peu de patients


Qualit des donnes
Sert dterminer des caractristiques pour une tude comparative contrle.

Pas de comparaisons
Rsultats limits

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Les diffrents types dtudes

tude prospective contrle (essai contrl) : Cas le plus complexe

Rsultats fiables (Puissance calcule au dbut de ltude)


Critres dinclusion + Randomisation / Comparabilit des groupes
Critres de jugement dfinis au dbut

tude longue ( en gnral, 3 ans minimum).


Peut tre coteuse

+
-

tude pidmiologique, Cohorte,

Rsultats fiables (Puissance statistique)

Grand nombre de sujets


Suivi au cours du temps (10,15 ans !!)
Multicentrique

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Mise en Place dune tude

Dans tous les cas,


rdaction dun protocole !!
Protocole
Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Conseils pour la Rdaction du Protocole

L'introduction : ce paragraphe a pour objectifs :


de dcrire l'tat actuel des connaissances sur le sujet
d'expliquer le problme scientifique

Les objectifs de l'tude : il s'agit de dcrire en quelques phrases l'objectif principal


de l'tude et les objectifs secondaires. Ces objectifs doivent tre prcis et dduits du
paragraphe prcdent.

La slection des patients : ce paragraphe a pour objectifs :


de dcrire la mthode de recrutement,
de dfinir des groupes ventuels,
de prciser les critres d'inclusion et de non-inclusion.

Les critres de jugement : dfinir prcisment le critre de jugement principal et


ventuellement les critres secondaires : pourcentage de gurison, mesure d'un
paramtre biologique, score, dure de vie, Ce critre conditionne le type d'analyse
statistique.

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Conseils pour la Rdaction du Protocole

Plan d'exprience :
expliciter le plan d'exprience envisag : groupes parallles, plan 2x2, crossover,
nombre de sujets recruts : s'il est bas sur un calcul de nombre de sujets
ncessaires, indiquer les lments du calcul, sinon justifier le nombre choisi
(donnes bibliographiques, tude exploratoire...).
dure prvue de l'tude.

Information recueillie : description des paramtres enregistrs, mode de recueil.

Analyses statistiques : dcrire brivement le type d'analyses statistiques


envisages.

Documents annexes : lettre d'information, consentement clair, rfrences


bibliographiques, cahier d'observation, CV des investigateurs.

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Quelques aspects statistiques

Dtermination du plan dexprience

groupes parallles, plans factoriels


appariement, stratification
cross-over, carr latin

Discussion sur les variables analyses :

critres de jugement (principal et secondaires), dans le cas dun essai clinique


Attention, la multiplication des hypothses et des tests rend la conclusion de ltude
trs difficile : ltude doit tre bti autour de quelques questions prcises

Type danalyses statistiques prvues

Dtermination de la taille des chantillons

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Que veut-on montrer ??

Efficacit ou quivalence ?

Les essais defficacit : on suppose lgalit des traitements et on cherche


rejeter l hypothse
Les essais dquivalence : on considre que deux traitements sont quivalents
si la diffrence entre-eux ne dpasse pas .

Comparaison de moyennes, de frquences, de courbes ?


Test Unilatral ou Bilatral ?

Plan dExprience ?

Nombre de groupes ?
Indpendant / Appari ?
Stratification, facteur de confusion, ?

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Les plans dexprience

De nombreux types de plan d'exprience.

Groupes parallles +++


comparaisons intra-individuelles
Mesures rptes
.

Le choix entre plusieurs plans doit tre fait en tenant compte de leurs
avantages et de leurs inconvnients.
Le choix du plan dtermine :

la mthodologie statistique employer pour l'analyse


le nombre de patients inclure dans l'tude

Un plan d'exprience est choisi de manire optimiser la puissance des tests


statistiques tout en minimisant le nombre de patients inclure dans l'tude.
Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Les Groupes Parallles

Certainement le plan le plus simple et le plus utilis.


L'ensemble des patients est divis en plusieurs groupes
homognes, de mme taille en gnral, de manire avoir une
comparaison statistique la plus "efficace" possible.
Chaque patient reoit un traitement et un seul.
Mthodologie statistique d'analyse simple.(ANOVA 1Facteur)

Attention la comparabilit des groupes de traitements.

La variabilit entre les sujets peut tre importante.

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Les comparaisons intra-individuelles

Dans ce type d'essai, le sujet est son propre tmoin et reoit donc successivement
deux ou plusieurs traitements, dans un ordre alatoire.

Tailles d'chantillon plus faibles, chaque patient tant "utilis" plusieurs fois

Permet de minimiser la variance inter-sujet dans les diffrents stades de


l'exprimentation (efficace si Variance Intra < Variance Inter).

Suppose que le sujet soit dans les mmes conditions dans les diffrentes phases
d'exprimentation

Aucun des traitements administrs au cours d'une phase ne doit influencer les
rsultats de la phase suivante WASH-OUT

Statistiques et Recherche Biomdicale

(priode de "sevrage" )

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Plans Intra-Individuels : 2 Traitements

L'essai crois (cross-over): on compare deux traitements A et B

Chaque patient reoit soit A puis B, ou B puis A.

Indispensable d'tudier simultanment l'effet des traitements mais galement l'ordre


d'administration.

Si plus de deux traitements, le cross-over est trop compliqu et l'on utilise alors le carr
latin
T0
A
X0
Baseline

B
X1

WASH-OUT

X2
Contrle

X3

T0
B
X0
Baseline
Statistiques et Recherche Biomdicale

A
X1

WASH-OUT

P. Devos CERIM Sept 2005

X2
Contrle

X3

Master Recherche Biologie et Sant

Mesures Rptes

2 Groupes : A et B
1 variable numrique X mesure k fois (T1, T2, , Tk)

55

55
50

45

50

45

55

50

45

40

40

40

35

35

35

30

30

30

25

25
1

25
1

Trs utilis !!!!


Mthodologie statistique relativement simple (ANOVA en Mesures Rptes)

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Nombre de cas inclure dans ltude ?


On a dtermin le problme clinique
On a dtermin le(s) critre(s) de jugement
On a dfini le plan dexprience adapt

Pb : combien, doit-on inclure de patients pour rpondre


correctement lhypothse pose ?
On utilise un test statistique
Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Notion de puissance
Master Recherche Biologie et Sant

Notion de puissance dun test

Puissance = F(,N, variabilit = DS)

La variabilit peut masquer la diffrence (2)

Puissance dpend du risque de


premire espce , mais inutile en
pratique car fix 5%

Puissance = F(,N,DS)
En pratique, on estime et DS
et on dduit N

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Notion de puissance dun test

Les deux risques sont antagonistes


= 0 =1
et
=0 =1

En pratique :

on fixe =5%
on se donne sur critres cliniques
on estime (tude pilote)
on a donc la main que sur N :
on calcule N pour assurer = 10% ou 20% (puissance > 80%)

Formules, tables, logiciels


Exemple, pour 2 moyennes :

Statistiques et Recherche Biomdicale

n = 2( z1 + z1 ) 2

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Puissance dun test et Taille dchantillon


Comparaison de deux antihypertenseurs avec :

Diffrence mettre en vidence () : 5mm de mercure


Ecart-type (DS): 10 mm
Risque de premire espce ( ): 5%

1- = 0.9 N1=N2=86

Puissance

0.8

Si N1=N2=30 1- = 0.48

0.6

(1- = puissance)

0.4
0.2
0
0

50

100

150

200

Nombre de Patients par Groupe

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Ne pas confondre :
Conditions dapplication du test
et Puissance du test

Master Recherche Biologie et Sant

Traitement statistique
des donnes

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Le recueil des donnes (Data Management)

Les rsultats statistiques sont fonction des donnes - Problme de la


qualit des donnes

Problme des donnes manquantes (analyses multivaries) !!

Pour certains essais, ncessit de suivre des guidelines (FDA, AMM)

2 approches :

Maximaliste : Guidelines ( double saisie, confrontation et gel de la base)


Minimaliste : logiciel permettant le contrle la saisie (bornes, valeurs autorises )

Approche 1 : Complexe, longue et coteuse - A viter si possible


Approche 2 : Approche minimale, quelque soit lessai.

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Mthodes Statistiques : dfinitions gnrales

INDIVIDU : Objet sur lequel un ou plusieurs caractres peuvent tre observs.

POPULATION : Ensemble des individus pris en considration.

VARIABLE : Proprit servant distinguer les individus d'une population. Un


caractre peut tre qualitatif (attribut) ou quantitatif.
DISCRETES (Nombre limit de valeurs)
QUANTITATIVES
CONTINUES (prend ses valeurs dans un intervalle

VARIABLES
BINAIRES ( Prsent / Absent )
QUALITATIVES

NOMINALES (SEXE, Couleur des Yeux, CSP, )


ORDINALES = SCORE (Notion dordre)

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Les mthodes statistiques

Univarie (moyenne, DS, )

Descriptive
Multivarie (ACP, )

La statistique
Univarie (tests, )

Infrentielle
Multivarie (modles, )

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

La Statistique Descriptive

BUTS :

Contrle de qualit des donnes, descriptifs simples (moyennes, ).


Synthtiser, rsumer, structurer l'information contenue dans les donnes.
Mettre en vidence des proprits de l'chantillon.
Suggrer des hypothses.

Analyses univaries : moyennes, histogramme, box-plot, frquences,

Analyses multivaries =Analyse des Donnes. Permet de traiter des


donnes multidimensionnelles.

Principales mthodes multivaries:

Mthodes de classification : dterminer des sous-groupes homognes


Mthodes factorielles : rduire le nombre de variables par construction d'axes
synthtiques (ACP, AFC, ACM, ...), mais aussi sous-groupes dindividus
2 classes de mthodes souvent complmentaires
Cours N 2

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

La Statistique Infrentielle Univarie

BUT : Valider ou infirmer des hypothses a priori ou formules aprs


une phase exploratoire.

Utilisation de tests statistiques se rfrant des modles probabilistes.

EXEMPLES :

Comparaison de moyennes
ANOVA (+ + + !!!)
Comparaison de frquences
Tests de lois
...

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

STATISTIQUE
DESCRIPTIVE
UNIVARIEE

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Analyse descriptive univarie


3 Objectifs :

Contrle des donnes : Frquences et Box-plots

Calcul des statistiques descriptives : moyenne, .

Prsentation des rsultats :


Moyenne Dviation standard
Frquence avec Intervalle de confiance

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Paramtres statistiques de base

Moyenne :

1 n
= xi
n i =1

2
1 n
xi x )
Variance estime: s =
(

n 1 i =1

Dviation standard : racine carre de la variance

Min, Max, Mdiane, Quartiles, Centiles

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Le Box-Plot ( Bote Moustaches )


X max
0

1,5 (Q3-Q1)

Q3
+
Mdiane

II=Q3-Q1

0 : valeur comprise entre


1.5 et 3 interquartiles
* : valeur suprieure 3 interquartiles

Q1

1,5 (Q3-Q1)

X min

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Reprsentations graphiques

VARIABLES DISCRETES

Femme
45%
Homme
55%

VARIABLES CONTINUES
Homme
Femme

VARIABLES QUALITATIVES
Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Intervalles de confiance 95%

dun paramtre numrique :


si X suit une loi normale

dune moyenne :
quelque soit la loi de X, si n > 30

dune frquence
si np , nq > 10

Statistiques et Recherche Biomdicale

x 1 . 96 DS
1 . 96 DS
x
n
p 1.96

P. Devos CERIM Sept 2005

p(1 - p)
n

Master Recherche Biologie et Sant

Distribution dun paramtre (loi)

Diffrentes formes observables

D
e
n
s
i
t
y

0. 04

0. 02

- 2 2 6 10 14 18 22 26 30 34 38

Modlisation de la distribution : Hypothse de loi

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Tests de Normalit
Hypothses de normalit requise pour
test T, ANOVA
rgression,
Intervalles de confiance (valeurs normales)
-4

-3

-2

-1

SHAPIRO-WILK ( N< 50 ) ou KOLMOGOROV-SMIRNOV ( N> 50 )

TEST D'ADEQUATION DU

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

4 Lois principalement rencontres

Loi normale : modlise des phnomnes observs (poids des bbs) ou


loi limite

Loi Log-normale : quivaut LnX~ N(m,s) (paramtres biologiques)

Loi de Weibull : utilise en fiabilit des matriels ou survie

Loi exponentielle : cas simple de loi de Weibull (survie des ampoules)

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

4 Lois principalement rencontres


0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3

-2

-1

Loi Normale (Laplace-Gauss)

10

12

Loi Log-Normale

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3
0.2

0.2

0.1

0.1

0
0

0.5

1.5

2.5

Loi de Weibull
Statistiques et Recherche Biomdicale

Loi Exponentielle
P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Comparaison de groupes,
quel(s) test(s) utiliser ?

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Comparaison de Groupes

Choix du test statistique Dpend de :

La nature de la variable

Du nombre de groupes

De la taille des groupes

Cas des variables binaires ou qualitatives : Test du ou Fisher exact

Variables numriques : plusieurs cas :

<5 valeurs diffrentes : variables nominales. On utilise des tests de rang (nonparamtriques) tels que les tests de Wilcoxon ou Kruskal-Wallis.

> 5 valeurs diffrentes : on considre que la variable est continue. Choix du test fait
en fonction de plusieurs critres (algorithme suivant)

Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

Comparaison de groupes : variable numrique


Variable continue

2 groupes

ni < 30

n1 ou n2 < 30

n1 et n2 > 30
Ecart-rduit

>2 groupes

X ~ N(m,) (biblio)
OUI

ni > 30

2 parmi les 3 :
1) groupes quilibrs
2) variances gales
3) distributions similaires

NON

Tester variances

homognit
Student

Non
homognit
Wilcoxon

Statistiques et Recherche Biomdicale

OUI

ANOVA

P. Devos CERIM Sept 2005

NON

Kruskal-Wallis

Master Recherche Biologie et Sant

Des Questions ?
Patrick Devos
Dlgation la Recherche
Direction Gnrale
CHRU de Lille

CERIM
Facult de Mdecine
Universit de Lille 2

patrick.devos@univ-lille2.fr
Statistiques et Recherche Biomdicale

P. Devos CERIM Sept 2005

Master Recherche Biologie et Sant

S-ar putea să vă placă și