Documente Academic
Documente Profesional
Documente Cultură
Plan du cours
Rappels fondamentaux Statistiques descriptives Notions de tests statistiques Algorithme de dcision Quelques tests
Test T de student 2 Corrlation rgressions linaire et Logistique
Introduction
La mthode statistique a pour but de:
dgager certaines proprits d'un ensemble de mesures (ou d'observations) ou de dcrire cet ensemble (appel population).
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Introduction
http://www.med.univ-rennes1.fr
Introduction
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Introduction
http://www.med.univ-rennes1.fr
Introduction
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
L chantillon
Un bon chantillon = image rduite de la population. Lchantillon doit tre reprsentatif de la population tudie Dans le cas contraire, on dit que l'chantillon est biais. Le choix de l'chantillon, le recueil des donnes ncessaires l'tude la partie fondamentale, la plus longue, de l'tude.
http://www.med.univ-rennes1.fr
Statistiques descriptives
http://www.med.univ-rennes1.fr
Statistiques descriptives
Le but : dcrire un ensemble d'observations l'aide de quelques lments caractristiques. Entraine gnralement une perte dinformation Mthode statistiques descriptives dpendent de la nature des variables
http://www.med.univ-rennes1.fr
Variables
Caractristique ou facteur susceptible de prendre une valeur diffrente selon les individus tudis Diffrents types de variables Quantitatives Qualitatives
http://www.med.univ-rennes1.fr
Variables qualitatives
Non mesurables Revient dfinir des catgories ou classes exclusives correspondant aux diffrentes modalits du caractre observ, puis dterminer quelle classe appartient chaque individu. On dnombre les effectifs appartenant chacune des classes Exemples: le sexe, la couleur des yeux, l'efficacit ou la non efficacit d'un traitement, la nature des cellules d'un tissu, le groupe sanguin,.... 3 types Variables qualitatives ordinales Variables qualitatives nominales Variables qualitatives binaires
http://www.med.univ-rennes1.fr
Variables quantitatives
Caractrises par des valeurs numriques Exploitable arithmtiquement Variables quantitatives continues Prennent nimporte quelles valeurs numriques dans lintervalle dobservation Appartient lensemble des rels : toutes les valeurs sont possibles Poids 56,3 kg Taille 1,72 m Cholestrol 2,22 g/l Attention au nombre de dcimale Trs utilises en mdecine La prcision est limite par linstrument de mesure
http://www.med.univ-rennes1.fr
Variables quantitatives discrtes Variables numriques discontinues. En gnral valeurs entires Souvent un dnombrement Rechute dune maladie 3 rechute par an Rappel de vaccin 4 injections Dentition 32 dents Variables temporelles Variables quantitatives particulires utilisant les units de temps Analyse de survie
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Sur les classes ainsi formes, seules les oprations suivantes sont permises: raliser des classes disjointes partir d'une seule classe, regrouper certaines classes. La seule relation qui puisse tre utilise sur ces donnes est la relation d'appartenance une mme classe.
http://www.med.univ-rennes1.fr
Frquences relatives
Les frquences relatives sont, pour chaque classe, le rapport de son effectif au nombre total d'individus de la srie des mesures. i i
n f = N
La somme des frquences relatives est gale 1. Parfois, les rsultats sont exprims en pourcentage, chacune des frquences relatives tant multiplie par 100 et arrondies l'unit
http://www.med.univ-rennes1.fr
On peut reprsenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle l'effectif. Le diagramme "camembert" est bien adapt la reprsentation des donnes qualitatives "pures".
Yeux Effectif Marron 50 Vert 10 Bleu 28 Noir 12
http://www.med.univ-rennes1.fr
Diagramme en btons
Pour les donnes ordinales on peut galement reprsenter les frquences absolues, relatives ou cumules par un diagramme en btons. Exemple: chantillon de 500 cancreux dont on a not le stade.
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Histogramme
Construction: on porte sur l'axe des abscisses les extrmits de chaque classe pour chacune d'elles on construit un rectangle dont la base est le segment limit aux extrmits de la classe et la surface est proportionnelle l'effectif de la classe.
effectif
an
http://www.med.univ-rennes1.fr
Histogramme
Pour les variables quantitatives
Il faut le plus souvent regrouper en classe
Intervalle : 1 ans Intervalle : 5 ans
Intervalle : 10 ans
http://www.med.univ-rennes1.fr
Les graphiques
Les tableau reprsentent les donnes exactes Les graphique font ressortir une vision synthtique Recommandation dans un articles : Figures numrotes en chiffre arabe Numrotation correspond lordre dappel dans le texte Toute figure est appele dans le texte Pas de 3 d ni de camembert viter les superpositions de graphe Pas de colorisation abusive Simple Lgend (titre, axes, units) Honnte
http://www.med.univ-rennes1.fr
Mesures en statistiques
http://www.med.univ-rennes1.fr
Paramtres
2 types : Paramtres de POSITION Mdiane Quartiles, dciles, percentiles Mode Moyenne Frquences relatives Frquence
DISPERSION
Paramtres de Dispersion Extrmes (Minimum, Maximum) Entendue (Range) Intervalle interquartile Variance cart type Coefficient de variation
http://www.med.univ-rennes1.fr
POSITION
Moyenne
Moyenne La moyenne s'exprime dans les mmes units que les valeurs observes. Indicateur de tendance centrale servant rsumer une srie de donnes dune variable quantitative
Frquence
http://www.med.univ-rennes1.fr
Mdiane
Est la valeur qui partage la srie des individus en 2 groupes deffectifs gaux. La mdiane est moins influence que la moyenne arithmtique par les valeurs extrmes de la variable. La moiti des sujets prsentent une valeur infrieure la mdiane. Lautre moiti une valeur suprieure la mdiane.
http://www.med.univ-rennes1.fr
25%
25% 25%
25%
http://www.med.univ-rennes1.fr
1er quartile : spare 25% des valeurs les plus faibles et 75% des valeurs les plus levs
25%
75%
http://www.med.univ-rennes1.fr
3 me quartile : spare 75% des valeurs les plus faibles et 25% des valeurs les plus levs
75%
25%
http://www.med.univ-rennes1.fr
Le deuxime quartile spare 50 % des valeurs les plus faible de 50% des valeurs les plus leves 2me quartile Mdiane !
50 %
50 %
http://www.med.univ-rennes1.fr
Dispersion
http://www.med.univ-rennes1.fr
Dispersion
Min Max : Trs sensible aux valeurs extrmes Permet de dtecter les erreurs tendue : Valeur Max Valeur min Espace interquartiles Qi = Q3 Q1 contient 50% des valeurs de la srie
http://www.med.univ-rennes1.fr
Dun chantillon
http://www.med.univ-rennes1.fr
0.8
C Des changements pour les valeurs de la moyenne et la variance entranent des changements dans la forme et la position de la distribution normale. A. = 4, = 1 B. = 8, = 1 C. = 8, = 0.5
0.6
frel
0.4 A
0.2 B 0
10
12
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Box Plot
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
les rsultats d'une tude, ralise sur un chantillon reprsentatif de nourrissons masculins, ont donn une estimation de la taille moyenne de 60,2 cm avec un intervalle de confiance 95 % de [59,2 - 61,2]. Il y aurait donc 95 chances sur cent pour que la taille moyenne des nourrissons masculins Franais de 3 mois soit comprise entre 59,2 et 61,2 cm.
http://www.med.univ-rennes1.fr
Introduction (1)
Le test statistique est loutil de la comparaison Lorsquon effectue une comparaison entre deux ou plusieurs sries de donnes, on observe toujours une diffrence, plus ou moins grande entre les paramtres mesurs Le but du test : si la diffrence observe est simplement due au hasard (fluctuations dchantillonnage) ou si au contraire la diffrence observe est bien relle
Population inconnue
chantillon
Population de rfrence
Population 1
chantillon 1
Population 2
chantillon 2
Paramtre Population 1
Paramtre Population 2
Paramtre Population 2
Exercice (1)
On veut comparer la frquence du palu dans deux rgions dAfrique. P1 et P2 les frquences des individus infects dans ces deux rgions : Poser lhypothse nulle H0 Poser lhypothse alternative H1
Exercice (2)
H0 : P1 = P2 : les deux frquences sont identiques H1 : P1 P2 : les deux frquences sont diffrentes
Il sagit dune hypothse alternative bilatrale car on ignore a priori dans quelle rgion la frquence du palu est la plus leve.
Exercice (3)
On dsire tester un vaccin contre le palu en comparant la survenue de palu entre un groupe vaccin et un groupe tmoin non vaccin. P1 et P2 le pourcentage des individus infects dans chacune des deux populations reprsents par les deux groupes. Poser H0 et H1
Exercice (4)
H0 : P1 = P2 : Le vaccin na aucune efficacit H1 : P1 < P2 : La frquence des individus infects dans le groupe vaccin est infrieure la frquence dans le groupe non vaccin. H1 unilatrale car on sintresse dans ce cas exclusivement aux effets bnfiques attendus du vaccin.
test
On ne rejette pas Ho
On ne rejette pas Ho
On ne rejette pas Ho
On rejette Ho
Cest le risque daffirmer une diffrence alors quelle n existe pas. Risque ou risque de premire espce = probabilit de rejeter H0, si H0 est vraie. est fix a priori. Sa valeur est universellement admise 5%
Risque : risque de deuxime espce = probabilit de ne pas rejeter H0, si H1 est vraie est appel manque de puissance. 1- est appel puissance dun test = la capacit de rejeter H0 si celle-ci est effectivement fausse La puissance dun test est lie leffectif des chantillon. Plus la taille augmente, plus la puissance augmente et le risque diminue.
Variabilit biologique :
fluctuations dans les mesures des variables : pour une valeur de X, on peut observer plusieurs valeurs de Y et inversement Difficile dutiliser un tableau ou un graphique pour tudier cette liaison
Exercice 1
Posez H0 et H1 dans les situations suivantes: Comparaison de 2 traitement nouveaux A et B Comparaison de 4 traitements A, B, C et D Comparaison dun traitement A versus placebo Variation de la hauteur des arbres en fonction de leur altitude
Rponses
Comparaison de 2 traitement nouveaux A et B
H0 : les deux traitements sont quivalents H1 bilatrale : les deux traitement ont une efficacit diffrente
Exercice 2
Vous participez la mise au point dun traitement suppos efficace sur une maladie mortelle, mais dangereux en cas dutilisation errone. Lefficacit du produit est teste sur des groupes danimaux malades et sains. Vous choisissez de : 10, 5 ou 1% ?
Rponse
1% : il faut avoir le moindre risque de conclure tort une efficacit qui nexisterait pas.
Exercice 3
Vous participez la mise au point dun vaccin potentiellement efficace dans la prvention dune maladie grave, et par ailleurs nayant pas deffet secondaires. Lefficacit est teste en comparant un chantillon de sujets vaccins par le nouveau vaccin et un chantillon vaccin par un vaccin placebo. Vous choisissez de diminuer prioritairement ? puissance taille des chantillons
Rponses
est le risque diminuer en priorit. Il ne faudrait pas passer ct dune efficacit relle du vaccin. On choisira un risque faible. Un tel choix entrane automatiquement une augmentation de la puissance (1- ) et donc de la taille des chantillons
http://www.med.univ-rennes1.fr
Srie apparies Qualitatif Sries indpendants 2 groupes Sries indpendants k groupes Effectif theo>5
2 de Mc Nemar
2 de Pearson 2 de Yates Test de Fisher 2 de Pearson 2 de Yates Test de Fisher Ecart rduit appari
Effectif theo>5
n>30 1 groupe de sujet 2 mesures rptes 10<n<30 Critre de jugement Hypothses vrifies 2 groupes 10<n1 et n2 <30
n1 et n2>30
Test de Student
k groupes Hypothses Normalit, galit des variances 1 groupe 2 mesures rptes Petits effectifs
ANOVA
Quantitatif
Test de Wilcoxon
2 groupes
Petits effectifs
http://www.med.univ-rennes1.fr k groupes
Petits effectifs
Comparaison 0 de la pente de la droite de rgression liant Y X Vrifie Hypothses vrifies normalit galit des variances Non vrifis 1 chantillon n couples (x,y) 1 chantillon n couples (x,y) Coefficient de corrlation Pearson et son test
Petits effectifs
http://www.med.univ-rennes1.fr
Test du
Test du 2
Formulation quivalente : Test du chi-deux, du chi-carr, du 2 Pearson Ils servent tudier la relation entre 2 variables qualitatives : Liens entre survenue dune maladie (M+,M-) et sexe (M,F) Catgorie socioprofessionnelles et dpartement bretons % des prmaturs en France versus Angleterre
Tableau de contingence
sapplique des effectifs regroups sur un tableau de contingence Un tableau comportant des effectifs observs (Oij) dans ces cases et les totaux de chaque ligne et de chaque colonne dans ses marges
B1 O11 O21
B2 O12
Bj
Total t1 t2
Oij n1 n2 nj
ti N
H1 bilatrale :
Si 2o est infrieur 25% on ne rejette pas H0. : pas de lien entre les 2 variables, ou pas de diffrence entre les % Si 2o est suprieur 25% on rejette H0 : il existe un lien significatif entre les 2 variables, ou diffrence significative entre les %. On cherche alors p.
Exercice
Test de T
Rponse
H0: la protinorachie des sujets atteints de drpanocytose ne diffre pas de celle de la population gnrale H1: la protinorachie des sujets atteints de drpanocytose est diffrente de celle de la population n < 30 : Test de T Condition dapplication : on suppose que la protinorachie est distribue normalement chez les sujets atteints de drpanocytose to>t5%: on rejette H0 la protinorachie des sujets atteints de drpanocytose est significativement diffrente de celle de la population p < 0,03
On veut comparer les 2 populations. Formuler les hypothses Quel test choisissez vous ? Quelles en sont les conditions dapplication ? Que concluez vous ?
Exercice (2)
H0: la valeur moyenne du marqueur est identique dans les 2 populations H1: la valeur moyenne du marqueur est diffrente chez les sujets atteints dhpatite alcoolique
Calcul du test = on rejette H0 Les malades atteints dhpatite alcoolique prsentent une valeur du marqueur significativement diffrente de celle des sujets sains p < 0,02
Exercice (1)
On dsire tudier leffet dune nouvelle stratgie de traitement du diabte sur la glycmie. On dose la glycmie chez 15 sujets avant le dbut du nouveau protocole (srie A) et 3 mois aprs (srie B) :
A B 2,47 2,30 3,09 2,96 2,14 2,23 2,47 2,34 3,06 2,84 2,72 2,59 2,29 2,15 1,90 1,88 2,34 2,32 2,75 2,65 2,67 2,68 2,80 2,58 2,51 2,43 2,23 2,02 2,20 2,17
Le nouveau protocole est-il efficace ? Formuler les hypothses Quel test choisissez vous ? Quelles en sont les conditions dapplication ? Que concluez vous ?
Rponse
Comparaison de moyennes sur sries apparies :
H0 : les glycmies sont identiques avant et aprs le nouveau protocole H1 : la glycmie est abaisse grce au nouveau protocole n < 30 : test de T Condition dapplication : la diffrence de glycmie avant et aprs le traitement est distribue de faon normale Calculs : on rejette H0 La glycmie est abaisse significativement aprs administration de la nouvelle stratgie p < 0,0005
Reprsentation graphique
Etudier le lien entre 2 variables quantitatives : scatter ou nuage de points Reprsenter les couples de valeurs (x,y)
1 individu : Mr Dupont 1,85 m et 74 kg
Correlation et rgression
La rgression permet dtudier lassociation entre deux variables quantitatives, en tudiant les variations de lune en fonction des valeurs de lautre. Le coefficient de corrlation est une mesure dassociation entre deux variables quantitatives faisant jouer des rles symtriques aux valeurs. On cherche savoir simplement sil existe une liaison entre ces deux variables et quantifier lintensit de la liaison
Interprtation de
>0 <0
=0
Proprit de
est toujours compris entre -1 et 1 permet de mesurer la FORCE DE LASSOCIATION entre X et Y. Plus est proche de +1 ou de -1, plus lassociation est forte
Si X et Y sont indpendantes alors =0 Linverse nest pas vrai : Si ~0, les variables peuvent soient tre indpendantes mais aussi tre lies (mais non linairement) On peut seulement affirmer que les variables X et Y ne sont pas lies linairement
Test du r
Rappel : r concerne les variables dun chantillon Le calcul de r peut tre sujet fluctuation. Tester r, cest tenter daffirmer ou pas que sa valeur est statistiquement significative et ce avec un risque matris (p<0,05) Mme mcanisme que pour les autres test : hypothses sur la population Ho = Hypothse nulle : =0 H1 = Hypothse alternative :
=0
(test bilateral)
Les observation pour chaque variable doivent tre indpendantes les unes des autres. Ex : comparaison des donnes Y en fonction du temps X Les donnes de la veille ne sont pas indpendantes des donnes du lendemain. Il ya auto-correlation ncessite dautres techniques danalyse. Attention au facteur tiers : biais de confusion
http://www.ea3888.univrennes1.fr
Rgression linaire
Exemple
Terme (semaine) 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 Poids moyen de naissance (grammes) 1146,92 1292,73 1694,52 1892,00 1986,11 2000,34 2119,46 2290,85 2569,11 2800,77 3019,50 3210,61 3364,59 3475,05 3553,32 3582,63 3604,81
Termes de naissances (X) et les poids de naissance (Y) dune POPULATION de nouveau n
Exemple
Le poids moyen varie en fonction du terme il y a une liaison entre le terme et le poids de naissance La courbe de rgression est celle qui joint les points successifs La FONCTION de REGRESSION est la fonction qui permet de dcrire mathmatiquement cette courbe
f ( x ) = E (Y / x ) = + x = + x y
La droite de rgression permettant de mieux reprsenter les points est : = + x Sans tre strictement linaire, la liaison entre le terme et le poids peut tre reprsente par une droite. On estime et On teste si est significativement different de 0
Comment interprter et
= - 3115,6 + 162,30 x Estimation de = 162,30 (p=0,003) augmentation moyenne du poids de naissance quand le terme augmente dune semaine Augmentation MOYENNE Les poids de 2 bbs ns 1 semaine dintervalle diffrent EN MOYENNE de 162,30 g Elle nest considrer que sur la priode considre na pas dinterprtation concrte. au poids moyens des nouveau ns ayant un terme = 0 semaine
Chaque coefficient est test (par rapport 0) Exprim soit avec le p soit avec intervalle de confiance : IC AO [-1,3;3] Si lIC inclut 0 alors pas significatif
Rgression logistique
Idem rgression linaire Variable dpendante : qualitative binaire
Ex : survenue ou pas dune HTA Logit probaHTA =0,068xtabac + 0,7xOb+0,9xRonf Les Co-variables sont qualitatives ou quantitatives
Les exp odd ratio. : OR Ronf = exp(0,9) = 2,5 les sont tests (p ou IC) : pas de significatif si contient 1
Etude de survie
Principe :
Sintresser la survenue dun vnement dcs au cours du temps Prendre en compte les donnes incompltes ou censures.
Champs dapplication
Description de la survie dun groupe de sujet Comparaison de la survie de 2 ou plusieurs groupes dans un but
Pronostique Ou dintervention (traitement, programme sanitaire, etc)
En pratique clinique
La description des vnements est rarement exhaustive.
Il est rare de comptabiliser tous les dcs
Observations compltes Observations incompltes
Recul :
Dlai coul entre la date dorigine et la date de point
Temps de participation
Calcul partir de la date dorigine et de la date des dernires nouvelles ou de la date de point
Date dorigine
Date de point
Temps de participation
temps
Recul
Exclu vivant :
Sujet vivant la date de point
Exclus-vivants
soit le sujet n'est pas dcd la date de point.
Il est dit exclu-vivant. Sa dure de suivi est gale la diffrence entre la date de point et la date d'origine. Mais, cela ne signifie pas qu'il est exclu de l'tude. Au contraire, on enrichit l'analyse
Date dorigine Date de point
temps
Temps de participation
Perdus de vue
soit le sujet est perdu de vue.
Il ne vient plus aux visites de surveillance. Sa dure de suivi est gale la diffrence entre la date des dernires nouvelles et la date d'origine. Les perdus de vue requirent une analyse attentive car il faut s'assurer que le mcanisme par lequel ils sont perdus de vue est indpendant du phnomne tudi, sinon un biais est introduit dans l'analyse.
Date des dernires nouvelles
Date dorigine
Date de point
Temps de participation
Mdiane de survie
Dfinie comme le temps auquel la fonction de survie estime vaut 0,5.
Ex : Comparer les courbes de non survenue de l'insuffisance rnale terminale chez les hommes par rapport aux femmes issus de familles diffrentes.
Limites de linterprtation
Chirurgie
Chimiothrapie
Mthode actuarielle
Mme principe que KM Utile lorsque les effectifs sont importants Les taux sont valus intervalle rgulier fixs a priori (par exemple tous les mois, ou tous les ans )
ACTUARIELLE
KAPLAN MEIER