Documente Academic
Documente Profesional
Documente Cultură
1
[1:00] Voyons un peu comment présenter formellement la question. Imaginez que nous
ayons une population d'individus : par exemple, des détenus. Et la réalité, c'est que 1/3 de
ces individus ont une symptomatologie dépressive. J'en tire au sort 10 et je constate, en les
interrogeant, qu'il y en a 3 parmi ces 10 qui ont effectivement une symptomatologie
dépressive. Dans la réalité, bien entendu, je ne sais pas que dans la population entière il y en
a 1/3 de dépressifs.
2
[1:32] Et la question que je me pose, c’est que j'en observe 3 sur 10. Mais quand je remonte
à l'ensemble des individus qui sont en prison, combien il peut y en avoir de déprimés ? C'est
vrai qu'on aurait envie de parier 30% mais ça ce n’est vrai que si la population globale elle est
exactement similaire à l'échantillon de 10 sujets qu'on a tiré au sort. Et ce n'est pas
forcément le cas. Cela peut très bien être 3/9, 4/12, 2/5, 3/11...
3
[2:02] Et c'est là que le calcul des probabilités va entrer en jeu. En effet, on peut montrer que
si vous partez d'une population globale – ici, c'est la population des détenus masculins des
prisons de France métropolitaine – donc partant de cette population, si vous tirez au sort un
échantillon de 10 sujets dont 3 ont une certaine caractéristique, ici un état dépressif, alors on
peut montrer qu'il y a 95 chances sur 100 que dans la population totale des détenus, la
véritable proportion de détenus déprimés sera comprise entre 8% et 64%. On dit ainsi que
l'intervalle [8%-64%] est un intervalle à 95% de la prévalence de la symptomatologie
dépressive. Alors à ce stade, on peut trouver ça un peu décevant. [8%-64%], autant dire
qu'on ne sait pas grand-chose mais ça c'est parce qu'on a pris 10 détenus. Et d'ailleurs, c'est
pour ça que les statistiques marchent bien quand on a quand même des tailles d'échantillon
un peu importantes. Imaginez que vous tiriez au sort maintenant 100 détenus.
4
[3:10] Alors on peut montrer que l'intervalle de confiance à 95%, il est égal à [21%-39%].
C'est mieux, mais ce n'est pas encore ça.
Si vous prenez 1000 détenus, alors là c'est beaucoup mieux. L'intervalle de confiance à 95%,
c'est 30% ± 3%. Et là, on a une estimation de la prévalence avec une précision suffisante pour
faire de la santé publique.
5
[3:34] Alors maintenant, comment faire pour calculer un intervalle de confiance. Et bien, en
pratique, c'est un des derniers calculs que l'on va souvent réaliser à la main. En effet, il existe
une formule assez simple pour l'obtenir. Si vous êtes intéressé par un paramètre et que ce
paramètre a une distribution normale, si vous disposez d'un échantillon tiré au sort et que
sur cet échantillon, vous avez estimé une valeur du paramètre – on va l'appeler "m" – avec
son écart type, et bien, l'intervalle de confiance à 95% du paramètre c'est [m – 2 écarts-
types, m + 2 écarts-types].
6
[4:09] Alors bien sûr, il faut que le paramètre ait une distribution normale. Ça n'est jamais
gagné. Heureusement, dès que la taille de l'échantillon est suffisamment grande, c’est-à-dire
50, 100, beaucoup de paramètres suivent une loi normale. C'est notamment le cas d'une
moyenne ou d'un pourcentage.
Un problème plus insidieux, c'est que l'échantillon doit être tiré au sort. Or, dans beaucoup
d'études, les échantillons ne sont pas tirés au sort. Quand vous interrogez des individus avec
un questionnaire, par exemple, vous les interrogez dans la rue, dans une salle de classe, sur
leur lieu de travail, vous ne les tirez pas au sort. Alors quand on ne tire pas au sort un
échantillon, que signifie un intervalle de confiance ? Et bien pas grand-chose, il faut bien le
reconnaître. Stricto sensu, un intervalle de confiance, c'est pour un échantillon aléatoire, un
point c'est tout. Quand l'échantillon n'est pas aléatoire, certains vont vous dire qu'on ne peut
rien dire. Et d'autres vont dire que, quand même, ça donne une idée de la fluctuation
possible, ça donne une idée de la valeur que pourrait être celle du paramètre dans une
population plus grande. En réalité, dans ce cas-là, l'intervalle de confiance c'est un peu un
fantasme. J'ai un échantillon qui n'est pas tiré au sort. Dans cet échantillon, j'ai calculé un
paramètre, une moyenne d'âge, par exemple et je me dis, si l'échantillon avait été tiré au
sort, alors la véritable moyenne d'âge compte tenu de la taille de mon échantillon varierait
entre telle valeur et telle autre valeur. Ca me donne une idée de la marge de fluctuation
possible due à l'échantillonnage. Mais ça n'est qu'une idée parce qu'au total, l'échantillon n'a
pas été tiré au sort.
7
[5:54] Voyons maintenant cela sur quelques exemples. A partir de la librairie prettyR et de
la fonction describe(), nous pouvons estimer la moyenne et l'écart-type de l'âge des
détenus.
On obtient donc en pratique : la moyenne de l'âge (38,9 années) - 1,96 x 13,28 (c'est l'écart-
type de l'âge) / 797. On a ainsi l'écart-type de la moyenne de l'âge et on obtient 37,97 ans,
c'est-à-dire en gros 38 ans. En faisant de la même façon pour avoir la borne supérieure de
l'intervalle de confiance, on obtient en gros 40 ans, et on peut dire ainsi, sous réserve que la
distribution de l'âge suive une loi normale, ce qui était à peu près le cas dans les cours
précédents, alors un intervalle de confiance à 95% de la moyenne de l'âge* est obtenu par
les valeurs [38 ans-40 ans].
8
[7:06] Voyons maintenant comment estimer un intervalle de confiance à 95% d'un
pourcentage. Nous allons prendre l'exemple du tout début du cours, dans lequel nous avions
observé 3 personnes déprimées dans un échantillon de 10 personnes tirées au sort d'une
vaste population. Nous avions dit alors que l'intervalle de confiance à 95% était égal à [8%-
64%]. Comment estimer ces 2 valeurs ? Nous pouvons utiliser la librairie binom et la
fonction binom.confint(). Le problème c'est qu'il n'existe pas une mais plusieurs
méthodes qui permettent de calculer des intervalles de confiance et tous les auteurs ne sont
pas d'accord sur la meilleure. Certaines sont plus intéressantes pour des petits pourcentages.
D'autres sont intéressantes pour des petits effectifs. D'autres enfin sont plus puissantes.
On peut considérer qu'il est quand même un peu gênant qu'il y ait plusieurs méthodes
permettant d'estimer un intervalle de confiance et que toutes ne parviennent pas
exactement au même résultat. Heureusement, quand la taille de l'échantillon est
suffisamment grande, alors toutes les méthodes convergent vers la même valeur. Nous allons
estimer ici l'intervalle de confiance de la prévalence de la dépression.
9
[9:11] Si nous avions le même taux, c'est-à-dire 30%, mais observé maintenant sur 1000
sujets plutôt que 10 sujets…
10
[9:43] Et maintenant, c'est à vous de reprendre toutes ces instructions.
11