Sunteți pe pagina 1din 11

[0:01] Nous avons calculé des pourcentages, des moyennes.

Par exemple, dans notre


échantillon de détenus masculins des prisons de France métropolitaine, nous avons à peu
près 40% de l'échantillon qui présente une symptomatologie dépressive. En termes
spécialisés, on dit que la prévalence de la symptomatologie dépressive est autour de 40%. On
a aussi une moyenne d'âge autour de 39 ans. Mais ça, c'est la prévalence des symptômes
dépressifs et la moyenne d'âge chez nos 799 détenus. A la limite, ces 799 détenus on s'en
fiche un peu. Ce qui nous intéresse, c'est la population totale des détenus des prisons de
France métropolitaine. Alors comment passer des résultats qu'on a calculés, qu'on a estimés
à partir de notre échantillon, aux résultats que l'on imagine exister dans la population totale
des détenus ? C'est pour répondre à cette question, que l'on va calculer des intervalles de
confiance.

1
[1:00] Voyons un peu comment présenter formellement la question. Imaginez que nous
ayons une population d'individus : par exemple, des détenus. Et la réalité, c'est que 1/3 de
ces individus ont une symptomatologie dépressive. J'en tire au sort 10 et je constate, en les
interrogeant, qu'il y en a 3 parmi ces 10 qui ont effectivement une symptomatologie
dépressive. Dans la réalité, bien entendu, je ne sais pas que dans la population entière il y en
a 1/3 de dépressifs.

2
[1:32] Et la question que je me pose, c’est que j'en observe 3 sur 10. Mais quand je remonte
à l'ensemble des individus qui sont en prison, combien il peut y en avoir de déprimés ? C'est
vrai qu'on aurait envie de parier 30% mais ça ce n’est vrai que si la population globale elle est
exactement similaire à l'échantillon de 10 sujets qu'on a tiré au sort. Et ce n'est pas
forcément le cas. Cela peut très bien être 3/9, 4/12, 2/5, 3/11...

3
[2:02] Et c'est là que le calcul des probabilités va entrer en jeu. En effet, on peut montrer que
si vous partez d'une population globale – ici, c'est la population des détenus masculins des
prisons de France métropolitaine – donc partant de cette population, si vous tirez au sort un
échantillon de 10 sujets dont 3 ont une certaine caractéristique, ici un état dépressif, alors on
peut montrer qu'il y a 95 chances sur 100 que dans la population totale des détenus, la
véritable proportion de détenus déprimés sera comprise entre 8% et 64%. On dit ainsi que
l'intervalle [8%-64%] est un intervalle à 95% de la prévalence de la symptomatologie
dépressive. Alors à ce stade, on peut trouver ça un peu décevant. [8%-64%], autant dire
qu'on ne sait pas grand-chose mais ça c'est parce qu'on a pris 10 détenus. Et d'ailleurs, c'est
pour ça que les statistiques marchent bien quand on a quand même des tailles d'échantillon
un peu importantes. Imaginez que vous tiriez au sort maintenant 100 détenus.

4
[3:10] Alors on peut montrer que l'intervalle de confiance à 95%, il est égal à [21%-39%].
C'est mieux, mais ce n'est pas encore ça.

Si vous prenez 1000 détenus, alors là c'est beaucoup mieux. L'intervalle de confiance à 95%,
c'est 30% ± 3%. Et là, on a une estimation de la prévalence avec une précision suffisante pour
faire de la santé publique.

5
[3:34] Alors maintenant, comment faire pour calculer un intervalle de confiance. Et bien, en
pratique, c'est un des derniers calculs que l'on va souvent réaliser à la main. En effet, il existe
une formule assez simple pour l'obtenir. Si vous êtes intéressé par un paramètre et que ce
paramètre a une distribution normale, si vous disposez d'un échantillon tiré au sort et que
sur cet échantillon, vous avez estimé une valeur du paramètre – on va l'appeler "m" – avec
son écart type, et bien, l'intervalle de confiance à 95% du paramètre c'est [m – 2 écarts-
types, m + 2 écarts-types].

6
[4:09] Alors bien sûr, il faut que le paramètre ait une distribution normale. Ça n'est jamais
gagné. Heureusement, dès que la taille de l'échantillon est suffisamment grande, c’est-à-dire
50, 100, beaucoup de paramètres suivent une loi normale. C'est notamment le cas d'une
moyenne ou d'un pourcentage.

Un problème plus insidieux, c'est que l'échantillon doit être tiré au sort. Or, dans beaucoup
d'études, les échantillons ne sont pas tirés au sort. Quand vous interrogez des individus avec
un questionnaire, par exemple, vous les interrogez dans la rue, dans une salle de classe, sur
leur lieu de travail, vous ne les tirez pas au sort. Alors quand on ne tire pas au sort un
échantillon, que signifie un intervalle de confiance ? Et bien pas grand-chose, il faut bien le
reconnaître. Stricto sensu, un intervalle de confiance, c'est pour un échantillon aléatoire, un
point c'est tout. Quand l'échantillon n'est pas aléatoire, certains vont vous dire qu'on ne peut
rien dire. Et d'autres vont dire que, quand même, ça donne une idée de la fluctuation
possible, ça donne une idée de la valeur que pourrait être celle du paramètre dans une
population plus grande. En réalité, dans ce cas-là, l'intervalle de confiance c'est un peu un
fantasme. J'ai un échantillon qui n'est pas tiré au sort. Dans cet échantillon, j'ai calculé un
paramètre, une moyenne d'âge, par exemple et je me dis, si l'échantillon avait été tiré au
sort, alors la véritable moyenne d'âge compte tenu de la taille de mon échantillon varierait
entre telle valeur et telle autre valeur. Ca me donne une idée de la marge de fluctuation
possible due à l'échantillonnage. Mais ça n'est qu'une idée parce qu'au total, l'échantillon n'a
pas été tiré au sort.

7
[5:54] Voyons maintenant cela sur quelques exemples. A partir de la librairie prettyR et de
la fonction describe(), nous pouvons estimer la moyenne et l'écart-type de l'âge des
détenus.

Si nous souhaitons estimer un intervalle de confiance à 95% de la moyenne de l'âge*, à partir


de la formule précédente, il faut calculer "moyenne - 1.96 x e.t.", l'écart-type de la moyenne
de l'âge, c'est-à-dire l'écart-type de l'âge divisé par la racine carrée du nombre de sujets
disponibles.

On obtient donc en pratique : la moyenne de l'âge (38,9 années) - 1,96 x 13,28 (c'est l'écart-
type de l'âge) / 797. On a ainsi l'écart-type de la moyenne de l'âge et on obtient 37,97 ans,
c'est-à-dire en gros 38 ans. En faisant de la même façon pour avoir la borne supérieure de
l'intervalle de confiance, on obtient en gros 40 ans, et on peut dire ainsi, sous réserve que la
distribution de l'âge suive une loi normale, ce qui était à peu près le cas dans les cours
précédents, alors un intervalle de confiance à 95% de la moyenne de l'âge* est obtenu par
les valeurs [38 ans-40 ans].

* Erreur dans la vidéo

8
[7:06] Voyons maintenant comment estimer un intervalle de confiance à 95% d'un
pourcentage. Nous allons prendre l'exemple du tout début du cours, dans lequel nous avions
observé 3 personnes déprimées dans un échantillon de 10 personnes tirées au sort d'une
vaste population. Nous avions dit alors que l'intervalle de confiance à 95% était égal à [8%-
64%]. Comment estimer ces 2 valeurs ? Nous pouvons utiliser la librairie binom et la
fonction binom.confint(). Le problème c'est qu'il n'existe pas une mais plusieurs
méthodes qui permettent de calculer des intervalles de confiance et tous les auteurs ne sont
pas d'accord sur la meilleure. Certaines sont plus intéressantes pour des petits pourcentages.
D'autres sont intéressantes pour des petits effectifs. D'autres enfin sont plus puissantes.

Ici nous appelons la fonction binom.confint() avec 3 pour le nombre de sujets


déprimés, 10 pour le nombre de sujets dans l'échantillon. Et nous demandons d'estimer les
intervalles de confiance à l'aide de toutes les méthodes. C'est pour ça que method="all".
Nous obtenons une liste de 11 estimations et nous voyons que la 10ème correspond à
[8%-64%], qui a été la méthode utilisée pour notre exemple. En pratique, si vous voulez une
méthode un peu passe-partout, qui ne vous posera pas de problème, je vous conseille
d'utiliser la méthode n°5, qui correspond à method="exact" et nous voyons ici que
l'intervalle de confiance vaut [7%-65%], très voisin de l'estimation précédente.

On peut considérer qu'il est quand même un peu gênant qu'il y ait plusieurs méthodes
permettant d'estimer un intervalle de confiance et que toutes ne parviennent pas
exactement au même résultat. Heureusement, quand la taille de l'échantillon est
suffisamment grande, alors toutes les méthodes convergent vers la même valeur. Nous allons
estimer ici l'intervalle de confiance de la prévalence de la dépression.

9
[9:11] Si nous avions le même taux, c'est-à-dire 30%, mais observé maintenant sur 1000
sujets plutôt que 10 sujets…

Nous utilisons de nouveau l'instruction binom.confint() mais avec maintenant 300


sujets déprimés observés sur 1000 sujets. Nous remettons method="all" pour avoir les
11 valeurs et nous constatons dans les colonnes lower et upper que les différentes
estimations proposées oscillent toutes entre 27% et 32%. Elles ont donc convergé vers des
valeurs identiques ce qui est fondamentalement rassurant.

10
[9:43] Et maintenant, c'est à vous de reprendre toutes ces instructions.

11

S-ar putea să vă placă și