Nous avons maintenant une ide de l'incertitude associe un sondage d'opinion. Pour la mesurer plus finement, les statisticiens utilisent ce qu'ils appellent l'intervalle de confiance. Dans le cas de notre simulation, un petit calcul nous donne un intervalle de confiance compris entre 47% et 53%. C'est entre ces 2 valeurs que se trouvent 95% des rsultats de nos sondages. Revenons la dpche de l'AFP prsente au dbut. La question pose tait : 36% est-il bien diffrent de 38%. Pour y rpondre, il nous faut calculer l'intervalle de confiance sur ces deux mesures. On suppose ici que le premier pourcentage a t obtenu de la mme manire que le deuxime, ce qui n'est pas prcis dans la dpche. On trouve : 36% 2.98 et 38% 3.01 Comme les chiffres ne sont pas trs parlants, on peut reprsenter ces intervalles sur un graphique :
Les intervalles de confiance de ces deux rsultats se chevauchent tellement qu'on ne peut pas les considrer comme diffrents. Mais comme cette formulation n'est pas prcise (pas statistiquement correcte), nous allons poser la question des sondages d'une autre manire. Combien de personnes faut-il interroger pour que 36% devienne diffrent de 38% ? De manire gnrale, en statistique, plus l'chantillon est grand, plus la puissance des tests augmente. Avec un chantillon plus grand, on peut mettre en vidence des diffrences plus fines. Un calcul rapide (mais trop complexe pour tre prsent ici) nous suggre d'chantillonner 15242 personnes. Pour affirmer avec un risque d'erreur acceptable que 38% est suprieur 36% il aurait donc fallu questionner plus de 15000 personnes. On en est loin ! Le rsultat d'un sondage d'opinion ne devrait jamais tre communiqu sans y associer un intervalle de confiance. Bien sr, nous pouvons l'valuer nous mme quand la taille de l'chantillon est prcise. Mais combien d'entre nous font ces calculs ?
Voici les instructions, dans le langage R, qui ont permis d'effectuer les calculs : #cration de notre Pays et de sa population oui<-rep("o",20000000) non<-rep("n",20000000) pop<-c(oui,non) #rsultat sur un premier chantillon de 1000 personnes ech<-sample(pop , size=1000, replace = FALSE) summary(as.factor(ech)) n o 513 487 #rsultat sur un deuxime chantillon de 1000 personnes ech<-sample(pop , size=1000, replace = FALSE) summary(as.factor(ech)) n o 486 514 #On effectue 1000 chantillonnages et on trace un histogramme des rsultats hist(replicate(1000, { ech<-sample(pop , size=1000, replace = FALSE) res<-summary(as.factor(ech)) res[1]/10 } ),main="Pourcentage de non", sub="",xlim=c(40,60))