Sunteți pe pagina 1din 20

Les types de sondage

Etienne Thérèse

Abstract

Pour approcher la réalité d’une variable d’intérêt au sein d’une population, la théorie des sondages
apporte à l’enquête statistique plusieurs types de sondages basés généralement sur l’échantil-
lonnage et l’estimation. Les techniques d’échantillonnage, qu’elles soient empiriques ou
probabilistes, permettent de sélectionner les individus à interroger en veillant à leurs probabilités
d’inclusion mais aussi à la réalisation concrète des enquêtes sur le terrain. La théorie de
l’estimation apporte un ensemble d’outils de calcul en cascade de paramètres qui permettent
d’approcher, selon le type de sondage utilisé, les vrais paramètres de la population ciblée. Les
procédures d’observation et d’échantillonnage connaissent généralement des biais que plusieurs
techniques basées essentiellement sur la pondération cherchent à redresser nous rappelant ainsi
que les méthodes de sondages restent des modèles théoriques et que ces derniers sont utiles avant
d’être exacts.

Mots clés

Plan de sondage, sondages probabilistes, sondages empiriques, estimateurs, redressement

1. Introduction
Cet article a pour objectif de présenter les techniques de sondage. Pour obtenir des
informations statistiques sur une population deux possibilités s’offrent à nous : soit
interroger l’ensemble de la population concernée, dans ce cas, on parle généralement de
recensement, soit interroger une partie de la population pour l'ensemble, dans ce cas nous
avons alors recours aux méthodes d'analyse quantitative et à la théorie des sondages.
Sonder, c’est choisir une partie (l’échantillon) pour représenter le tout (la "population" au
sens statistique du terme). En effet, lorsque l'on cherche à étudier une population (malades,
hôpitaux, collectivités) dont on veut étudier les comportements ou les opinions, il n'est pas
nécessaire, et c'est souvent impossible, d'en examiner toutes les unités ("individus" au sens
statistique) concernées.
La tâche du sondeur est de déterminer un plan de sondage c’est à dire une méthode de
sélection d’un échantillon représentatif de la population à interroger et de formuler des
estimateurs permettant d’approximer les vraies valeurs de la population ciblée.
Paradoxalement, l’enquête statistique ne s’intéresse pas aux individus en tant que tels, mais
seulement à l’agrégation de leurs réponses individuelles pour atteindre les informations
recherchées. L’agrégation des réponses permet de passer de l’échantillon à la population en
faisant l’hypothèse que cet échantillon nous donnera une bonne image de l’ensemble de
cette population. Ce passage se fait en déterminant des estimateurs adéquats au type de
sondage que l’on a retenu et qui sont des expressions mathématiques qui permettent,
lorsque les données sont collectées, de proposer une valeur pour les paramètres de
centralité et de dispersion définie sur l’ensemble de la population.1. Le problème est
précisément de savoir comment agréger ces réponses individuelles pour connaître la valeur
prise par ces différents paramètres sur l’ensemble des individus de la population2.
La construction de l'échantillon peut se fonder sur des méthodes probabilistes ou empiri-
ques. Le choix entre ces méthodes dépend des contraintes financières et techniques, et de la
possibilité de recourir ou non à une base de sondage et de la disponibilité ou non
d’informations auxiliaires.

2. Matériels et méthodes
Notre étude s’effectuera à partir de trois sources différentes : l’ouvrage de référence de
Pascal Ardilly sur les techniques de Sondage. Cet ouvrage de 675 pages fait une
présentation exhaustive des techniques sur les sondages. La seconde source est constituée
des actes des colloques de la société française de statistique publiés régulièrement aux
éditions DUNOD, nous avons consulté essentiellement les actes du colloque de mai 2005
publiés dans l’ouvrage « Méthodes d’enquêtes et sondages, pratiques européenne et nord
américaines »3. Cet ouvrage présente des enquêtes faites en France et au Canada dans les
dernières années dans le domaine de la santé et de l’économie et de la politique. La
troisième source est constituée des articles de vulgarisation publiés sur Internet cité en
bibliographie.

2.1. Méthodes de tirage et précision


Notre article s’intéresse aux types de sondage c'est-à-dire à la théorie de l’échantillonnage
et à la théorie de l’estimation. La méthode de tirage est le processus que l’on choisit pour
tirer un échantillon. La théorie de l'estimation est un ensemble de techniques numériques
commun à tous les types de sondage pour donner une bonne représentation des paramè-
tres inconnus de la population. L’estimation des paramètres est le second sujet de notre
réflexion. L’expression de l’estimateur est la formule choisie pour estimer le paramètre
inconnu θ qui intéresse tous les sondages. La fonction des Y (variable d’intérêt) constitue
l’information que l’on cherche à acquérir. La variable Y à laquelle on fait référence peut
être quantitative ou qualitative. Dans le cas des variables quantitatives, il s’agit
principalement du total, de la moyenne, des quantiles et de la dispersion de Y dans la
population de base (la statistique descriptive parle de variance ou d’écart types des Yi).
Dans le cas de variables qualitatives, l’intérêt se porte essentiellement sur le calcul du
pourcentage d’individus de la population dont l a variable prend telle ou telle modalité.
Pour une méthode de tirage donnée, il existe de nombreux estimateurs concurrents.
Réciproquement, un estimateur donné peut être appliqué à des échantillons tirés selon des
méthodes différentes.
Le plan de sondage se réfère à la fois à la méthode de tirage de l'échantillon des répondants
à l'enquête et aux estimateurs qui sont généralement liés aux types de sondages retenus. Le
choix du plan de sondage repose sur des considérations pratiques et budgétaires, également
sur la population cible et les informations recherchées et les informations disponibles.

1
Cf. Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p.8
2
Idem, p.5
3
Lavallée Pierre, Rivest Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006.
2.2. Problématique
Nous essayerons de ne pas être que descriptif. La méthode de tirage est autonome dans sa
réalisation, mais elle est (presque toujours) choisie en fonction de la précision souhaitée et
de la complexité qu’il y a à calculer les estimateurs, nous essayerons de montrer les
ressemblances entre les estimateurs des différentes méthodes et les grandes familles
d’estimateurs. Par ailleurs en suivant en grande partie les démonstrations de Pascal Ardilly
nous tâcherons de monter l’enchaînement des calculs pour une précision de plus en plus
accrue des plans de sondages. Par ailleurs nous discuterons des biais et des erreurs
d’observation et d’échantillonnage avant de voir leurs incidences sur l’interprétation des
sondages4.

3. Résultats
Nous garderons dans le cadre de notre présentation des types de sondage, deux pôles
d’intérêt bien distinct : la méthode de tirage et l’expression de l’estimateur. Dans tout le
livre de Pascal Ardilly nous retrouvons cette dualité estimateur/méthode de tirage. Nous
distinguerons les plans de sondages, des calculs de paramètres pour mieux montrer la
dynamique de l’estimation. Nous commencerons par les aspects principaux des sondages
probabilistes (ou aléatoire) simples qui ont pour atout principal de ne pas nécessiter
l’utilisation d’information auxiliaire. Puis, nous aborderons des plans toujours probabilistes
mais plus complexes, tels que la stratification, le tirage à plusieurs degrés, le sondage à
probabilités inégales et l’échantillonnage équilibré. Et enfin nous terminerons avec les
plans de sondage empiriques.

3.1. Les plans de sondages

Le plan de sondage d’une enquête statistique se rapporte aux techniques de tirage d’un
échantillon probabiliste ou de quota ainsi qu’aux méthodes permettant d’obtenir des
estimations des variables étudiées à partir de l’échantillon retenu. Deux types de méthodes
sont employés : les méthodes empiriques et les méthodes probabilistes. Nous verrons que
pour les méthodes probabilistes plus ou moins complexes la notion d’information
auxiliaire5 connue sur la population a une grande importance pour le choix de la méthode à
utiliser et pour le traitement des non réponses. Quand cette information est mise à profit
pour concevoir le plan de sondage, on cherche un plan qui fournit des estimateurs précis
pour un prix donné ou qui est peu coûteux pour des critères de précision donnés. Pour ces
raisons, on utilisera des plans à probabilités inégales, par grappes ou à plusieurs degrés.
Ces plans supposent donc différents types d’unités de sondage, des règles pour l’attribution
de probabilités de tirage aux unités de sondage, des fractions de sondage, éventuellement
des procédés de stratification et d’établissement de grappes, ainsi que diverses méthodes
d’estimation. Dans le cas des plans qui prévoient plusieurs degrés de tirage, il faut, à
chaque degré d’échantillonnage, établir les unités de sondage, les probabilités de tirage et
la méthode d’échantillonnage pour obtenir les estimations finales. Pour un degré donné
d’échantillonnage d’un plan de sondage probabiliste, la base de sondage est l’ensemble des
unités de sondage avec leurs probabilités de tirage, c’est-à-dire la liste des unités de
sondage d’où l’on prélève l’échantillon, ainsi que leurs probabilités de tirage. Il faut
4
Dussaix Marie, Des sondages et de leurs usages, http://matisse.univ-
paris1.fr/fr/IMG/pdf/Dussaix2.pdf
5
Tille Yves, Utilisation d’informations auxiliaires dans les enquêtes par sondage
accès le 10 /12/ 2008 : http://www.idescat.cat/sort/questiio/questiiopdf/23.3.4.Tille.pdf
construire une base pour chaque degré d’échantillonnage et attribuer une probabilité non
nulle de tirage à chaque unité de sondage de cette base. Quand l’information est utilisée à
l’étape de l’estimation, elle sert à «recaler» les résultats du sondage sur l’information
auxiliaire du recensement. Les estimateurs sont alors basés sur deux sources
d’informations: l’information auxiliaire connue sur toute la population, et l’information
concernant les variables d’intérêt connue uniquement sur les unités sélectionnées dans
l’échantillon. Seules les méthodes aléatoires permettent d'utiliser la théorie de l'estimation.

3.1.1. Plan de sondages probabilistes


Les tirages probabilistes désignent une technique par laquelle chaque unité de la population
cible a une probabilité Pi donnée connue ou calculable à l'avance (avant le tirage)
d'appartenir à l'échantillon (dite probabilité d’inclusion ou probabilité de sélection). Il
devient alors possible de mettre en œuvre les techniques du calcul de probabilités pour
réaliser des inférences sur l'ensemble de la population. La possibilité même du sondage est
fondée sur le principe des probabilités. Par opposition, les sondages empiriques que nous
verrons plus loin sont ceux qui ne permettent pas de calculer la probabilité d’inclusion des
individus. Il s’agit principalement des méthodes de quotas et d’unités types. Ces
probabilités d'inclusion qui dépendent du plan de sondage choisi, devront obligatoirement
être incorporées dans les formules d'estimateurs. Dans le cas particulier qu’est le sondage
aléatoire simple, Pi est constant :
n
Pi = (1)
N
et le rapport
n
f= (2)
N
s'appelle le taux de sondage.

3.1.2. Plan de sondage stratifié


Dans le sondage stratifié, la population observée est entièrement subdivisée en ensembles
non répétés, appelés strates. Puis, à l’intérieur de chaque strate, un échantillon est constitué
de la réunion de q échantillons choisis au hasard, un par strate : nous effectuons dans
chaque strate un échantillonnage simple.
Cette méthode se justifie par deux raisons essentielles : premièrement, l'existence d'une
stratification de fait, soit pour des raisons géographiques, soit pour des raisons adminis-
tratives ; deuxièmement, un caractère étudié dans la population peut varier sous l'influence
d'un certain nombre de facteurs. Pour éliminer au mieux les risques de biais, nous créons
des strates homogènes et, dans chacune d'elles, nous extrayons un échantillon aléatoire
simple. La constitution de strates se heurte à des problèmes qui sont selon Ardilly6, dans
l’ordre chronologique : la détermination de la variable de stratification à utiliser, le
nombre de strates à réaliser et quelles doivent être les limites de strates. La meilleure
variable à utiliser est sans nul doute la plus discriminante, c'est-à-dire celle qui permet de
réaliser au mieux des groupes homogènes en intra et donc hétérogène en inter du point de
vue de Y. En pratique on cherche une variable X la plus corrélée possible à Y, la plus
explicative possible, de façon à ce que la constitution de groupes d’individus prenant des
valeurs voisines sur X soit par la même occasion la constitution de groupes d’individus
semblables selon Y. La seule contrainte est de connaître la variable de stratification pour
chaque individu de la population. Pour cette raison, la stratification est une méthode qui
nécessite de l’information auxiliaire : celle qui permet d’associer un individu à une strate.
6
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p.100
Le nombre de strates doit être le plus grand possible. Cette affirmation est assez naturelle :
plus on s’autorise de strates, plus il est facile de constituer des groupes homogènes en intra,
plus il est facile de découper aux bons endroits une e population. En pratique on est assez
vite limité car l’augmentation du nombre de strates accroît le coût de gestion de l’enquête
pour un gain statistique qui devient parallèlement de plus en plus faible, voire négligeable
au-delà d’un certain nombre de strates.
Au terme de la stratification, l’échantillon obtenu est étroitement conditionné par les
caractéristiques du lieu ou du type d’individu de départ7. Ainsi, se recréent les conditions
d’obtention d’une stratification. Autrement dit, on obtient des couches successives de
population dont il ne saurait être question de tirer un échantillon représentatif, tout au plus,
peut-on effectuer des comparaisons de résultats en valeur relative sur chacune des
catégories.
3.1.3. Plan de sondages à plusieurs degrés
Le sondage aléatoire simple que nous avons vu plus haut et qui consiste à tirer au sort les
sujets directement dans la population ciblée, avec la même probabilité d'inclusion pour
chacun, n'est pas toujours réalisable car très souvent, on ne dispose pas d'une liste de sujets
qui composent cette population ciblée. Un sondage à plusieurs degrés est alors nécessaire
pour sélectionner d'abord des grappes d'unités dans une base de sondage intermédiaire.
D'autre part, le sondage aléatoire simple est rarement optimal. Certaines stratégies, telles
que les stratifications, les probabilités de tirage proportionnelles peuvent minimiser la
variance des estimateurs, pour un budget fixé, ou pour mieux répondre à des objectifs
locaux. La méthode de tirage au hasard à chaque niveau peut varier suivant le cas. Nous
disons alors que nous pouvons avoir des tirages avec probabilités inégales.
Le fonctionnement du sondage à plusieurs degrés est le suivant: la population est divisée
en sous-populations appelées unités primaires. Chaque unité primaire est divisée en unités
secondaires, etc. On effectue des tirages au hasard en cascade : nous tirons des unités
primaires ; dans chaque unité primaire, nous tirons une unité secondaire, etc.
Le tirage à plusieurs degrés est moins précis que le sondage aléatoire simple en effet si
l’on veut n individus dans l’échantillon final, il est préférable du point de vue précision de
tirer directement par sondage aléatoire simple ces n individus plutôt que de les obtenir
comme résultat d’un tirage à plusieurs degrés. La mise en œuvre d’un plan de sondage à
deux degrés nécessite de l’information auxiliaire. Très précisément, il faut et il suffit d’être
capable d’établir la liste des individus (US) présents dans les UP échantillonnées. La
variable auxiliaire prend donc la forme d’un supplément à l’identifiant, repérant
l’appartenance de l’individu à telle ou telle UP échantillonnées. Les plans à plusieurs
degrés visent à une économie de moyens. Ils permettent une exécution rapide. Ils sont
économiques, car ils se focalisent sur les tirages.
3.1.4. Plan de sondages en grappes
Le sondage en grappes est un cas particulier du sondage à plusieurs degrés. Ayant tiré un
certain nombre d’unités à l’avant dernier degré de tirage, on réalise l’enquête au dernier
degré de tirage auprès de tous les individus inclus dans ces unités. L’échantillon en grappes
consiste donc à sélectionner au hasard des groupes d’individus – plutôt que des individus.
Il s’applique aux plans de sondage dans lesquels les unités de sondage sont des groupes
(grappes) d’unités de population.

7
On peut également compter les sondages aréolaires comme un sondage stratifié. Associé à la
méthode LQAS, ce type de sondage est depuis peu très utilisé en santé publique.
3.1.5. Plan de sondages à probabilités inégales
Nous avons vu que la stratification et la mise en grappes, comme toutes les enquêtes
complexes font appel à des probabilités inégales. Un sondage complexe, choisi pour
répondre à une contrainte pratique ou pour améliorer le rapport précision/coût, conduit
souvent à introduire des probabilités d'inclusions inégales. Les contraintes de temps et
d’argent mènent normalement à un plan d’échantillonnage complexe, c’est-à-dire à un plan
où on impose une stratification et/ou une mise en grappes, et où les unités sont
sélectionnées avec des probabilités inégales. Mais nous savons également que la
stratification et la mise en grappes concernent des échantillonnages dans une population
préalablement découpée. Les techniques qui permettent de tenir compte de la probabilité
inégale de sélection sont assez bien connues : on ajuste le poids de chaque répondant afin
de refléter le nombre d’unités qu’il représente.
Parallèlement aux familles de sondage à probabilités égales, il existe des plans de sondages
où les individus ont des probabilités d’inclusion inégales à partir de la population brute.
Dans certaines situations, l’introduction de probabilités inégales lors des tirages ne résulte
pas d’une volonté délibérée du sondeur mais d’un état de fait traduisant une réalité que l’on
ne peut pas éviter sans un coût prohibitif au moment de la phase d’échantillonnage.
Dans ce cadre, on peut distinguer des tirages à plusieurs degrés, des tirages avec remise,
des tirages en deux phases avec post–stratification, dans ce dernier cas et toujours dans le
cadre du tirage à probabilité inégales, il est fréquent que l’on distingue dans une population
plusieurs catégories, chaque catégorie correspondant à un groupement de modalités d’une
ou de plusieurs variables qualitatives. Puis on décide d’attribuer à chaque individu d’une
catégorie donnée une probabilité d’inclusion fonction seulement de cette catégorie.
Le sondage dit indirect fait également partie des sondages à probabilités inégales, il
consiste à constituer des échantillons intermédiaires. Le tirage en deux phases généralisé
est une méthode particulière de tirage à probabilités inégales qui procède en deux temps :
tout d’abord, on tire un échantillon s ′ de taille n ′ dans la population entière, selon un plan
quelconque qui conduit à des probabilités de sélection P i(1) . Dans un second temps, on
construit un système de probabilités de sélection (conditionnelles) des individus j de s ′ et
on échantillonne n individus dans s ′ . Le processus a donc donné lieu à deux tirages
successifs emboîtés, appelés respectivement tirages de première et de seconde phase. 8
3.1.6. Plan de sondages à échantillonnage équilibré
Bien que les plans de sondage équilibrés ne soient pas couramment utilisés, la méthode de
l’échantillonnage équilibré elle, est connue depuis longtemps. Elle peut être abordée sous
le prisme d’un plan de sondage où sa mise en oeuvre implique la dérivation de poids de
sélection des unités ou encore comme un simple moyen permettant d’arriver à un
échantillon et de conduire ensuite l’inférence sans égard au plan utilisé9.
Le but du tirage équilibré est, selon Pascal Ardilly, d’assurer la représentativité du sondage sans
avoir à utiliser un estimateur plus compliqué qu’une moyenne simple ou qu’éventuellement un
estimateur des sommes dilatées si on tire les individus avec des probabilités inégales. Il s’agit ici
d’utiliser un algorithme de tirage des individus de telle manière que chaque individu i ait une
probabilité Pi strictement positive connue d’avance d’appartenir à l’échantillon et que l’estimateur
Yi
classique Tˆ = ∑ (3)
i∈s Pi

8
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p 179
9
Steve Fecteau et Wisner Jocelyn1 Une application de l'échantillonnage équilibré:
le plan de sondage des entreprises non incorporées accès le 09/12 /2008
http://www.mat.ulaval.ca/fileadmin/Sondages_2005/Seance_6/6Fecteau_Wisner.pdf
estime parfaitement le total d’une variable auxiliaire Xi bien corrélée à la variable
d’intérêt Yi. . L’effort est donc fait au niveau de la méthode de tirage. On dit qu’on obtient
un sondage représentatif de X, parce que X̂ est sans biais de X et de variance nulle par
construction.10 Pour y arriver, plusieurs algorithmes sont proposés dans la littérature
spécialisée et en particulier la méthode du Cube qui aboutit, en présence d’information
auxiliaire, à l’estimation par régression.
3.1.7. Plan de sondages empiriques
Les sondages empiriques sont les plus connus du grand public et les plus utilisés par les
instituts de sondage d'opinion Ils s’opposent aux sondages probabilistes en ce sens où il
n’est pas possible de déterminer a priori quelle est la probabilité qu’a chaque individu de la
population d’appartenir à l’échantillon. Les méthodes d’échantillonnage non probabilistes
comme la méthode des quotas, des itinéraires, des cas-types, contrairement aux
probabilistes, ne s’appuient pas sur le hasard pour sélectionner les individus d’une
population. Les échantillons ainsi constitués ne sont donc pas probabilistes et, de ce fait, on
ne peut leur appliquer la notion de marge d’erreur statistique. Autrement dit, on ne connaît
pas le niveau de précision des estimations ainsi produites. Ils présentent toutefois d’autres
avantages, comme ceux d’être peu coûteux, rapides et faciles à utiliser.
La méthode des quotas est la méthode empirique la plus utilisée. Le principe est le suivant:
on divise la population en un certain nombre de sous populations selon une ou plusieurs
variables catégorielles. Ensuite, on demande aux enquêteurs d’interroger un nombre
d’individus proportionnel à chacune de ces sous populations. Les enquêteurs sont libres de
choisir les personnes à interroger. Ce sont donc les enquêteurs qui construisent le plan de
sondage. Le plan de sondage et les probabilités d’inclusion sont inconnus. Les avantages
de cette méthode sont nombreux: il n’est pas nécessaire de disposer de la base de sondage.
Les seules informations utiles sont les effectifs de certaines catégories de la population. De
plus, le problème des refus de réponse ne se pose pas puisque l’enquêteur peut choisir lui-
même les individus à interroger.11 L’inconvénient majeur de la méthode des quotas est de
ne pas permettre de calculer scientifiquement la marge d’erreur du sondage. Les lois
statistiques qui permettent de la déterminer ne valent théoriquement que pour les sondages
aléatoires. En pratique, on considère cependant que la marge d’erreur des sondages par
quotas est égale ou inférieure à celle des sondages aléatoires.
La méthode des unités types, autre méthode de sondage empirique, repose sur l'idée
suivante : les différentes variables attachées à un individu de la population n'étant pas
indépendantes, un individu qui se trouve dans la moyenne de la population pour un certain
nombre de caractères importants, sera également peu différent de la moyenne pour les
autres caractères. La méthode consiste donc à diviser la population en un certain nombre
de sous-ensembles relativement homogènes et à représenter chacun d'eux par une unité-
type. On choisit donc des unités d'individus que l'on considère comme fortement
représentatives de certaines catégories de population.

3.2. Précision des plans de sondages


Pour connaître la précision des informations recherchées à travers l’enquête, il nous faut
des estimateurs. La spécificité de la théorie des sondages au sein de la statistique en
général est que nous ne connaissons jamais finalement aucun paramètre avec certitude

10
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p 182
11
Tille Yves, Utilisation d’informations auxiliaires dans les enquêtes par sondage accès le 10 /12/
2008 http://www.idescat.cat/sort/questiio/questiiopdf/23.3.4.Tille.pdf
d’où le principe des estimateurs en cascade. L'estimation est un processus qui consiste à
calculer une valeur approximative des paramètres de population inconnus en utilisant
uniquement la partie de la population qui est incluse dans un échantillon. Des inférences
sont ensuite faites au sujet des paramètres inconnus en utilisant les données d'échantillon et
les renseignements connexes sur le plan de sondage. Nous commençons avec le paramètre
initial inconnu θ , ce paramètre peut prendre la forme d’une moyenne, d’une proportion ou d’un
total et se formule ainsi successivement pour le total et la moyenne
N
θ = Y1 + Y2 + Y3 + YN = ∑ Y =T i (4)
i =1

Y1 + Y2 + Y3 + YN T
θ= = =Y (5)
N N

Nous devons estimer θ pour avoir une première image de la population. Pour avoir une
estimation θˆ on fait intervenir la notion de poids. Pour T, le poids de chaque individu est
1, tandis pour Y le poids de chaque individu est 1/N. Les estimateurs de θ : θˆ pour l e
total, la moyenne, la proportion sont des paramètres fonction linéaire des Yi.12 En notant s
l’échantillon de taille n. L’estimateur θˆ est de la forme :
θˆ = ∑w i (s). Yi (6)
i∈s
La sommation est étendue à tous les indices i appartenant à s, c'est-à-dire à tous les
individus de l’échantillon s. wi (s) est le poids de sondage en question, attaché à l’individu
i de l’échantillon s. L’estimation pour la population se calcule donc au moyen d'un
estimateur d'Horvitz-Thompson où les Yi (les réponses concernant une variable) sont
pondérées par l'inverse des probabilités d'inclusion des unités échantillonnées. Le
problème du sondage est un problème de pondération : chaque individu de l’échantillon
représente un certain nombre d’individus de la population13. Ces poids (appelés poids
d'échantillonnage) peuvent être interprétés comme étant le nombre de fois que chaque unité
échantillonnée devrait être répétée pour représenter la population complète.
La moyenne de la variable Y dans la population peut alors s’écrire comme un rapport de
deux totaux qui seront estimés séparément :
T
Y= (7)
N
Nous verrons ci après, en suivant les démonstrations de Pascal Ardilly qu’une proportion
est une moyenne particulière et que ces paramètres sont tous deux des sommes pondérés
des valeurs Yi de tous les individus de la population.
Comme en statistique descriptive, le paramètre θ sous ces différentes est insuffisant pour
avoir une vue correcte de la population, il faut une information sur sa dispersion :
la variance de θˆ notée V θˆ qui est inconnue et qu’il faut calculer par son estimateur…
V θˆ est un paramètre de la population (moyenne des carrés des écarts à la moyenne) qui
prend la place de θ et dont il faut associer un estimateur quadratique Vˆ θˆ , avec les poids
adéquats. En présentant les estimateurs des différents types de sondages probabilistes nous
aurons donc à définir l’expression de l’estimateur θˆ du paramètreθ, et l’expression de son

N
12
De façon générale, les paramètres linéaires s’écrivent : θ = ∑ α . Y . où α , 1 ≤ i ≤ N, sont des
i =1
i i i

coefficients données
13
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p 52-53
biais et de sa variance vraie V θˆ et l’expression et calcul de l’estimateur (voire des
estimateurs) de cette variance Vˆ θˆ .
3.2.1. Estimateurs des sondages aléatoires simples

Dans un échantillon aléatoire simple, les éléments constituant l'échantillon sont extraits au
hasard d'une liste de la population. On extrait ainsi n individus d'une population de taille N.
Le seul estimateur linéaire sans biais du total T dont les poids wi (s).ne dépendent pas de s
Yi
est Tˆ = ∑ Pi . (8)
i∈s

L’estimateur sans biais du total T est dans le cas du sondage aléatoire simple :

Tˆ = N. y (9)

avec y la moyenne simple des Yi calculée sur l’échantillon tiré s.


Les ouvrages spécialisés montrent que l’estimation d’une moyenne dans le cadre des sondages
aléatoires simples est

S2
V( y ) = (1- f). (10)
n
n
avec f le taux de sondage et S 2 la variance.
N
Ce qui fait dire à Pascal Ardilly que cette formule fondamentale de base prouve que, pour réaliser
un sondage aléatoire simple qui fournisse des résultats précis, ou peut agir dans trois directions en
recherchant : une taille d’échantillon n grande, un taux de sondage f grand, voisin de 1 et une
2
dispersion S faible. En effet plus l’échantillon est grand, plus on peut avoir confiance dans
l’estimation qui en résulte, si le taux de sondage est toujours compris entre 0 et 1 par valeurs
inférieures, alors n se rapproche de N et le sondage devient presque un recensement et .plus les
individus se ressemble (en terme de Y) plus à taille n fixée, les estimateurs seront précis ; et il suffit
d’interroger un seul individu. Dans les sondages aléatoires simples la variance de l’estimateur du
total vaut :
S2
V( Tˆ ) = N2.(1- f). (11)
n
Nous voyons ici que la taille de la population a cette fois ci une importance capitale pour la valeur
numérique de la variance. Nous avons vu que dans l’expression de la variance de la moyenne

V( y ) que S 2 est un paramètre inconnu qu’il faut estimer. Un estimateur sans biais de S 2 est :

1
s2 = − y)
2

n −1
∑ (Y
i∈s
i , (12)

l’estimation de la variance de la moyenne devient :


ˆ s2
V ( y ) = (1- f). (13)
n
et l’estimation de la variance d’un total :
s2
Vˆ ( Tˆ ) = N2.(1- f). (14). (14)
n
Il est très fréquent d’avoir à estimer une proportion P dans une population, ce problème se ramène à
l’estimation d’une moyenne simple. P apparaît comme une moyenne et on l’estime sans biais, selon
la formulation appropriée à toute estimation de moyenne, par P̂ = y . L’estimateur y est aussi la
proportion d’individus de l’échantillon:
S2
V (p) = (1- f). (15)
n
N
avec la dispersion S 2 = . P . (1-P). (16)
N −1

En supposant N grand nous obtenons

S 2 = P (1-P) (17)

d’où finalement la variance de la proportion

P (1 - P)
V(p) = (1-f). . (18)
n
Etant donné que

s2 = n p. (1-p) (19)
n −1

l’estimation sans biais de V(p) est

Vˆ (p) = (1-f) . p .(1 - p) (20)


n −1

où p est la proportion d’individus du domaine calculée dans l’échantillon. Contrairement à


P, la valeur p est calculable. En général si n grand et f négligeable, on estime la précision
selon

Vˆ (p) = p .(1 - p) (21)


n
3.2.2. Estimateurs des sondages stratifiés
Si on considère l’expression de la variance de y , soit V( y ) on constate que la dispersion
vraie S2 dans la population est un paramètre qui peut détériorer sensiblement la précision de
l’estimateur. Si la population est homogène naturellement, y peut donner de bons résultats. Sinon,
il faut agir pour que la valeur élevée de S2 ne conduise pas à une catastrophe : c’est l’objet de la
stratification. La stratification est basée sur la décomposition de la variance. Pour simplifier,
supposons Nh avec une population de taille N scindée en h groupes. Nous reprenons la formule
présentée par Pascal Ardilly14 :
H H
Nh é Nh
S2 ≃ ∑
h =1 N
Sh+ ∑
h =1 N
( Y h - Y )2 , (22)

14
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p. 88
H
Nh
comme
h =1 N
∑ = 1 , on peut dire que S 2 est la somme de deux moyennes pondérés : le premier
H
Nh é
terme : ∑ S h est une moyenne pondérées des dispersions à l’intérieur des groupes formés,
h =1 N
H
Nh
on parle de dispersion intra- groupes et le deuxième terme : ∑ ( Y h - Y )2 qui est une
h =1 N
moyenne pondérée des carrés des écarts entre les moyennes des groupes et la moyenne générale.
On parle de dispersions intergroupes. Le but de la stratification est d’obtenir des Sh petits.
Comme S2 est une grandeur fixe, il faut constituer des groupes tels que la dispersion
INTER, soit la plus grande possible (auquel cas la dispersion INTRA sera faible). Il faut
donc que les Y h soient les plus dispersées possible. La moyenne Y dans le sondage stratifié est :
H
Nh
Y =∑ .Yh (23)
h =1 N
L’estimateur sans biais de la moyenne Y est linéaire, et s’écrit :
H
Nh
Yˆ ST = ∑ . yh (24)
h =1 N
L’estimateur Yˆ ST est linéaire et s’écrit :
H
Nh
Yˆ ST = ∑ i∑ .Yi (25)
h =1 ∈sh
N .nh
où sh est l’échantillon tiré dans la strate h et nh est la taille de cet échantillon. Tout individu
échantillonné en strate h a donc un poids de sondage dans le sondage stratifié :
Nh
Wi = (26)
N .nh
égal au nombre d’individus qu’il représente (divisé par N). Ce poids dépend de la strate et
cela suffit pour affirmer que, sauf particulier, le tirage stratifié est un tirage à probabilités
inégales. La variance de l’estimation de la moyenne d’une strate dans le sondage stratifié
H
N S 2h
( Yˆ ST ) = ∑ ( h )2. (1-fh). (27)
h =1 N nh
avec fh : taux de sondage dans la strate h nh : taille de l’échantillon dans la strate h et s 2 h : la
dispersion vraie au sein de la strate h.
Si on s’intéresse à une proportion globale P, la dispersion ou variance d’une strate est égal à :

S éh ≃ Ph. (1 - Ph.) (28)

où Ph est la proportion vraie inconnue au sein de la strate h. L’estimateur sans biais de la variance
d’une strate est :
H
Nh 2 s2h
Vˆ ( Yˆ ST ) = ∑ ( ) . (1-fh). (29)
h =1 N nh
où s 2 h est la dispersion calculée dans l’échantillon de la strate h ; cela tient au fait que s 2 h estime
nh Nh
sans biais S 2 h . Un sondage stratifié vérifiant la condition = dit à allocation proportion-
n N
nelle permet d’écrire que l’estimation de la moyenne de la variable de la strate recherchée est égale
à la moyenne de la population globale et offre donc un avantage de simplicité dans le calcul de
l’estimateur, puisque le calcul de d e la moyenne de la population est l’opération d’estimation la
plus simple que l’on puisse imaginer Le sondage devient dans ce cas particulier, un sondage à
probabilités égales, puisque la probabilité de sélection d’un individu quelconque de la strate h
nh n
vaut : = = Constante = f (30)
Nh N

3.2.3. Estimateurs des sondages à plusieurs degrés


Par rapport au sondage aléatoire simple et au sondage stratifié, le T dans les sondages à plusieurs
degrés est inconnu. On suppose que toutes les tailles Ni soient connues mais que Ti vrai total, est
inconnu dans l’UPi. :
Ni
Ti = ∑
j =1
Yi .j (31)

avec Ni la taille de l’unité primaire i (c’est le nombre d’unités secondaires recensées dans l’unité
primaire i). Il devient clair que le vrai total est :
M
T= ∑i =1
Ti (32)

avec M = le nombre total d’unités primaires constituées. Les démonstrations dans la littérature
spécialisée arrivent à la formule suivante de l’estimation du total dans les sondages à plusieurs
degrés :
M Ni
Tˆ = ∑ ( . ∑ Yi .j ) (33)
m i∈s n i j∈si
Contrairement au cas du sondage aléatoire simple, il n’y a pas besoin de connaître la taille totale N
de la population pour estimer un total T. La variance de Tˆ est égal à :
ˆ m S 21 M M ni S 2 2 .i
. ∑ N . (1-
2 2
V T = M . (1- ). + ). (34)
M m n i =1 1
NI ni
M
1
avec S 12 =
M −1
∑i =1
( Ti - T )2 (35)

Ni
1
et 2
S 2,i =
N −1
∑j =1
( Yij - Yi )2 (36)

M
1
où T =
M

i =1
Ti (37)

NI
et T i=
1
Ni

j =1
Yij (38)

ˆ 2 m S 21
Nous observons deux termes dans V T : Le terme A : M . (1- ). qui ne fait intervenir
M m
que des grandeurs liées au premier degré de tirage (ou tirage des UP) ; On parle alors de
variance INTER (sous entendu inter UP). Cette première partie a exactement la forme de la
variance de y dans le sondage aléatoire simple. Un terme 1-f où f désigne le taux de
sondage des UP et un terme de dispersion vraie dans la population des UP, un ordre de
grandeur en 1/m. où m est la taille de l’échantillon d’UP, et un terme de dispersion vraie
M M ni S 2 2 .i
. ∑ N . (1-
2
dans la population des UP. Le terme B : ). qui fait intervenir
n i =1 1
NI ni
la dispersion Y au sein de l’UP. On parle de variance INTRA (sous entendu intra UP).
L’estimateur de la variance de l’estimation du total est donné par la formule suivante :
m s 21 M M ni s 2 2 .i
Vˆ Tˆ = M2. (1- ). + . ∑ N . (1-
2
). (39)
M m n i =1 1
NI ni
1 Tˆ 2
avec s 12 = . ∑ ( Tˆ i - ) (40)
m − 1 i∈e& M
2 1 i

et s 2,i =
n −1
∑ j∈e2
( Yij - y i )2 (41)

Les notations e1 et e2 désignent ici les échantillons de degrés respectifs 1 et 2.

3.2.4. Estimateurs des sondages en grappes


Le sondage en grappes étant un cas particulier du sondage à plusieurs degrés, aucune notion
nouvelle n’apparaît par rapport aux cas plus général du tirage à plusieurs degrés. On retiendra les
formules fondamentales de l’estimateur de la moyenne et de sa précision dans le cas d’un tirage
par sondage aléatoire simple des m grappes de tailles égales N0 (échantillon s) parmi M.
L’estimateur de la moyenne pour le sondage en grappes est :
No
1
Yˆ = ∑ ∑ Yij = y (42)
m.N O i∈s j =1
L’estimateur de la variance de la moyenne est :
m S2
V ( y ) = (1 - ). . (1 + ρ . (No -1), (43)
M m; M
où ρ représente l’effet de grappe et S2 la dispersion vraie des variables individuelles Yij . Si
les grappes sont de tailles inégales, il s’ajoute un terme positif traduisant la dispersion de
ces tailles. En effet avec les notations habituelles des sondages à deux degrés:
No
ˆ M 1
Y = . ∑ ∑ Yij.
N m. i∈s j =1
(44)

La variance de l’estimation de la moyenne est


m S2
V ( Yˆ ) = (1 - ). . (1 + ρ . ( N -1) + △ (45)
M m; M
N CV ( N ) 2
avec N = ( taille moyenne des grappes dans la population ) et △ = N . ( ).
M CV (Y )
Pour faire une estimation du total, on peut assimiler le tirage en grappes à un sondage aléatoire
simple où l’unité d’échantillonnage serait la grappe, ce qui s’écrit pour estimer un total :
Ti Ti
Tˆ = ∑ = M. ∑ (46)
i∈s m i∈s m
M
où Ti est le vrai total dans la grappe i et s l’échantillon de grappes. cette fois ci Ti est connu, et n’a
plus à être estimé.
La variance de l’estimation du total s’écrit donc :
ˆ 2 m S 21
V T = M . (1- ). (47)
M m
M
1
2
où S 1 = ∑
M − 1 i =1
( T i - T )2 (48)
M
1
et T =
M

i =1
Ti

Cette variance coïncide avec la première partie de la formule générale du tirage à deux degrés
(toute la variance est de type INTER, puisqu’il n’y a aucun aléa en INTRA . L’estimation de
variance du total estimé est
m s 21
Vˆ Tˆ = M2. (1- ). (49)
M m
1 Tˆ 2.
avec s 12 = . ∑ ( Tˆ i - ) (50)
m − 1 i∈e& M

3.2.5. Estimateurs des sondages à probabilités inégales


Avec Pi la probabilité d’inclusion de l’individu i choisi par le sondeur, pour estimer le total T, on
peut utiliser l’estimateur de Horvitz-Thompson:
Yi
T̂ = ∑
i∈s Pi
. (51)

Pour estimer la moyenne Y , il suffit de diviser T̂ par N



Y = . (52)
N
Pour la variance de l’estimation du total, on montre dans le cas des échantillons de taille fixe n tirés
sans remise que
N
1 − Pi N N Pi , j − Pi .Pj
V ( T̂ ) = ∑ 2
. Yi + ∑ ∑ . Yi .Yj (53)
i =i Pi i =1 j =1 Pi. .Pj
j ≠i

1 N N
Yi Yj 2
= ∑ ∑ ( Pi , j − Pi .Pj ) . 〔 - 〕 (54)
2 i =1 j =1 Pi Pj
j ≠i

La première égalité (53) est vraie dans tous les cas, même si l’échantillon est de taille aléatoire.
Quand l’échantillon est de taille fixe n , la moyenne vraie des Pi vaut n /N , ce qui montre que
l’ordre de grandeur des Pi reste n/N. Avec un échantillon de taille fixe n la précision obtenue pour
un plan à probabilités inégales reste d’ordre de grandeur 1/N. La seconde formule (54)
s’interprète facilement car elle prouve que pour avoir une variance nulle il suffit que le
Y Yj 2
terme ( i - ) soit égal à 0 pour tout couple (i, j) de la population. Pour cela si Yi est
Pi Pj
toujours positif, il suffit d’avoir Yi /Pi constant, si Pi est à peu près proportionnelle à Yi pour
chaque individu i de la population.
Lorsque pour tout couple (i,j) d’individus de la population on a Pi,j non nul alors un estimateur
sans biais de V T̂ est :
1 − Pi
N N N Pi , j − Pi .Pj
Vˆ ( T̂ ) = ∑ 2
2
. Yi + ∑ ∑ . Yi .Yj (55)
i =i Pi i =1 j =1 Pi. .Pj .Pi , J
j ≠i

Et lorsqu’en sus, démontre Pascal Ardilly, l’échantillon est de taille fixe n , on peut obtenir
un second estimateur de V T̂ selon la formule suivante :
1 N N Pi , j .Pi .Pj Yi Yj 2
Vˆ ( T̂ ) = ∑ ∑ . ( - ) (56)
2 i =1 j =1 Pi , j Pi Pj
j ≠i

3.2.6. Estimateurs des sondages à échantillon équilibré


Le modèle employé dans le cadre des sondages à échantillon équilibré est celui de la
régression. Dans ce cas les variances d’échantillonnage fait intervenir des résidus pondérés
de la régression linéaire des Yi sur les Xi ; On définit le vecteur des coefficients de
régression pondérés des Yi sur les Xi de la manière suivante15 :
15
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p. 194
N
1 − Pi N
1 − Pi
B=( ∑ X i X ′
i ) -1
( ∑ X i Yi′ ) (57)
i =1 Pi i =1 Pi

En nous arrêtons sur le total comme paramètre, et en prenant la taille de l’échantillon


relativement grande, l’estimation du total est :
Y
T̂ EQ = ∑ i (58)
i∈s Pi
De manière générale, un plan équilibré estime exactement les totaux des variables auxi-
liaires avec l’estimateur naturel d’Horvitz-Thompson. La variance de T̂ EQ s’écrit :
N
1 − Pi
V( TˆEQ ) ≃ ∑ (Yi - B ′X i)2 (57)
i =1 Pi
Ainsi constate Pascal Ardilly, la variance est nulle dès que Yi est combinaison linéaire des
composantes de Xi .
L’estimateur de la variance Vˆ ( TˆEQ ) s’obtient en estimant chacune des sommes intervenant
dans V( Tˆ ) par l’estimateur de d’Horvitz-Thompson.
EQ
N
1 − Pi
Vˆ ( TˆEQ ) = ∑ (Yi - Bˆ ′ Xi )2 (59)
i =1 Pi

1 − Pi 1 − Pi
avec B̂ = ( ∑ 2
X i X i′ )-1 ( ∑ 2
X i Yi′ ) (60)
i∈s Pi i =1 Pi

3.2.7. Estimateurs et sondages empiriques


Nous resterons sur la méthode des quotas qui est la méthode empirique la plus usitée. Dans
le cas du sondage par quotas, la probabilité qu’a un individu de la population d’appartenir à
l’échantillon est inconnue : il est alors impossible d’évaluer la variance d’échantillonnage
et donc de mesurer la précision des estimations Deux réactions sont possibles : de
nombreux auteurs considèrent que cette méthode est inutilisable. D’autres auteurs, faute de
mieux, adoptent l’hypothèse d’un tirage à probabilités égales; hypothèse qui n’est,
vraisemblablement, jamais vérifiée. Si l’on tient absolument à fournir un résultat
numérique de précision, on peut toujours utiliser la formule de variance d’un sondage
stratifié à allocation proportionnelle, qui est le type de sondage probabiliste qui se
rapproche le plus du sondage par quotas, assimilant à une strate chaque sous-population sur
laquelle on doit respecter un quota ;
Dans les sondages par quotas, le biais est créé essentiellement par les conditions mêmes du
travail de l’enquêteur. Ce que pourrions faire c’est estimer le bais de sélection mais n’ayant
pas la variance, cette estimation n’est pas calculable. La précision de la méthode des quotas
se joue donc sur le terrain. Le fait de respecter des proportions fixées à l’avance limite la
marge de manoeuvre laissée à l’aléa. On peut donc supposer que la variance d’un sondage
par quotas est une grandeur plutôt faible dès lors que la variable d’intérêt est bien
expliquée par les critères sur lesquels on a basé les quotas. Pour cela il faut que les
enquêteurs respectent scrupuleusement les consignes d’enquêtes. Il faut par ailleurs rester
attaché au credo de la méthode des quotas : « tous les individus d’une catégorie donnée
prennent la même valeur pour la variable d’intérêt ».16

16
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p. 204
4. Discussion
Un sondage est conçu pour permettre l'estimation la plus précise possible de paramètres
caractérisant une population réelle et bien définie. Rappelons d'abord que le recours à un
sondage a pour but d'estimer sans biais et avec la plus petite variance possible des
paramètres qui concernent une population bien déterminée. Cette estimation peut être
biaisée par différents types d’erreur..

4.1. L’erreur totale


L’erreur totale regroupe l’erreur d’échantillonnage + l’erreur d’observation + les erreurs dues au
défaut de couverture et à la non réponse En terme de sondage, σ (θ) et la variance de l’estimateur
mesurent la précision et réalisent avec le biais, un ensemble de mesures de l’erreur
d’échantillonnage que l‘on commet : plus ils sont grands moins le plan de sondage est bon. Il faut
alors soit agir sur l’expression de l’estimateur, soit agir sur la probabilité de tirage, c'est-à-dire
modifier la méthode de tirage de l’échantillon.

4.1.1. Erreur d’échantillonnage


Le fait que l’on n’enquête qu’un échantillon s et non pas toute une population provoque un
certain type d’erreur : l’erreur d’échantillonnage. La valeur prise par l’estimateur est fonction
de l’échantillon. Le bais de l’estimateur constitue une première mesure de l’erreur
d’échantillonnage
Dans un sondage probabiliste, on affecte par définition à chaque échantillon une probabilité fixée
d’avance d’être sélectionnée. Les probabilités attachées aux différents échantillons n’ont aucune
raison d’être égales. Dans l’ensemble des tirages possibles s1 s2 s3 on peut tirer l’échantillon sk avec
une probabilité p (sk) auquel cas on estime θ par g (sk) ; On a donc la somme des p (sk) X g (sk ) Il
s’agit donc d’une moyenne pondérée mais aussi l’espérance mathématique de l’estimateur g. Si on
cherche à estimer le paramètre θ au lieu d’utiliser g, on note l’estimateur correspondant comme
nous l’avons noté au cours de notre article θˆ et si désigne l’échantillon courant, on a
E( θˆ ) ∑ (p(s). θˆ (s).
s

Une des préoccupations des sondeurs est de réaliser un tirage pour lequel E( θˆ ) soit proche de θˆ et
de chercher donc à réduire la quantité
E( θˆ -θ ) = E( θˆ ) - θ
que l’on appelle biais de l’estimateur θˆ , et qui constitue donc une première mesure de l’erreur
d’échantillonnage17. Nous constatons que le biais dépend de la probabilité d’inclusion donc du
nombre de répondants à partir duquel celles-ci sont établies.
La notion de moyenne utilisée pour calculer le biais ne suffit pas à mesurer la qualité d’un
échantillonnage, il faut une autre grandeur davantage liée à la dispersion des valeurs des
estimations. On décide donc de calculer la variance des estimations lorsque l’aléa est
l’échantillon s.
L’erreur quadratique moyenne est également un indicateur de précision qui englobe les
notions de biais et de variance. L’erreur quadratique moyenne d’une estimation est égale à
la variance de l’estimation plus le carré du biais inhérent aux méthodes d’enquête
« L’EQM est un indicateur synthétique de qualité permettant de répondre à la question
suivante : est-il préférable d’avoir un biais fort et une variance faible ou biais faible et une
variance forte ? Il n’y a pas de bonne réponse, mais la pratique prouve que l’on cherche en
général à éviter en priorité le s biais forts » 18

17
Idem, p. 16
18
Idem, p. 21
Le coefficient de variation est également utilisé pour évaluer la précision relative des
estimations, Il s'exprime comme le rapport, en pourcentage, de l'erreur-type de la
proportion estimée sur la proportion estimée elle-même. Pour deux estimations faites sur la
même population ou sous-population, la plus petite estimation aura un coefficient de
variation plus grand car la qualité de l'estimation produite s’appauvrit lorsque le
phénomène devient de plus en plus rare.

4.1.2. Marge d’erreur et intervalle de confiance


Puisque tout ou presque est lié à l’échantillon de quelle taille doit-il être? Ici entrent en jeu les
notions de « marge d’erreur » et « d’intervalle de confiance ». La marge d’erreur c’est simplement
le degré de précision du sondage, la fiabilité de celui-ci tient à son intervalle de confiance dont on
détermine que 95 % est une base raisonnable. Dans les conditions favorables, l’intervalle de
confiance vrai à 95% pour la moyenne Y d’un échantillon aléatoire simple19 est :
s2 s2
IC = y -2 . (1 - f)
. ; y + 2 . (1 - f) . (61)
n n
et pour une proportion :

p(1 − p) p(1 − p)
P= p-2 . . ; p+ 2 . . (62)
n n

avec le taux f négligeable et n assez grand.


Plus une marge d’erreur est petite, plus le sondage est précis. La marge d’erreur c’est le
degré de précision du sondage. Si on ne souhaite qu’avoir une idée « grosso modo », on
peut se contenter d’un sondage avec une marge d’erreur plus grande, si par contre on a
besoin de plus de précision, alors il faut opter pour une marge d’erreur plus petite. Il faut
aussi comprendre que la marge d’erreur est liée au nombre de personnes que l’on interroge
: plus notre échantillon est gros, plus la marge d’erreur sera petite. 20
4.1.3. Représentativité et non réponse
Si le fait de multiplier les interviews, améliore l’intervalle de confiance et donc la
précision, il n’est toutefois pas gage de représentativité. L'une des contraintes dans
l'élaboration d'un échantillon pour qu'il fournisse de bons estimateurs est qu'il soit
représentatif. Améliorer la représentativité, c’est faire en sorte qu'une partie de la
population représente le tout correctement. À ce stade, il existe plusieurs techniques
permettant de constituer un échantillon ayant la propriété d'être représentatif de l'ensemble
de la population. La représentativité en question porte sur un nombre limité de variables
(en général quatre ou cinq : sexe, âge, profession, taille de l'agglomération de résidence,
région de résidence) et signifie que, dans l'échantillon, la répartition entre les hommes et
les femmes - si l'on prend cette variable en exemple - est la même que celle observée par le
recensement de la population (donnée de référence). Les échantillons sont donc représentatifs du
recensement de population, lui-même représentatif de la structure réelle de la population (donnée
inconnue) et ce, uniquement pour les variables précédemment citées. L'hypothèse est qu'un
échantillon représentatif en termes de sexe, âge, etc., le sera aussi pour ce qui est des
comportements sociaux ou sanitaires.

19
En théorie, on ne peut pas connaître scientifiquement la marge d’erreur d’un sondage réalisé par
quotas. En pratique, on estime que cette marge est du même ordre que celle que la loi de Gauss
permet de calculer dans le cas des sondages aléatoires
20
http://quebecpol.wordpress.com/2007/05/31/la-technique-du-sondage-une-introduction/
La non-réponse survient lorsque le répondant ne comprend pas une question ou l'interprète
mal, refuse d'y répondre ou n'arrive pas à se souvenir des renseignements demandés. Ce
phénomène se mesure à l'aide du taux de non réponse partielle qui est défini comme le
rapport entre le nombre de personnes ne fournissant pas de réponse à une question et le
nombre de celles devant y répondre. Le problème posé par ces non- répondants est de
savoir s’ils diffèrent de manière significative des répondants. Il est par exemple fréquent
d’observer que le taux de réponse à des questionnaires est nettement différent d’une
catégorie de la population à une autre21.».Le redressement est un système de repondération
facultatif qui intègre une information auxiliaire sur la population ciblée, lorsqu'elle est
disponible. Il vise à réduire les biais de non réponse, en faisant l'hypothèse que les non-
répondants auraient répondu en moyenne comme les répondants à l'intérieur d'une
catégorie donnée. Cela est certainement faux. Mais les estimations faites sans redressement
reviennent à considérer que les non-répondants auraient répondu en moyenne comme
l'ensemble des répondants de l'échantillon. Cette hypothèse a alors toute chance d'être
encore plus fausse

4.2. Les « petits arrangements » qui nuisent à l’interprétation


L’interprétation des sondages présente des pièges dus aux techniques statistiques de
masquage des erreurs d’échantillonnage et aux soubassements idéologiques de leurs
commanditaires. Pour corriger les biais et suggérer une interprétation recevable les
instituts de sondage ont recours à la technique du redressement pour corriger les chiffres
bruts de l’enquête.
En présence de non réponse, les estimateurs nous avons vu plus haut sont potentiellement
biaisés. Le redressement a alors pour ambition principale de limiter ce biais. Toute
tentative pour corriger le biais de non-réponse fait nécessairement appel à des hypothèses
sur le com-portement des non-répondants. Si ces hypothèses sont très éloignées de la
redite, le redres-sement peut alors, au lieu de corriger le biais, introduire lui-même un biais
plus important.
C’est à ce niveau qu’interviennent les informations auxiliaires. Dans le cas idéal d'un
échantillon sans non-réponse, ces procédés peuvent réduire la variance des estimations.
Dans le cas plus habituel où certains sujets n'ont pu être joints ou ont refusé de participer
(non-réponse totale), le redressement vise à corriger, par un système de repondération22, au
moins partiellement, les biais qu'elles introduisent. La pondération consiste à attribuer à
chaque répondant une valeur, appelée un poids, correspondant au nombre d'individus,
incluant lui même, qu’il « représente » dans la population visée. Les ajustements pour la
non réponse consistent donc à augmenter les poids initiaux des répondants afin que ces
derniers représentent aussi les non-répondants. Le dernier ajustement apporté au poids
correspond à la poststratification. Cette procédure permet d'ajuster la pondération afin de
s'assurer que la distribution pondérée des répondants soit conforme à celle de la
population visée. Nous constatons que pour définir des catégories de redressement, il faut
premièrement, disposer d'une information auxiliaire sur des variables corrélées au
phénomène étudié, soit en pratique connaître avec une quasi certitude l'effectif de la
population dans chacune des catégories h de ces variables ; deuxièmement, pouvoir classer
chaque répondant de l'échantillon dans la catégorie h à laquelle il appartient (ce qui
suppose que l'on ait recueilli cette information dans l'enquête). Il existe trois principales
méthodes de redressement : l'estimateur post-stratifié, l'estimateur par le ratio et
21
Par exemple il est plus élevé plus élevé parmi les personnes âgées que parmi les plus jeunes. De
même, les absences sont plus fréquentes dans les milieux urbains que dans les milieux ruraux.
22
WARSZAWSKI Josiane, Poids de sondage et repondération dans les enquêtes par sondage accès
le 29/11/2008 : http://ist.inserm.fr/basisateliers/atel117/wars.pdf
l'estimateur par la régression qui consiste toutes, en disposant du total d'une variable X, à
modifier les poids de sorte que le total estimé de X soit égal au total connu Tx.
Ces redressements peuvent constituer une aventure hasardeuse23 en tout cas, ils recèlent le
danger de masquer le non respect du nombre d’interviews prévues ou, à tout le moins, le
non respect des consignes données aux enquêteurs et, particulièrement, les critères dans la
méthode des quotas. Par ailleurs la non prise en compte des redressements dans
l’interprétation des résultats des sondages peut parfois conduire à des inexactitudes qui
peuvent être habilement exploitées par les donneurs d’ordre.

4.3. Les questionnaires qui peuvent nuire à l’observation


La qualité du questionnaire est peut-être plus cruciale encore que celle de l’échantillon
Nous venons de voir qu’à la rigueur, un mauvais échantillon peut être redressé ; un
mauvais questionnaire ne se rattrape pas. Même avec un questionnaire très soigneusement
construit, il arrive souvent qu’une ou deux questions soient inexploitables. Il s’agit
d’atteindre ce qui n’est pas directement observable. Les enquêteurs jouent un rôle essentiel,
la façon dont le questionnaire est posé est cruciale pour caractériser les individus. La
sociologie et la psychologie apportent aux techniques de sondage des outils tels que le
questionnaire fermé, le questionnaire ouvert et le questionnaire structuré qui sont peu
usités. Au final, s’impose la nécessité de garder à l’esprit cette affirmation de Pierre
Bourdieu : « Pas plus qu’il n’est d’enregistrement parfaitement neutre, il n’est de question
parfaitement neutre ».

5. Conclusion
Méthodologiquement le « fin du fin » des sondages est sans aucun doute le sondage
aléatoire simple mais il est difficilement réalisable pour des questions de coût. Tous les
autres types de sondages sont plus faciles à réaliser mais apportent une précision moindre.
Le calcul des estimateurs de l’échantillonnage stratifié, à grappes ou à plusieurs degrés
sont plus compliquées qu’un échantillonnage aléatoire simple, mais la signification des
résultats reste sensiblement la même. Si le modèle théorique de la population est correct,
alors la procédure d’estimation donne un intervalle correct la plupart du temps.
Le sondage des quotas s’impose très souvent aux sondeurs qui n’ont pas accès à une base
de sondage ou qui doivent respecter des contraintes de coût. L’expérience relatée dans la
littérature montre que le sondage des quotas et les sondages probabilistes aboutissent à des
performances comparables.
Dans tous les cas nous devons rester prudents quant à l’interprétation des résultats des
enquêtes statistiques, car tout plan de sondage est un modèle théorique et tout modèle
théorique est faux au sens où il ne rend pas exactement compte de la réalité de la
population et de la procédure d’échantillonnage. Mais on pourra s’en contenter s’il y a lieu
de ne pas le croire trop éloigné de la vérité : c’est un modèle, ni plus ni moins. Les modèles
ne sont pas exacts, ils sont utiles.

Références

Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006

23
cf. . Vitot Maxime, Calage sur marges aléatoires : une aventure hasardeuse, dans Lavallée Pierre,
Rivest Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006. p. 261-366.
Dussaix Marie, Des sondages et de leurs usages, http://matisse.univ-
paris1.fr/fr/IMG/pdf/Dussaix2.pdf

Fecteau Steve et Jocelyn Wisner, Une application de l'échantillonnage équilibré:


le plan de sondage des entreprises non incorporées accès le 09/12 /2008
http://www.mat.ulaval.ca/fileadmin/Sondages_2005/Seance_6/6Fecteau_Wisner.pdf

Lavallée Pierre, Rivest Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006

Vitot Maxime, Calage sur marges aléatoires : une aventure hasardeuse, dans Lavallée Pierre, Rivest
Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006. p. 261-366

Tille Yves, Utilisation d’informations auxiliaires dans les enquêtes par sondage accès le 10 /12/
2008 http://www.idescat.cat/sort/questiio/questiiopdf/23.3.4.Tille.pdf

WARSZAWSKI Josiane, Poids de sondage et repondération dans les enquêtes par sondage accès le
29/11/2008 : http://ist.inserm.fr/basisateliers/atel117/wars.pdf

Pages http consultées :

http://www.med.univ-rennes1.fr/wkf/stock/RENNES20071019121406burgunsondages08.pdf

http://www.mlfmonde.fr/IMG/pdf/69_98_AM63.pdf

http://www.qualiquanti.com/pdfs/histoiresondages.pdf

http://www.mapageweb.umontreal.ca/durandc/Enseignement/MethodesDeSondage/histoire.pdf

http://irem.u-strasbg.fr/irem/php/articles/19_Lefort.pdf

http://www.acrimed.org/IMG/article_PDF/article556.pdf : sondage et principe de précaution

http://www.cereq.fr/sondages2007/programme_Sondages2007_N&Bweb.pdf

http://math.u-bourgogne.fr/IMB/goga/Goga_CJS_Splines.pdf

S-ar putea să vă placă și