Documente Academic
Documente Profesional
Documente Cultură
Etienne Thérèse
Abstract
Pour approcher la réalité d’une variable d’intérêt au sein d’une population, la théorie des sondages
apporte à l’enquête statistique plusieurs types de sondages basés généralement sur l’échantil-
lonnage et l’estimation. Les techniques d’échantillonnage, qu’elles soient empiriques ou
probabilistes, permettent de sélectionner les individus à interroger en veillant à leurs probabilités
d’inclusion mais aussi à la réalisation concrète des enquêtes sur le terrain. La théorie de
l’estimation apporte un ensemble d’outils de calcul en cascade de paramètres qui permettent
d’approcher, selon le type de sondage utilisé, les vrais paramètres de la population ciblée. Les
procédures d’observation et d’échantillonnage connaissent généralement des biais que plusieurs
techniques basées essentiellement sur la pondération cherchent à redresser nous rappelant ainsi
que les méthodes de sondages restent des modèles théoriques et que ces derniers sont utiles avant
d’être exacts.
Mots clés
1. Introduction
Cet article a pour objectif de présenter les techniques de sondage. Pour obtenir des
informations statistiques sur une population deux possibilités s’offrent à nous : soit
interroger l’ensemble de la population concernée, dans ce cas, on parle généralement de
recensement, soit interroger une partie de la population pour l'ensemble, dans ce cas nous
avons alors recours aux méthodes d'analyse quantitative et à la théorie des sondages.
Sonder, c’est choisir une partie (l’échantillon) pour représenter le tout (la "population" au
sens statistique du terme). En effet, lorsque l'on cherche à étudier une population (malades,
hôpitaux, collectivités) dont on veut étudier les comportements ou les opinions, il n'est pas
nécessaire, et c'est souvent impossible, d'en examiner toutes les unités ("individus" au sens
statistique) concernées.
La tâche du sondeur est de déterminer un plan de sondage c’est à dire une méthode de
sélection d’un échantillon représentatif de la population à interroger et de formuler des
estimateurs permettant d’approximer les vraies valeurs de la population ciblée.
Paradoxalement, l’enquête statistique ne s’intéresse pas aux individus en tant que tels, mais
seulement à l’agrégation de leurs réponses individuelles pour atteindre les informations
recherchées. L’agrégation des réponses permet de passer de l’échantillon à la population en
faisant l’hypothèse que cet échantillon nous donnera une bonne image de l’ensemble de
cette population. Ce passage se fait en déterminant des estimateurs adéquats au type de
sondage que l’on a retenu et qui sont des expressions mathématiques qui permettent,
lorsque les données sont collectées, de proposer une valeur pour les paramètres de
centralité et de dispersion définie sur l’ensemble de la population.1. Le problème est
précisément de savoir comment agréger ces réponses individuelles pour connaître la valeur
prise par ces différents paramètres sur l’ensemble des individus de la population2.
La construction de l'échantillon peut se fonder sur des méthodes probabilistes ou empiri-
ques. Le choix entre ces méthodes dépend des contraintes financières et techniques, et de la
possibilité de recourir ou non à une base de sondage et de la disponibilité ou non
d’informations auxiliaires.
2. Matériels et méthodes
Notre étude s’effectuera à partir de trois sources différentes : l’ouvrage de référence de
Pascal Ardilly sur les techniques de Sondage. Cet ouvrage de 675 pages fait une
présentation exhaustive des techniques sur les sondages. La seconde source est constituée
des actes des colloques de la société française de statistique publiés régulièrement aux
éditions DUNOD, nous avons consulté essentiellement les actes du colloque de mai 2005
publiés dans l’ouvrage « Méthodes d’enquêtes et sondages, pratiques européenne et nord
américaines »3. Cet ouvrage présente des enquêtes faites en France et au Canada dans les
dernières années dans le domaine de la santé et de l’économie et de la politique. La
troisième source est constituée des articles de vulgarisation publiés sur Internet cité en
bibliographie.
1
Cf. Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p.8
2
Idem, p.5
3
Lavallée Pierre, Rivest Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006.
2.2. Problématique
Nous essayerons de ne pas être que descriptif. La méthode de tirage est autonome dans sa
réalisation, mais elle est (presque toujours) choisie en fonction de la précision souhaitée et
de la complexité qu’il y a à calculer les estimateurs, nous essayerons de montrer les
ressemblances entre les estimateurs des différentes méthodes et les grandes familles
d’estimateurs. Par ailleurs en suivant en grande partie les démonstrations de Pascal Ardilly
nous tâcherons de monter l’enchaînement des calculs pour une précision de plus en plus
accrue des plans de sondages. Par ailleurs nous discuterons des biais et des erreurs
d’observation et d’échantillonnage avant de voir leurs incidences sur l’interprétation des
sondages4.
3. Résultats
Nous garderons dans le cadre de notre présentation des types de sondage, deux pôles
d’intérêt bien distinct : la méthode de tirage et l’expression de l’estimateur. Dans tout le
livre de Pascal Ardilly nous retrouvons cette dualité estimateur/méthode de tirage. Nous
distinguerons les plans de sondages, des calculs de paramètres pour mieux montrer la
dynamique de l’estimation. Nous commencerons par les aspects principaux des sondages
probabilistes (ou aléatoire) simples qui ont pour atout principal de ne pas nécessiter
l’utilisation d’information auxiliaire. Puis, nous aborderons des plans toujours probabilistes
mais plus complexes, tels que la stratification, le tirage à plusieurs degrés, le sondage à
probabilités inégales et l’échantillonnage équilibré. Et enfin nous terminerons avec les
plans de sondage empiriques.
Le plan de sondage d’une enquête statistique se rapporte aux techniques de tirage d’un
échantillon probabiliste ou de quota ainsi qu’aux méthodes permettant d’obtenir des
estimations des variables étudiées à partir de l’échantillon retenu. Deux types de méthodes
sont employés : les méthodes empiriques et les méthodes probabilistes. Nous verrons que
pour les méthodes probabilistes plus ou moins complexes la notion d’information
auxiliaire5 connue sur la population a une grande importance pour le choix de la méthode à
utiliser et pour le traitement des non réponses. Quand cette information est mise à profit
pour concevoir le plan de sondage, on cherche un plan qui fournit des estimateurs précis
pour un prix donné ou qui est peu coûteux pour des critères de précision donnés. Pour ces
raisons, on utilisera des plans à probabilités inégales, par grappes ou à plusieurs degrés.
Ces plans supposent donc différents types d’unités de sondage, des règles pour l’attribution
de probabilités de tirage aux unités de sondage, des fractions de sondage, éventuellement
des procédés de stratification et d’établissement de grappes, ainsi que diverses méthodes
d’estimation. Dans le cas des plans qui prévoient plusieurs degrés de tirage, il faut, à
chaque degré d’échantillonnage, établir les unités de sondage, les probabilités de tirage et
la méthode d’échantillonnage pour obtenir les estimations finales. Pour un degré donné
d’échantillonnage d’un plan de sondage probabiliste, la base de sondage est l’ensemble des
unités de sondage avec leurs probabilités de tirage, c’est-à-dire la liste des unités de
sondage d’où l’on prélève l’échantillon, ainsi que leurs probabilités de tirage. Il faut
4
Dussaix Marie, Des sondages et de leurs usages, http://matisse.univ-
paris1.fr/fr/IMG/pdf/Dussaix2.pdf
5
Tille Yves, Utilisation d’informations auxiliaires dans les enquêtes par sondage
accès le 10 /12/ 2008 : http://www.idescat.cat/sort/questiio/questiiopdf/23.3.4.Tille.pdf
construire une base pour chaque degré d’échantillonnage et attribuer une probabilité non
nulle de tirage à chaque unité de sondage de cette base. Quand l’information est utilisée à
l’étape de l’estimation, elle sert à «recaler» les résultats du sondage sur l’information
auxiliaire du recensement. Les estimateurs sont alors basés sur deux sources
d’informations: l’information auxiliaire connue sur toute la population, et l’information
concernant les variables d’intérêt connue uniquement sur les unités sélectionnées dans
l’échantillon. Seules les méthodes aléatoires permettent d'utiliser la théorie de l'estimation.
7
On peut également compter les sondages aréolaires comme un sondage stratifié. Associé à la
méthode LQAS, ce type de sondage est depuis peu très utilisé en santé publique.
3.1.5. Plan de sondages à probabilités inégales
Nous avons vu que la stratification et la mise en grappes, comme toutes les enquêtes
complexes font appel à des probabilités inégales. Un sondage complexe, choisi pour
répondre à une contrainte pratique ou pour améliorer le rapport précision/coût, conduit
souvent à introduire des probabilités d'inclusions inégales. Les contraintes de temps et
d’argent mènent normalement à un plan d’échantillonnage complexe, c’est-à-dire à un plan
où on impose une stratification et/ou une mise en grappes, et où les unités sont
sélectionnées avec des probabilités inégales. Mais nous savons également que la
stratification et la mise en grappes concernent des échantillonnages dans une population
préalablement découpée. Les techniques qui permettent de tenir compte de la probabilité
inégale de sélection sont assez bien connues : on ajuste le poids de chaque répondant afin
de refléter le nombre d’unités qu’il représente.
Parallèlement aux familles de sondage à probabilités égales, il existe des plans de sondages
où les individus ont des probabilités d’inclusion inégales à partir de la population brute.
Dans certaines situations, l’introduction de probabilités inégales lors des tirages ne résulte
pas d’une volonté délibérée du sondeur mais d’un état de fait traduisant une réalité que l’on
ne peut pas éviter sans un coût prohibitif au moment de la phase d’échantillonnage.
Dans ce cadre, on peut distinguer des tirages à plusieurs degrés, des tirages avec remise,
des tirages en deux phases avec post–stratification, dans ce dernier cas et toujours dans le
cadre du tirage à probabilité inégales, il est fréquent que l’on distingue dans une population
plusieurs catégories, chaque catégorie correspondant à un groupement de modalités d’une
ou de plusieurs variables qualitatives. Puis on décide d’attribuer à chaque individu d’une
catégorie donnée une probabilité d’inclusion fonction seulement de cette catégorie.
Le sondage dit indirect fait également partie des sondages à probabilités inégales, il
consiste à constituer des échantillons intermédiaires. Le tirage en deux phases généralisé
est une méthode particulière de tirage à probabilités inégales qui procède en deux temps :
tout d’abord, on tire un échantillon s ′ de taille n ′ dans la population entière, selon un plan
quelconque qui conduit à des probabilités de sélection P i(1) . Dans un second temps, on
construit un système de probabilités de sélection (conditionnelles) des individus j de s ′ et
on échantillonne n individus dans s ′ . Le processus a donc donné lieu à deux tirages
successifs emboîtés, appelés respectivement tirages de première et de seconde phase. 8
3.1.6. Plan de sondages à échantillonnage équilibré
Bien que les plans de sondage équilibrés ne soient pas couramment utilisés, la méthode de
l’échantillonnage équilibré elle, est connue depuis longtemps. Elle peut être abordée sous
le prisme d’un plan de sondage où sa mise en oeuvre implique la dérivation de poids de
sélection des unités ou encore comme un simple moyen permettant d’arriver à un
échantillon et de conduire ensuite l’inférence sans égard au plan utilisé9.
Le but du tirage équilibré est, selon Pascal Ardilly, d’assurer la représentativité du sondage sans
avoir à utiliser un estimateur plus compliqué qu’une moyenne simple ou qu’éventuellement un
estimateur des sommes dilatées si on tire les individus avec des probabilités inégales. Il s’agit ici
d’utiliser un algorithme de tirage des individus de telle manière que chaque individu i ait une
probabilité Pi strictement positive connue d’avance d’appartenir à l’échantillon et que l’estimateur
Yi
classique Tˆ = ∑ (3)
i∈s Pi
8
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p 179
9
Steve Fecteau et Wisner Jocelyn1 Une application de l'échantillonnage équilibré:
le plan de sondage des entreprises non incorporées accès le 09/12 /2008
http://www.mat.ulaval.ca/fileadmin/Sondages_2005/Seance_6/6Fecteau_Wisner.pdf
estime parfaitement le total d’une variable auxiliaire Xi bien corrélée à la variable
d’intérêt Yi. . L’effort est donc fait au niveau de la méthode de tirage. On dit qu’on obtient
un sondage représentatif de X, parce que X̂ est sans biais de X et de variance nulle par
construction.10 Pour y arriver, plusieurs algorithmes sont proposés dans la littérature
spécialisée et en particulier la méthode du Cube qui aboutit, en présence d’information
auxiliaire, à l’estimation par régression.
3.1.7. Plan de sondages empiriques
Les sondages empiriques sont les plus connus du grand public et les plus utilisés par les
instituts de sondage d'opinion Ils s’opposent aux sondages probabilistes en ce sens où il
n’est pas possible de déterminer a priori quelle est la probabilité qu’a chaque individu de la
population d’appartenir à l’échantillon. Les méthodes d’échantillonnage non probabilistes
comme la méthode des quotas, des itinéraires, des cas-types, contrairement aux
probabilistes, ne s’appuient pas sur le hasard pour sélectionner les individus d’une
population. Les échantillons ainsi constitués ne sont donc pas probabilistes et, de ce fait, on
ne peut leur appliquer la notion de marge d’erreur statistique. Autrement dit, on ne connaît
pas le niveau de précision des estimations ainsi produites. Ils présentent toutefois d’autres
avantages, comme ceux d’être peu coûteux, rapides et faciles à utiliser.
La méthode des quotas est la méthode empirique la plus utilisée. Le principe est le suivant:
on divise la population en un certain nombre de sous populations selon une ou plusieurs
variables catégorielles. Ensuite, on demande aux enquêteurs d’interroger un nombre
d’individus proportionnel à chacune de ces sous populations. Les enquêteurs sont libres de
choisir les personnes à interroger. Ce sont donc les enquêteurs qui construisent le plan de
sondage. Le plan de sondage et les probabilités d’inclusion sont inconnus. Les avantages
de cette méthode sont nombreux: il n’est pas nécessaire de disposer de la base de sondage.
Les seules informations utiles sont les effectifs de certaines catégories de la population. De
plus, le problème des refus de réponse ne se pose pas puisque l’enquêteur peut choisir lui-
même les individus à interroger.11 L’inconvénient majeur de la méthode des quotas est de
ne pas permettre de calculer scientifiquement la marge d’erreur du sondage. Les lois
statistiques qui permettent de la déterminer ne valent théoriquement que pour les sondages
aléatoires. En pratique, on considère cependant que la marge d’erreur des sondages par
quotas est égale ou inférieure à celle des sondages aléatoires.
La méthode des unités types, autre méthode de sondage empirique, repose sur l'idée
suivante : les différentes variables attachées à un individu de la population n'étant pas
indépendantes, un individu qui se trouve dans la moyenne de la population pour un certain
nombre de caractères importants, sera également peu différent de la moyenne pour les
autres caractères. La méthode consiste donc à diviser la population en un certain nombre
de sous-ensembles relativement homogènes et à représenter chacun d'eux par une unité-
type. On choisit donc des unités d'individus que l'on considère comme fortement
représentatives de certaines catégories de population.
10
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p 182
11
Tille Yves, Utilisation d’informations auxiliaires dans les enquêtes par sondage accès le 10 /12/
2008 http://www.idescat.cat/sort/questiio/questiiopdf/23.3.4.Tille.pdf
d’où le principe des estimateurs en cascade. L'estimation est un processus qui consiste à
calculer une valeur approximative des paramètres de population inconnus en utilisant
uniquement la partie de la population qui est incluse dans un échantillon. Des inférences
sont ensuite faites au sujet des paramètres inconnus en utilisant les données d'échantillon et
les renseignements connexes sur le plan de sondage. Nous commençons avec le paramètre
initial inconnu θ , ce paramètre peut prendre la forme d’une moyenne, d’une proportion ou d’un
total et se formule ainsi successivement pour le total et la moyenne
N
θ = Y1 + Y2 + Y3 + YN = ∑ Y =T i (4)
i =1
Y1 + Y2 + Y3 + YN T
θ= = =Y (5)
N N
Nous devons estimer θ pour avoir une première image de la population. Pour avoir une
estimation θˆ on fait intervenir la notion de poids. Pour T, le poids de chaque individu est
1, tandis pour Y le poids de chaque individu est 1/N. Les estimateurs de θ : θˆ pour l e
total, la moyenne, la proportion sont des paramètres fonction linéaire des Yi.12 En notant s
l’échantillon de taille n. L’estimateur θˆ est de la forme :
θˆ = ∑w i (s). Yi (6)
i∈s
La sommation est étendue à tous les indices i appartenant à s, c'est-à-dire à tous les
individus de l’échantillon s. wi (s) est le poids de sondage en question, attaché à l’individu
i de l’échantillon s. L’estimation pour la population se calcule donc au moyen d'un
estimateur d'Horvitz-Thompson où les Yi (les réponses concernant une variable) sont
pondérées par l'inverse des probabilités d'inclusion des unités échantillonnées. Le
problème du sondage est un problème de pondération : chaque individu de l’échantillon
représente un certain nombre d’individus de la population13. Ces poids (appelés poids
d'échantillonnage) peuvent être interprétés comme étant le nombre de fois que chaque unité
échantillonnée devrait être répétée pour représenter la population complète.
La moyenne de la variable Y dans la population peut alors s’écrire comme un rapport de
deux totaux qui seront estimés séparément :
T
Y= (7)
N
Nous verrons ci après, en suivant les démonstrations de Pascal Ardilly qu’une proportion
est une moyenne particulière et que ces paramètres sont tous deux des sommes pondérés
des valeurs Yi de tous les individus de la population.
Comme en statistique descriptive, le paramètre θ sous ces différentes est insuffisant pour
avoir une vue correcte de la population, il faut une information sur sa dispersion :
la variance de θˆ notée V θˆ qui est inconnue et qu’il faut calculer par son estimateur…
V θˆ est un paramètre de la population (moyenne des carrés des écarts à la moyenne) qui
prend la place de θ et dont il faut associer un estimateur quadratique Vˆ θˆ , avec les poids
adéquats. En présentant les estimateurs des différents types de sondages probabilistes nous
aurons donc à définir l’expression de l’estimateur θˆ du paramètreθ, et l’expression de son
N
12
De façon générale, les paramètres linéaires s’écrivent : θ = ∑ α . Y . où α , 1 ≤ i ≤ N, sont des
i =1
i i i
coefficients données
13
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p 52-53
biais et de sa variance vraie V θˆ et l’expression et calcul de l’estimateur (voire des
estimateurs) de cette variance Vˆ θˆ .
3.2.1. Estimateurs des sondages aléatoires simples
Dans un échantillon aléatoire simple, les éléments constituant l'échantillon sont extraits au
hasard d'une liste de la population. On extrait ainsi n individus d'une population de taille N.
Le seul estimateur linéaire sans biais du total T dont les poids wi (s).ne dépendent pas de s
Yi
est Tˆ = ∑ Pi . (8)
i∈s
L’estimateur sans biais du total T est dans le cas du sondage aléatoire simple :
Tˆ = N. y (9)
S2
V( y ) = (1- f). (10)
n
n
avec f le taux de sondage et S 2 la variance.
N
Ce qui fait dire à Pascal Ardilly que cette formule fondamentale de base prouve que, pour réaliser
un sondage aléatoire simple qui fournisse des résultats précis, ou peut agir dans trois directions en
recherchant : une taille d’échantillon n grande, un taux de sondage f grand, voisin de 1 et une
2
dispersion S faible. En effet plus l’échantillon est grand, plus on peut avoir confiance dans
l’estimation qui en résulte, si le taux de sondage est toujours compris entre 0 et 1 par valeurs
inférieures, alors n se rapproche de N et le sondage devient presque un recensement et .plus les
individus se ressemble (en terme de Y) plus à taille n fixée, les estimateurs seront précis ; et il suffit
d’interroger un seul individu. Dans les sondages aléatoires simples la variance de l’estimateur du
total vaut :
S2
V( Tˆ ) = N2.(1- f). (11)
n
Nous voyons ici que la taille de la population a cette fois ci une importance capitale pour la valeur
numérique de la variance. Nous avons vu que dans l’expression de la variance de la moyenne
V( y ) que S 2 est un paramètre inconnu qu’il faut estimer. Un estimateur sans biais de S 2 est :
1
s2 = − y)
2
n −1
∑ (Y
i∈s
i , (12)
S 2 = P (1-P) (17)
P (1 - P)
V(p) = (1-f). . (18)
n
Etant donné que
s2 = n p. (1-p) (19)
n −1
14
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p. 88
H
Nh
comme
h =1 N
∑ = 1 , on peut dire que S 2 est la somme de deux moyennes pondérés : le premier
H
Nh é
terme : ∑ S h est une moyenne pondérées des dispersions à l’intérieur des groupes formés,
h =1 N
H
Nh
on parle de dispersion intra- groupes et le deuxième terme : ∑ ( Y h - Y )2 qui est une
h =1 N
moyenne pondérée des carrés des écarts entre les moyennes des groupes et la moyenne générale.
On parle de dispersions intergroupes. Le but de la stratification est d’obtenir des Sh petits.
Comme S2 est une grandeur fixe, il faut constituer des groupes tels que la dispersion
INTER, soit la plus grande possible (auquel cas la dispersion INTRA sera faible). Il faut
donc que les Y h soient les plus dispersées possible. La moyenne Y dans le sondage stratifié est :
H
Nh
Y =∑ .Yh (23)
h =1 N
L’estimateur sans biais de la moyenne Y est linéaire, et s’écrit :
H
Nh
Yˆ ST = ∑ . yh (24)
h =1 N
L’estimateur Yˆ ST est linéaire et s’écrit :
H
Nh
Yˆ ST = ∑ i∑ .Yi (25)
h =1 ∈sh
N .nh
où sh est l’échantillon tiré dans la strate h et nh est la taille de cet échantillon. Tout individu
échantillonné en strate h a donc un poids de sondage dans le sondage stratifié :
Nh
Wi = (26)
N .nh
égal au nombre d’individus qu’il représente (divisé par N). Ce poids dépend de la strate et
cela suffit pour affirmer que, sauf particulier, le tirage stratifié est un tirage à probabilités
inégales. La variance de l’estimation de la moyenne d’une strate dans le sondage stratifié
H
N S 2h
( Yˆ ST ) = ∑ ( h )2. (1-fh). (27)
h =1 N nh
avec fh : taux de sondage dans la strate h nh : taille de l’échantillon dans la strate h et s 2 h : la
dispersion vraie au sein de la strate h.
Si on s’intéresse à une proportion globale P, la dispersion ou variance d’une strate est égal à :
où Ph est la proportion vraie inconnue au sein de la strate h. L’estimateur sans biais de la variance
d’une strate est :
H
Nh 2 s2h
Vˆ ( Yˆ ST ) = ∑ ( ) . (1-fh). (29)
h =1 N nh
où s 2 h est la dispersion calculée dans l’échantillon de la strate h ; cela tient au fait que s 2 h estime
nh Nh
sans biais S 2 h . Un sondage stratifié vérifiant la condition = dit à allocation proportion-
n N
nelle permet d’écrire que l’estimation de la moyenne de la variable de la strate recherchée est égale
à la moyenne de la population globale et offre donc un avantage de simplicité dans le calcul de
l’estimateur, puisque le calcul de d e la moyenne de la population est l’opération d’estimation la
plus simple que l’on puisse imaginer Le sondage devient dans ce cas particulier, un sondage à
probabilités égales, puisque la probabilité de sélection d’un individu quelconque de la strate h
nh n
vaut : = = Constante = f (30)
Nh N
avec Ni la taille de l’unité primaire i (c’est le nombre d’unités secondaires recensées dans l’unité
primaire i). Il devient clair que le vrai total est :
M
T= ∑i =1
Ti (32)
avec M = le nombre total d’unités primaires constituées. Les démonstrations dans la littérature
spécialisée arrivent à la formule suivante de l’estimation du total dans les sondages à plusieurs
degrés :
M Ni
Tˆ = ∑ ( . ∑ Yi .j ) (33)
m i∈s n i j∈si
Contrairement au cas du sondage aléatoire simple, il n’y a pas besoin de connaître la taille totale N
de la population pour estimer un total T. La variance de Tˆ est égal à :
ˆ m S 21 M M ni S 2 2 .i
. ∑ N . (1-
2 2
V T = M . (1- ). + ). (34)
M m n i =1 1
NI ni
M
1
avec S 12 =
M −1
∑i =1
( Ti - T )2 (35)
Ni
1
et 2
S 2,i =
N −1
∑j =1
( Yij - Yi )2 (36)
M
1
où T =
M
∑
i =1
Ti (37)
NI
et T i=
1
Ni
∑
j =1
Yij (38)
ˆ 2 m S 21
Nous observons deux termes dans V T : Le terme A : M . (1- ). qui ne fait intervenir
M m
que des grandeurs liées au premier degré de tirage (ou tirage des UP) ; On parle alors de
variance INTER (sous entendu inter UP). Cette première partie a exactement la forme de la
variance de y dans le sondage aléatoire simple. Un terme 1-f où f désigne le taux de
sondage des UP et un terme de dispersion vraie dans la population des UP, un ordre de
grandeur en 1/m. où m est la taille de l’échantillon d’UP, et un terme de dispersion vraie
M M ni S 2 2 .i
. ∑ N . (1-
2
dans la population des UP. Le terme B : ). qui fait intervenir
n i =1 1
NI ni
la dispersion Y au sein de l’UP. On parle de variance INTRA (sous entendu intra UP).
L’estimateur de la variance de l’estimation du total est donné par la formule suivante :
m s 21 M M ni s 2 2 .i
Vˆ Tˆ = M2. (1- ). + . ∑ N . (1-
2
). (39)
M m n i =1 1
NI ni
1 Tˆ 2
avec s 12 = . ∑ ( Tˆ i - ) (40)
m − 1 i∈e& M
2 1 i
et s 2,i =
n −1
∑ j∈e2
( Yij - y i )2 (41)
Cette variance coïncide avec la première partie de la formule générale du tirage à deux degrés
(toute la variance est de type INTER, puisqu’il n’y a aucun aléa en INTRA . L’estimation de
variance du total estimé est
m s 21
Vˆ Tˆ = M2. (1- ). (49)
M m
1 Tˆ 2.
avec s 12 = . ∑ ( Tˆ i - ) (50)
m − 1 i∈e& M
1 N N
Yi Yj 2
= ∑ ∑ ( Pi , j − Pi .Pj ) . 〔 - 〕 (54)
2 i =1 j =1 Pi Pj
j ≠i
La première égalité (53) est vraie dans tous les cas, même si l’échantillon est de taille aléatoire.
Quand l’échantillon est de taille fixe n , la moyenne vraie des Pi vaut n /N , ce qui montre que
l’ordre de grandeur des Pi reste n/N. Avec un échantillon de taille fixe n la précision obtenue pour
un plan à probabilités inégales reste d’ordre de grandeur 1/N. La seconde formule (54)
s’interprète facilement car elle prouve que pour avoir une variance nulle il suffit que le
Y Yj 2
terme ( i - ) soit égal à 0 pour tout couple (i, j) de la population. Pour cela si Yi est
Pi Pj
toujours positif, il suffit d’avoir Yi /Pi constant, si Pi est à peu près proportionnelle à Yi pour
chaque individu i de la population.
Lorsque pour tout couple (i,j) d’individus de la population on a Pi,j non nul alors un estimateur
sans biais de V T̂ est :
1 − Pi
N N N Pi , j − Pi .Pj
Vˆ ( T̂ ) = ∑ 2
2
. Yi + ∑ ∑ . Yi .Yj (55)
i =i Pi i =1 j =1 Pi. .Pj .Pi , J
j ≠i
Et lorsqu’en sus, démontre Pascal Ardilly, l’échantillon est de taille fixe n , on peut obtenir
un second estimateur de V T̂ selon la formule suivante :
1 N N Pi , j .Pi .Pj Yi Yj 2
Vˆ ( T̂ ) = ∑ ∑ . ( - ) (56)
2 i =1 j =1 Pi , j Pi Pj
j ≠i
1 − Pi 1 − Pi
avec B̂ = ( ∑ 2
X i X i′ )-1 ( ∑ 2
X i Yi′ ) (60)
i∈s Pi i =1 Pi
16
Ardilly Pascal, les techniques de Sondage, Editions TECHNIP, 2006, p. 204
4. Discussion
Un sondage est conçu pour permettre l'estimation la plus précise possible de paramètres
caractérisant une population réelle et bien définie. Rappelons d'abord que le recours à un
sondage a pour but d'estimer sans biais et avec la plus petite variance possible des
paramètres qui concernent une population bien déterminée. Cette estimation peut être
biaisée par différents types d’erreur..
Une des préoccupations des sondeurs est de réaliser un tirage pour lequel E( θˆ ) soit proche de θˆ et
de chercher donc à réduire la quantité
E( θˆ -θ ) = E( θˆ ) - θ
que l’on appelle biais de l’estimateur θˆ , et qui constitue donc une première mesure de l’erreur
d’échantillonnage17. Nous constatons que le biais dépend de la probabilité d’inclusion donc du
nombre de répondants à partir duquel celles-ci sont établies.
La notion de moyenne utilisée pour calculer le biais ne suffit pas à mesurer la qualité d’un
échantillonnage, il faut une autre grandeur davantage liée à la dispersion des valeurs des
estimations. On décide donc de calculer la variance des estimations lorsque l’aléa est
l’échantillon s.
L’erreur quadratique moyenne est également un indicateur de précision qui englobe les
notions de biais et de variance. L’erreur quadratique moyenne d’une estimation est égale à
la variance de l’estimation plus le carré du biais inhérent aux méthodes d’enquête
« L’EQM est un indicateur synthétique de qualité permettant de répondre à la question
suivante : est-il préférable d’avoir un biais fort et une variance faible ou biais faible et une
variance forte ? Il n’y a pas de bonne réponse, mais la pratique prouve que l’on cherche en
général à éviter en priorité le s biais forts » 18
17
Idem, p. 16
18
Idem, p. 21
Le coefficient de variation est également utilisé pour évaluer la précision relative des
estimations, Il s'exprime comme le rapport, en pourcentage, de l'erreur-type de la
proportion estimée sur la proportion estimée elle-même. Pour deux estimations faites sur la
même population ou sous-population, la plus petite estimation aura un coefficient de
variation plus grand car la qualité de l'estimation produite s’appauvrit lorsque le
phénomène devient de plus en plus rare.
p(1 − p) p(1 − p)
P= p-2 . . ; p+ 2 . . (62)
n n
19
En théorie, on ne peut pas connaître scientifiquement la marge d’erreur d’un sondage réalisé par
quotas. En pratique, on estime que cette marge est du même ordre que celle que la loi de Gauss
permet de calculer dans le cas des sondages aléatoires
20
http://quebecpol.wordpress.com/2007/05/31/la-technique-du-sondage-une-introduction/
La non-réponse survient lorsque le répondant ne comprend pas une question ou l'interprète
mal, refuse d'y répondre ou n'arrive pas à se souvenir des renseignements demandés. Ce
phénomène se mesure à l'aide du taux de non réponse partielle qui est défini comme le
rapport entre le nombre de personnes ne fournissant pas de réponse à une question et le
nombre de celles devant y répondre. Le problème posé par ces non- répondants est de
savoir s’ils diffèrent de manière significative des répondants. Il est par exemple fréquent
d’observer que le taux de réponse à des questionnaires est nettement différent d’une
catégorie de la population à une autre21.».Le redressement est un système de repondération
facultatif qui intègre une information auxiliaire sur la population ciblée, lorsqu'elle est
disponible. Il vise à réduire les biais de non réponse, en faisant l'hypothèse que les non-
répondants auraient répondu en moyenne comme les répondants à l'intérieur d'une
catégorie donnée. Cela est certainement faux. Mais les estimations faites sans redressement
reviennent à considérer que les non-répondants auraient répondu en moyenne comme
l'ensemble des répondants de l'échantillon. Cette hypothèse a alors toute chance d'être
encore plus fausse
5. Conclusion
Méthodologiquement le « fin du fin » des sondages est sans aucun doute le sondage
aléatoire simple mais il est difficilement réalisable pour des questions de coût. Tous les
autres types de sondages sont plus faciles à réaliser mais apportent une précision moindre.
Le calcul des estimateurs de l’échantillonnage stratifié, à grappes ou à plusieurs degrés
sont plus compliquées qu’un échantillonnage aléatoire simple, mais la signification des
résultats reste sensiblement la même. Si le modèle théorique de la population est correct,
alors la procédure d’estimation donne un intervalle correct la plupart du temps.
Le sondage des quotas s’impose très souvent aux sondeurs qui n’ont pas accès à une base
de sondage ou qui doivent respecter des contraintes de coût. L’expérience relatée dans la
littérature montre que le sondage des quotas et les sondages probabilistes aboutissent à des
performances comparables.
Dans tous les cas nous devons rester prudents quant à l’interprétation des résultats des
enquêtes statistiques, car tout plan de sondage est un modèle théorique et tout modèle
théorique est faux au sens où il ne rend pas exactement compte de la réalité de la
population et de la procédure d’échantillonnage. Mais on pourra s’en contenter s’il y a lieu
de ne pas le croire trop éloigné de la vérité : c’est un modèle, ni plus ni moins. Les modèles
ne sont pas exacts, ils sont utiles.
Références
23
cf. . Vitot Maxime, Calage sur marges aléatoires : une aventure hasardeuse, dans Lavallée Pierre,
Rivest Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006. p. 261-366.
Dussaix Marie, Des sondages et de leurs usages, http://matisse.univ-
paris1.fr/fr/IMG/pdf/Dussaix2.pdf
Lavallée Pierre, Rivest Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006
Vitot Maxime, Calage sur marges aléatoires : une aventure hasardeuse, dans Lavallée Pierre, Rivest
Louis-Paul, Méthodes d’enquêtes et sondages, Paris, DUNOD, 2006. p. 261-366
Tille Yves, Utilisation d’informations auxiliaires dans les enquêtes par sondage accès le 10 /12/
2008 http://www.idescat.cat/sort/questiio/questiiopdf/23.3.4.Tille.pdf
WARSZAWSKI Josiane, Poids de sondage et repondération dans les enquêtes par sondage accès le
29/11/2008 : http://ist.inserm.fr/basisateliers/atel117/wars.pdf
http://www.med.univ-rennes1.fr/wkf/stock/RENNES20071019121406burgunsondages08.pdf
http://www.mlfmonde.fr/IMG/pdf/69_98_AM63.pdf
http://www.qualiquanti.com/pdfs/histoiresondages.pdf
http://www.mapageweb.umontreal.ca/durandc/Enseignement/MethodesDeSondage/histoire.pdf
http://irem.u-strasbg.fr/irem/php/articles/19_Lefort.pdf
http://www.cereq.fr/sondages2007/programme_Sondages2007_N&Bweb.pdf
http://math.u-bourgogne.fr/IMB/goga/Goga_CJS_Splines.pdf