Sunteți pe pagina 1din 8

Lchantillonnage de la thorie la pratique

!Vincent Loonis*
Les mthodes de slection des chantillons des enqutes de lInsee auprs des mnages ont connu ces dernires
annes de profondes modifications: transformation du recensement de la population; mergence de nouvelles bases
de sondage. Paralllement, la demande sociale se diversifie, augmente ses exigences et soriente vers lobservation
de populations de plus en plus spcifiques. Il en rsulte une complexification des processus dchantillonnage qui
doivent toujours rpondre la double contrainte de qualit statistique et doprabilit. Au total, les grands principes de
construction des chantillons des enqutes mnages nont pas chang mais sorientent vers la satisfaction de demandes de plus en plus prcises. Pour ce faire, avec le recours quasi systmatique lchantillonnage quilibr ou la
mthode du partage des poids, les outils rcents mis disposition par les avances de la thorie des sondages sont
mobiliss.

pas vocation fournir, partir dun


chantillon, des estimations sur tout
ou partie de la population dans le
cadre des procdures classiques de
linfrence statistique. En revanche,
ce cadre est celui qui rgit les trois
autres catgories dchantillonnage.
Leur prsentation constitue lobjet
principal de cet article.

Source : Wikipdia

prs avoir rappel les quatre


types dchantillonnage utiliss
lInsee pour les enqutes auprs
des mnages, cet article prsente
les grands principes qui rgissent
la construction dun plan de sondage, ainsi que les outils de base qui
autorisent la mise en uvre de ces
principes. On verra dans une dernire
partie comment ces outils sont mobiliss pour satisfaire les contraintes
des chantillons standards ou de
celui de lenqute Emploi en continu.
Compte tenu de la complexit et
de la richesse du sujet, on a pris la
libert de procder des simplifications que le spcialiste des sondages remarquera aisment afin de
faciliter la comprhension globale du
processus.

Une population dans un quartier commerant

Les quatre types


dchantillons
On distingue gnralement quatre
types dchantillonnage dans les
enqutes nationales de lInsee, ralises en face--face1 auprs des
mnages: les enqutes standard,
les enqutes dites ad hoc, lenqute
Emploi en continu et les tests.
Cette dernire catgorie se dmarque
sensiblement des trois autres par ses
objectifs et par ses mthodes. Elle
est mobilise dans une phase de
prparation de lenqute pour tester
lensemble des traitements informatiques intervenant dans le processus
de collecte de linformation, tester
la comprhension des questionnai-

res par les enquts et fournir des


lments quantitatifs sur le temps
de passation du questionnaire afin
de calibrer correctement le budget
de lenqute (voir articles de Paul
Jansolin et de Pascale Pietri). On a
en gnral recours pour ces tests
la combinaison de mthodes
choix raisonns et probabilistes.
Les directions rgionales de lInsee se
dclarent volontaires pour participer
aux tests, sur des zones gographiques o des enquteurs sont mobilisables. Dans ces zones, on procde
la slection alatoire de logements
pour constituer un chantillon dont la
taille est gnralement faible : quelques dizaines quelques centaines
de logements. Les tests nont donc

Courrier des statistiques n 126, janvier-avril 2009

Les chantillonnages standards sont


utiliss pour les enqutes en population gnrale. Aucune surreprsentation particulire ny est demande,
ou alors seulement pour des groupes de population ne constituant pas
des catgories trop spcifiques. Les
chantillons des enqutes Budget de
famille et Emploi du temps rpondent ces critres. On a recours
une procdure standardise mise en
place dans le cadre dune application
informatique adapte. Cette procdure est appele chantillon-matre.
Certaines enqutes sintressent
des sous-populations qui ne peuvent
tre captes par lintermdiaire des
procdures classiques dchantillonnage: Mode de garde, sur le champ
des familles ayant au moins un enfant
de moins sept ans et demi ; volet
Descendants dImmigrs de len* Vincent Loonis est responsable de la division
chantillonnage et traitement statistique des
donnes lInsee.
1. Sont exclues de ce papier lenqute mensuelle de conjoncture auprs des mnages
(CAMME) ainsi que lenqute Technologies
de linformation et de la communication qui
sont ralises exclusivement par tlphone.
Lenqute Emploi en continu ayant une
premire et une dernire interrogation en face-face fait partie du champ de cet article.

25

Vincent Loonis
qute Trajectoires et origines (TeO) ;
enqute Sans-domicile 2001... Il faut
dans ces cas mettre en place pour
chaque enqute une mthodologie
ad hoc, adapte aux attentes des
concepteurs mais qui rpond galement aux contraintes organisationnelles de lInstitut. Les enqutes en
population gnrale dont le protocole est particulier rentrent galement
dans cette catgorie. Lchantillon de
100000 logements enquts par voie
postale de lenqute Vie quotidienne
et sant (VQS) en 2007 en est un
exemple. La future enqute Famille
prvue pour tre la premire associe
au nouveau recensement en 2011
en constitue un autre. Compte tenu
des attentes croissantes vis--vis de
la statistique publique, la frquence
des chantillonnages ad hoc a eu
tendance fortement augmenter ces
dernires annes.
Le protocole particulier de lenqute
Emploi en continu pourrait contribuer
classer cette enqute parmi les
chantillonnages ad hoc. Son importance dans le systme statistique et
sa prennit conduisent cependant
la considrer comme un cas part.

Les grands principes


Les trois principaux types dchantillonnages suivent les mmes principes gnraux.
Pour les enqutes que ralise lInsee
auprs des mnages, les bases de
sondage ne consistent pas en lensemble des mnages eux-mmes,
car la notion de mnage est trop
mouvante pour assurer la prennit
de telles bases. On utilise donc lensemble des logements existants.
Le cadre thorique de lchantillonnage des enqutes auprs des
mnages est celui des mthodes
probabilistes, que lon distingue
des mthodes choix raisonns.
Les mthodes probabilistes impliquent que lon dispose dune liste
exhaustive, sans doubles comptes
et rcente, de tous les logements
existants. Cette liste, appele base
de sondage, contient au minimum

26

un identifiant unique des logements.


Toute autre information de la base de
sondage caractrisant le logement
ou ses occupants est appele information auxiliaire. Une grande partie
de la qualit de lchantillonnage
dpend de la richesse de cette information supplmentaire. Lexistence
dune base de sondage permet dattribuer chaque logement une probabilit, non nulle et contrle, dtre
slectionn dans lchantillon. Cette
probabilit autorise, au moins en
principe, la matrise des proprits
statistiques de la procdure dchantillonnage: biais et prcision. La base
de sondage traditionnelle de lInsee
est le recensement de la population auquel on a adjoint depuis peu
les fichiers de la taxe dhabitation
(TH). Ponctuellement, dautres bases
peuvent tre mobilises : dclarations annuelles de donnes sociales
(DADS), fichiers de paie des agents
de ltat Elles sont surtout utilises pour des enqutes auprs des
individus.
La recherche de qualit de linformation collecte conduit lInsee privilgier les interviews en face--face
au domicile des enquts. Dans les
panels, les interrogations, autres que
la premire, peuvent avoir lieu par
tlphone. Cest le cas des enqutes
Statistiques sur les revenus et les
conditions de vie (SRCV), Loyers et
charges et de lenqute Emploi en
continu.
Pour limiter les cots lis aux dplacements et amliorer le taux de
rponse, les chantillons sont gographiquement concentrs.
La charge de travail par enquteur
pour une enqute donne et lisse
sur lanne est contrle.
Pour ne pas accrotre la charge denqute supporte par les mnages, on
convient de ne pas rinterroger, dans
la mesure du possible, le mme logement sur une priode intercensitaire
ou, depuis que le recensement est
annuel, sur un cycle de recensement
de cinq ans.

Les techniques statistiques


utilises
On peut assimiler la mise en place dun
plan de sondage un jeu de construction. Il sagit, pour parvenir des
objectifs de qualit statistique et de
respect de contraintes organisationnelles, dagencer au mieux des mthodes
lmentaires, dont on connat parfaitement les proprits thoriques. Les
rsultats de lempilement des mthodes lmentaires peuvent tre matriss : le biais et la taille de lchantillon final par exemple. Ils peuvent
galement ntre connus quune fois
lensemble de la construction ralise.
Cest le cas de la prcision.
Les mthodes lmentaires appartiennent deux catgories selon quelles
tendent principalement amliorer la qualit statistique ou quelles
permettent de satisfaire les contraintes externes (change de travail, budget...).
Les mthodes statistiques lmentaires peuvent aussi tre classes selon
la quantit et la qualit de linformation auxiliaire disponible.

Le sondage alatoire simple


Quand aucune information nest disponible, la mthode lmentaire est le
sondage alatoire simple (SAS). Elle
garantit que chaque chantillon possible, de taille n, a une chance gale
dtre slectionn. Cette mthode,
bien que la plus simple mettre en
uvre, nest jamais utilise directement. Elle conduit, en effet, des
chantillons dont la dispersion gographique est incompatible avec les
budgets et la prcision attendue. Elle
intervient en gnral en dernire tape
dans le processus de construction.
Elle sert galement dtalon pour les
plans de sondage complexes, dont
on compare la prcision celle que
lon aurait obtenue si on avait ralis
un sondage alatoire simple de taille
quivalente.

La stratification
Quand linformation auxiliaire est qualitative, on utilise le sondage stratifi.

Lchantillonnage de la thorie la pratique

Si lchantillon est rparti par strate


proportionnellement la population
dorigine, ce qui est le cas gnralement, on montre que lon est assur
de parvenir une prcision au moins
aussi bonne que celle que lon aurait
eue sans utiliser la stratification. Le
gain en prcision sera dautant plus
important que le phnomne tudi
est corrl au critre de stratification.

Sondage probabilits ingales


Quand linformation auxiliaire est
quantitative, on a recours au sondage probabilits ingales. Ce type
de sondages est couramment utilis
pour lchantillonnage dentits gographiques : cantons, communes,
agglomrations, dont la population est variable. Une entit pourra
avoir une probabilit dappartenir
lchantillon proportionnelle sa taille
(PPT), par exemple. On montre que
cette stratgie permet damliorer la
prcision statistique quand le phnomne tudi est corrl la variable
de taille. Ce rsultat justifie que, dans
les enqutes auprs des mnages qui
sont en gnral issues dune premire
slection gographique, les grandes
communes ou les grandes agglomrations soient systmatiquement
enqutes. Dans la pratique, stratification et probabilits ingales sont
utilises conjointement.

Sondage quilibr
Pour gnraliser au cas o linformation auxiliaire disponible est la fois
qualitative et quantitative, une solution est le sondage quilibr. Si lide
de cette mthode est ancienne, elle
na trouv que rcemment, (Deville
et Till, 2004), un cadre thorique

Source: Insee

Dans chaque strate catgorie dfinie par les modalits des variables
auxiliaires on ralise des sondages alatoires simples. En pratique,
les critres de stratification les plus
utiliss sont les rgions, et/ou une
typologie plus raffine de lespace :
tranche dunits urbaines, zonage en
aires urbaines, typologie Tabard des
quartiers et communes selon la profession et lactivit conomique de
leurs habitants.

chantillon de population

satisfaisant, gnralement appel


la mthode du cube . La transcription de cette mthode dans le
logiciel SAS a largement contribu
la populariser (Rousseau et
Tardieu, 2004; Chauvet et Till, 2006;
Chauvet, 2006).

chantillons) (Christine et Faivre,


2009). Linformation auxiliaire utilise
est alors multiple : nombre total de
logements, collectifs, sociaux, structure par sexe, par ge et rpartition
gographique et par type despace
de la population

La prsentation thorique dpasse


largement le cadre de cet article (Till,
2001). Son concept est cependant
ais apprhender. Si on parvient
construire des chantillons qui respectent les probabilits dinclusion
(par exemple PPT) et qui fournissent
pour des totaux connus par ailleurs,
parce que disponibles dans la base
de sondage, des estimations de
variance nulle, alors on peut esprer
que les estimations pour des variables dintrt corrles linformation
auxiliaire utilise seront galement de
bonne qualit. On montre que cest
effectivement le cas.

Les mthodes lmentaires permettant de satisfaire les contraintes externes sont principalement le sondage
plusieurs degrs, le sondage en deux
phases et la mthode du partage des
poids, mme si cette dernire nest
pas proprement parler une mthode
dchantillonnage.

La mthode du cube permet dobtenir


de tels chantillons. Elle est applique
trs frquemment lInsee, par exemple pour la cration des groupes de
rotation des petites communes dans
le cadre du recensement rnov de la
population, pour la slection du nouvel chantillon de lenqute Emploi
en continu, pour la construction de
lchantillon matre 1999, ou pour
celle du futur chantillon matre dsormais appel Octopusse (Organisation
Coordonne de Tirages Optimiss
Pour une Utilisation Statistique des

Courrier des statistiques n 126, janvier-avril 2009

Les sondages plusieurs degrs


Pour satisfaire la fois les contraintes de limitation des cots, notamment de dplacement, et la gestion
de la charge de travail des enquteurs, lInsee a recours au sondage
plusieurs degrs. Cest un processus de slection dun chantillon
au moins deux degrs successifs
embots. Les units qui constituent
le premier degr sont des entits
gographiques : cantons, communes. Le dernier degr de tirage est
gnralement constitu des logements que lon slectionne par un
sondage alatoire simple. On peut
montrer que si, chaque degr, les
units sont slectionnes proportionnellement leur taille en nombre de
logements et si lon slectionne au
dernier degr un nombre constant de

27

Vincent Loonis
logements, alors tous les logements
ont la mme probabilit dappartenir
lchantillon. Cette proprit est
intressante dun point de vue statistique et pratique.
En thorie des sondages, chaque
variable ou thme dintrt a son propre plan de sondage optimal avec
son systme de pondration adapt.
Dans la pratique, les enqutes sont
multi thmes, ce qui signifie quil
faudrait autant dchantillons que de
thmes ! Cest irralisable. Choisir
un plan de sondage avec probabilit
dinclusion constante nest donc optimal pour aucun thme, mais assure
que lchantillon retenu ne conduira
une catastrophe pour aucun thme
trait. Cest pourquoi, dans la plupart
des enqutes de lInsee, lquipondration est recherche. Cette quipondration sentend ventuellement au
sein dune catgorie de population.
Dun point de vue pratique, les avantages sont vidents. Au dernier degr,
on sarrange pour choisir un nombre
de logements qui est compatible avec
la charge de travail des enquteurs :
ni trop faible afin que celle-ci soit
suffisante pour assurer le revenu des
enquteurs ou pour justifier les cots
de formation, ni trop important afin
que les enquteurs aient le temps de
raliser toutes les interviews dans les
dlais prescrits.
La contrepartie des sondages plusieurs degrs est une moindre efficience en termes de prcision quun
sondage alatoire simple de taille
quivalente. Cet argument est cependant la plupart du temps fallacieux
car il nintgre pas les cots denqutes. La vraie comparaison entre
ces deux types de sondages devrait
soprer sous contrainte de budget
et de structure des cots constants.
Malheureusement, ce ne peut que
rarement tre tabli.

Les sondages en plusieurs


phases
Si les appellations se ressemblent,
il nen reste pas moins que lchantillonnage en plusieurs phases est
trs diffrent du sondage plusieurs

28

degrs, la fois dans ses objectifs et


dans son mode opratoire.
Lchantillonnage en plusieurs phases est mobilis lorsque lon souhaite
tudier un phnomne concentr sur
une population spcifique mais que
lon ne peut pas caractriser laide
des informations contenues dans la
base de sondage. On procde alors
une premire enqute auprs dun
trs large chantillon pour rcolter de
linformation la fois simple et discriminante au regard du phnomne
tudi. laide de cette information
et dans le premier chantillon, on
construit un second chantillon de
taille rduite cibl sur la population
laquelle on sintresse. chaque
niveau dchantillonnage, on peut utiliser une ou plusieurs des stratgies
prcdentes. Lexemple le plus rcent
est celui des enqutes Vie quotidienne et sant (VQS) et Handicap
sant (HS). La premire a t administre par voie postale auprs dun
chantillon, quipondr, de prs de
100000 logements. cette occasion
a t recueillie de linformation trs
gnrale sur ltat de sant global des
individus rsidant dans les logements
chantillonns. Les rponses ont t
utilises pour cibler un chantillon de
20 000 individus en surreprsentant
ceux qui avaient dclar, au cours de
la premire phase, connatre des soucis de sant. Ce second chantillon a
t interview en face--face afin de
recueillir de linformation prcise et de
bonne qualit.

Le partage des poids


Le partage des poids est une
mthode d'estimation adapte aux
situations d'chantillonage plus complexes : sondages indirects, bases
multiples, panels rotatifs...
linstar de lchantillonnage quilibr, si les ides sous-jacentes de ces
techniques taient dj prsentes au
dbut des annes quatre-vingt, leur
application a t systmatise grce
des travaux pionniers (Ernst, 1989;
Deville, 1998) gnraliss par la suite
(Lavalle, 2002).

Les domaines dapplication et la


thorie sous-jacente sont galement
trop vastes pour tre exposs ici; on
se bornera constater que le partage
des poids intervient frquemment et
dans des domaines varis:
pondrations des enqutes par
panel (SRCV);
gestion de la charge de travail des
enquteurs (VQS 2006);
possibilit de cibler des souspopulations trs spcifiques (Sansdomicile 2001, Logement 2006) ;
dans les tudes prliminaires pour
la construction de lchantillon de
lenqute Famille 2011;
dans la gestion au quotidien de
toutes les enqutes pour le cas de
logements clats ou fusionns;
dans les enqutes couples
(Famille-employeur 2004) etc.
De manire simplifie, le partage des
poids intervient ds lors que les individus peuvent potentiellement tre
prsents plusieurs fois dans lchantillon final. Cette multiplicit peut tre
le fait des sondages indirects ou de
lexistence de bases de sondages
multiples.
Un exemple classique de sondage
indirect est celui des parents dlves.
Si on dispose seulement dune base
de sondage constitue par les lves,
on chantillonne dans cette base et on
interroge les parents des lves chantillonns. Si un individu a plusieurs
enfants, il pourra ainsi tre slectionn
plusieurs fois. Il faut tenir compte de
cet ordre de multiplicit, appel nombre de liens, dans ltablissement des
pondrations. On remarquera que ce
qui importe dans la mthode du partage des poids, cest le nombre de
fois o un individu aurait pu tre slectionn, ce qui est trs diffrent du
nombre de fois o il a effectivement t
slectionn. Cest cette logique qui a
prvalu pour lenqute Sans-domicile
2001. Les units chantillonnes sont
des services : repas, hbergement, et
on cherche interviewer in fine des
individus ; or, chaque individu peut
utiliser plusieurs services.

Lchantillonnage de la thorie la pratique


Lautre application classique du partage des poids est celle des bases
multiples. On souhaite raliser une
enqute en population gnrale en
surreprsentant une sous-population
(par exemple les bnficiaires de lallocation logement). On ne sait pas isoler
cette sous-population dans la base de
sondage habituelle, mais on dispose
pour elle dune base de sondage spcifique. On y slectionne un second
chantillon. On dispose alors de deux
chantillons que lon souhaite rconcilier. Les individus de la population
spcifique peuvent tre slectionns
deux fois: dans la procdure standard
et dans la procdure ad-hoc. Pour les
reprer dans lchantillon standard, il
faut inclure dans le questionnaire des
items permettant de les identifier. On
pourra ainsi corriger en consquence
les pondrations. Lenqute Logement
2006 a mis en uvre pas moins de
sept bases de sondages diffrentes.
On ne cache pas que si le partage
des poids est bien matris dun point
de vue thorique, il peut galement
savrer parfois dapplication pour le
moins dlicate.
Un exemple rvlateur des difficults de collecte que peut engendrer
lapplication du partage des poids
provient des travaux prparatoires
lchantillonnage de lenqute
Patrimoine 2009. Un scenario prvu
pour cette enqute tait de slectionner un chantillon en population standard dans le recensement 2008 et
une extension dagriculteurs dans les
recensements 2004 2008. Notons
que linformation permettant de reprer les mnages agriculteurs nest
disponible que dans lexploitation
complmentaire du recensement.
Afin davoir localement suffisamment
dagriculteurs chantillonner, il fallait recourir aux cinq campagnes du
recensement. Finalement, tout se
passe comme si on disposait de
six bases de sondages diffrentes :
population en 2008 et cinq populations de logements avec au moins
un agriculteur (2004 2008). Pour
tenir compte de lordre de multiplicit et corriger en consquence, il
faut savoir, pour chaque logement
dun sous-chantillon donn, sil
appartient la population des autres
bases de sondages. Les bases de

sondage ntant pas interconnectes


entre elles, il faut rcolter linformation auprs des mnages eux-mmes
en insrant des questions prvues
cet effet. Ici, ces questions pourraient
paratre exotiques, puisquil sagit
de savoir si pour chacune des annes
2004 2008 le logement a constitu
la rsidence principale dau moins
un agriculteur. On peut comprendre
ltonnement des enquts face de
telles questions dans le cadre dune
enqute sur le patrimoine. Ne pas
poser ces questions, dans les agglomrations par exemple, revient spcifier dans les applications informatiques des questionnaires diffrents
selon le type de logement, ce qui peut
ne pas tre simple, souhaitable ou
souhait. Ne poser ces questions
aucun des mnages implique dmettre des hypothses pour corriger de
lordre de multiplicit. Au total, cet
exemple ne vise pas dissuader
dutiliser le partage des poids, bien
au contraire, puisque lInsee lutilise
rgulirement, mais faire prendre
conscience aux concepteurs des
consquences dune telle mthode. Il
convient alors de les anticiper.

taire. Sachant que, chaque anne, il y


a en moyenne 10 enqutes standard
de 20 000 logements et que pour
chaque enqute on vise une charge
de travail de lordre de 30 logements
par enquteur, on en dduit:

Le cas de lchantillon-matre

Par des algorithmes adapts, on


construit automatiquement des zones
vrifiant les contraintes prcdentes.
On simpose galement de respecter
les limites communales et rgionales
et, pour les prcdents chantillons
matre, une typologie des communes
selon le type despace. Enfin, on se
donne comme objectif que ces zones
soient le plus petites possible. Cette
contrainte supplmentaire permet de
minimiser les frais de dplacements
mais aussi le taux de non-rponse.
On sait en effet que les grandes distances parcourir pour raliser des
enqutes contribuent une dgradation du taux de rponse.

Lobjectif de lchantillon-matre est


la construction automatique dchantillons pour les enqutes standard. Il
vise respecter les contraintes dquipondration des logements, dquirpartition de la charge de travail par
enquteur et de concentration des
interviews. Sa dure de vie est dune
priode intercensitaire, ou dun cycle
de recensement. Partant du constat
que slectionner chaque fois un
chantillon dans lensemble de la
base de sondage peut tre chronophage, lchantillon-matre forme une
rserve de logements suffisamment
petite pour autoriser des traitements
informatiques dans des dlais non
prohibitifs mais suffisamment grande
pour alimenter lensemble des enqutes prvues sur la priode.
Pour calibrer cette rserve de logements, on part de lhypothse que
chaque enquteur se voit attribuer une
zone gographique sur laquelle il travaillera pendant la priode intercensi-

Courrier des statistiques n 126, janvier-avril 2009

le nombre de zones slectionner:


20000/30 660 zones;
la taille minimale en nombre de
logements des zones construire :
30*10*dure de la priode intercensitaire.
Pour les prcdents chantillons-matre, la dure intercensitaire tait de
lordre de 10 ans, soit des zones de
taille minimale de 3000 logements.
Pour le nouvel chantillon-matre,
Octopusse, le principe est de slectionner les logements dans la dernire
campagne du recensement rnov.
Les zones appeles Zone Action
Enquteur (ZAE) doivent ainsi comporter des communes appartenant
chacun des groupes de rotation. Les
communes dun groupe de rotation
doivent possder, au total, un stock de
logements suffisant pour une anne
denqute, soit 300 logements.

Conformment aux principes vus


prcdemment, une fois les zones
construites sur l'ensemble du territoire et le nombre de zones chantillonner fix, on procde la slection proportionnellement au nombre
de logements. Pour la slection, on
introduit des critres de stratification
ou dquilibrage. Cet chantillon de
zones est fix pour la dure de vie de

29

Vincent Loonis

Pour une enqute donne on slectionne dans chaque zone un nombre fixe de logements ce qui assure
lquipondration in fine. Quand un
chantillon est slectionn, il est marqu: les logements ne pourront plus
tre choisis pour une enqute
future. On montre que ce principe ne
modifie pas le calcul des probabilits
tout en permettant dassurer la disjonction: un logement ne pourra tre
enqut quune seule fois au cours
dun cycle de recensement.
videmment, la pratique est un peu
diffrente de celle prsente ici. Pour
autant, les raffinements mthodologiques supplmentaires, qui peuvent
parfois tre trs complexes, ne changent pas la philosophie densemble.
Pour plus de dtails, sur la pratique
on pourra se reporter MarcChristine
et Sbastien Faivre, 2009.

Le cas de lenqute emploi


en continu
Pour comprendre la spcificit de
lchantillonnage de lEEC, il faut avoir
prsent lesprit la notion de semaine
de rfrence et les objectifs de lenqute qui sont de fournir la fois des
estimations trimestrielles en niveau et
des volutions trimestrielles.
Lobjet principal de lEEC est la mesure
des niveaux du chmage, au sens
du Bureau International du Travail, et
de lactivit des personnes. Pour y
parvenir, les enquteurs posent aux
mnages des questions concernant
leur situation sur le march du travail
pendant une semaine qui a t fixe
lavance. Cette semaine est appele
semaine de rfrence . La collecte
de lEEC tant trimestrielle, les semaines de rfrence sont rparties uniformment sur lensemble dun trimestre.
Afin de limiter les risques doublis, on
demande aux enquteurs de rcolter
linformation sur la semaine de rfrence au maximum 2 semaines et
2 jours aprs la fin de ladite semaine.
Par ailleurs, chaque enquteur a une
vingtaine de logements enquter,
tous sur la mme semaine de rfrence. Lensemble de ces contrain-

30

Source: Site photo libre

l'chantillon-matre et alimentera l'ensemble des enqutes standard.

Diverses personnes

tes conduit ce que lon soit nettement plus exigeant sur les distances
parcourir dans lEEC que dans une
enqute classique o la collecte peut
staler sur plusieurs mois. A la limite,
on cherche obtenir que les logements attribus un enquteur soient
contigus si bien quil ne perdra pas de
temps dans les dplacements.
Ce type de contrainte classe lchantillon de lEEC dans les chantillons
dits arolaires. On ne slectionne pas
directement des logements mais des
aires de 20 logements contigus. Tout
le problme est de disposer dune
base de sondage arolaire affectant
chacun des quelques 32 millions de
logements une aire. Dans lchantillon actuel, qui est sur le terrain
depuis 2001 (Christine, 2002), cette
base a t obtenue en suivant une
logique descendante partir du
recensement 1999.

Dans chaque unit chantillonne,


un secteur est slectionn proportionnellement sa taille. Il est ensuite
dcoup en six aires de 20 logements
contigus. Sachant que lon souhaite
obtenir un chantillon final de lordre
de 51 000 logements, il faut slectionner en premire approche 2 550
( = 51 000/20) units primaires. Le
travail de dcoupage ne doit soprer
que sur ces seules units et non pas
sur lensemble du territoire. Ce travail
a tout de mme ncessit 140 000
heures de travail dans les directions
rgionales de lInsee en 2001.

Le nouvel chantillon de lEEC est sur


le terrain depuis le mois de janvier
2009 (Loonis, 2009). La base de sondage qui y est utilise est la taxe dhabitation (TH). On dispose, pour chacun
des 32 millions de logements, de ses
rfrences cadastrales. Les rfrences
cadastrales sont constitues par la
section cadastrale (un quartier) et,
Dans un premier temps, on slectionne des entits gographiques lintrieur de la section, de la parcelle
proportionnellement leur nombre de cadastrale (plus petite unit de prologements. Ces entits sont appeles prit foncire). Sections et parcelles
units primaires. Elles sont le plus cadastrales sont codes de telle sorte
petites possible parmi les regroupe- que lon peut obtenir directement ,
ments dlots (Iris) ou de communes, par une procdure automatique et
tout en ayant au moins 120 loge- informatique, des grappes dune vingments. Les units slectionnes sont taine de logements, au prix cependant
dcoupes en secteurs laide de labandon de la contigut au profit
des plans associs au recensement de la proximit. Pour marquer le pas1999. Chaque secteur regroupe de sage de la contigut la proximit, on
lordre de 120 logements contigus. utilisera dans lchantillon construit

Lchantillonnage de la thorie la pratique


partir de la TH le vocable grappe
alors que dans lancien chantillon
on parlait plus volontiers daires. Les
32millions de logements ont ainsi t
rpartis en 200 000 secteurs, ayant
chacun 6 grappes de 20 logements.
Les secteurs ont t slectionns, de
manire quilibre sur des critres
gographiques, financiers et dmographiques. Pour parvenir un chantillon
de 66000 logements, la taille moyenne
dune grappe tant lgrement suprieure 20 rsidences principales, le
nombre de secteurs a t fix 3200.
On a vu que la construction de lchantillon actuel (ou futur) fait intervenir
la notion de secteurs qui est le
regroupement de six aires ou de six
grappes. Cette notion est la traduction
de la dualit des objectifs de lEEC :
estimations des taux de chmage
pour un trimestre donn, dites transversales, et mesure de son volution
entre deux trimestres. En thorie des
sondages, si lon souhaite mesurer
des volutions, il est prfrable de
recourir des panels, o les individus
sont interrogs plusieurs fois intervalles rguliers. Dans les panels purs,
on slectionne un chantillon initial
que lon suit sur une priode donne.
Cette pratique est incompatible avec
la fourniture destimations transversales. En effet, lchantillon initial nest
reprsentatif que de la population
la date laquelle il a t slectionn.
Pour une date ultrieure, il ne tiendra
pas compte des entres (naissances
ou immigration) ni des sorties (dcs
ou migration). Pour rconcilier appro-

ches transversales et longitudinales,


on utilise des chantillons rotatifs: une
fraction de lchantillon est renouvele
chaque date dobservation.
Dans lEEC, et en rgime de croisire,
lchantillon est renouvel par sixime
tous les trimestres. Le renouvellement
sobtient en excluant des aires ou des
grappes entires. Ainsi, un trimestre
donn, une seule aire ou grappe est
enqute par secteur. Le trimestre
suivant, pour un secteur sur six, on
enqute une autre aire ou grappe du
mme secteur. Cette mthode assure
le renouvellement de lchantillon mais
aussi la prennit de la charge de travail pour les enquteurs. Les grappes
ou aires dun mme secteur sont, par
construction, proches gographiquement. Il en rsulte que les mmes
enquteurs peuvent tre mobiliss malgr le renouvellement de lchantillon.
Pour lEEC, lchantillon est slectionn
en une seule fois pour toute la dure
de sa vie. Cest ce stade quest tabli
notamment le calendrier de renouvellement des secteurs. Pour tenir compte
de la construction neuve, lchantillon
est rgulirement enrichi par des logements nouveaux. Dans lchantillon
actuel, cet enrichissement est rendu
possible par la contigut des aires. A
partir des dcoupages raliss sur la
base des documents cartographiques
associs au recensement de 1999,
chaque aire a reu une description physique ainsi que la liste des logements
connus au moment de ce recensement. Avant que laire ne rentre dans

Courrier des statistiques n 126, janvier-avril 2009

lchantillon, lenquteur procde une


opration dite de ratissage . Muni
des documents de collecte, lenquteur parcourt son aire pour y rpertorier lensemble des logements et ainsi
reprer les logements nouveaux. Tous
les logements, quils soient nouveaux
ou non, seront enquts. Dans le nouveau dispositif, issu de la TH, labandon de la contigut nautorise pas
utiliser le mme systme. Toutefois, la
mise disposition annuelle des fichiers
de la TH et lexistence dun identifiant prenne permettent de reprer la
construction neuve. On recourt alors
une procdure dchantillonnage adapte pour mettre jour lchantillon.
Prsenter lensemble, ou mme ne
serait-ce quune synthse, des stratgies retenues pour les enqutes ad
hoc est hors de porte de cet article.
Il y a autant de stratgies que de problmes. Les principes prsents prcdemment restent dactualit et fournissent un cadre rassurant. On notera
cependant quune difficult supplmentaire est le dlai restreint dont on
dispose pour laborer la stratgie qui
satisfera la fois les statisticiens, surtout sensibles aux questions de biais
et de variance, et les responsables
du terrain, plus proccups par les
questions de distance parcourue et
de charge de travail. Cela est dautant
plus vrai que les souhaits des diffrents acteurs sont rarement stables
dans le temps. La recherche permanente de ce consensus est finalement
tout ce qui fait lattrait et lintrt de la
construction des chantillons. n

31

Vincent Loonis

Bibliographie
G. Chauvet et Y. Till, 2006, A Fast Algorithm of Balanced Sampling, Computational Statistics, 21-53-61.
M.Christine, 2002, La construction de lchantillon de la future enqute Emploi en continu partir du recensement de 1999,
Actes des Journes de Mthodologie Statistique, Insee Mthodes, n100, pp 175-229.
M.Christine et S. Faivre, 2009 Octopusse: un systme dchantillon-matre pour le tirage des chantillons dans la dernire
Enqute Annuelle de Recensement, actes des Xmes Journes de Mthodologie Statistique.
J.-C. Deville et Y. Tills, 2004, Efficient Balanced Sampling: The Cube Method, Biometrika, n91, 893-912.
J.-C. Deville, 1998, Les enqutes par panel: en quoi diffrent-elles des autres enqutes? suivi de: Comment attraper
une population en se servant dune autre. Insee Mthodes, No. 84-85-86, pp.63-82.
L. Ernst, 1989, Weighting issues for Longitudinal Household and Family Estimates. in Panel Surveys (eds Kasprzyk, D.,
Duncan, G., Kalton, G., Singh, M.P. s), John Wiley and Sons, New York, pp.135-159.
P. Lavalle, 2002, Le sondage indirect, ou la mthode gnralise du partage des poids, ditions de lUniversit de Bruxelles.
V. Loonis, 2009, La construction du nouvel chantillon de lenqute Emploi en continu partir des fichiers de la taxe dhabitation, acte des Xmes Journes de Mthodologie Statistique.
F. Tardieu et S. Rousseau, 2004, La macro SAS CUBE dchantillonnage quilibr, disponible sur le site www.insee.fr.
Y. Till, 2001, Thorie des sondages : chantillonnage et estimation en populations finies : cours et exercices, 284 pages,
Paris, Dunod.

32