Documente Academic
Documente Profesional
Documente Cultură
1. Introduction
population. Ainsi, chantillonner dans P est quivalent chantillonner dans {1,..., N } . Enfin,
un chantillon {ui1 ,..., uin } est le rsultat dune mthode dchantillonnage applique une fois
sur la population P.
1/11
La reprsentativit dun chantillon ne peut donc tre envisage (une fois dfinie) quen
termes de qualit dun chantillon provenant dune mthode dchantillonnage donne. Cest
donc la mthode dchantillonnage qui donnera aux chantillons leur qualit de
reprsentativit.
Dans cet article, nous proposons une dfinition dun chantillon reprsentatif dune
population finie et dmontrons quelques proprits essentielles qui en dcoulent.
La reprsentativit est souvent un argument avanc pour justifier lusage des rsultats dune
enqute par sondage. Il existe cependant de nombreuses interprtations de ce terme et nous
avons relev quelques argumentaires ou dfinitions de ce terme.
Pour Yves Till (2001) Le concept de reprsentativit est aujourd'hui ce point galvaud
qu'il est dsormais porteur de nombreuses ambivalences. Cette notion, d'ordre
essentiellement intuitif, est non seulement sommaire mais encore fausse et, bien des gards,
invalide par la thorie. .
Pour Jean Vaillant (2005) La dfinition d'chantillon reprsentatif diffre selon que le plan
d'chantillonnage est probabiliste ou non probabiliste :
Pour Pascal Ardilly (2006) On dit quun plan de sondage est reprsentatif dune expression
donne et numriquement connue construite partir dune variable auxiliaire (un total le
plus souvent) lorsque, pour la mthode dchantillonnage choisie, lestimateur estime
parfaitement bien (cest--dire avec un biais nul et une variance nulle) lexpression donne
2/11
en question. Ce terme ne sapplique pas de faon satisfaisante un chantillon.
Pour Olivier Sautory (2010) Un chantillon n'est jamais reprsentatif "en soi", il est
reprsentatif par rapport certaines variables.
Pour le Snat dans la proposition de loi du 14 fvier 2010 sur les sondages : Un sondage est
une enqute statistique visant donner une indication quantitative, une date dtermine,
des opinions, souhaits, attitudes ou comportements dune population par linterrogation dun
chantillon reprsentatif de celle-ci, quil soit constitu selon la mthode des quotas ou selon
la mthode alatoire
Pour Sheldon M. Ross (1999) [] Thus, although it may seem paradoxical, we are most
likely to obtain a representative sample by choosing its members in a totally random fashion
without any prior considerations of the elements that will be chosen. In other words, we need
not attempt to deliberately choose the sample so that it contains, for instance, the same
gender percentage and the same percentage of people in each profession as found in the
general population..
Enfin, pour Philippe Dutarte (2005) Voil une expression qui, si elle nest pas prcise, peut
signifier peu prs nimporte quoi. Un chantillon constitu selon la mthode des quotas est
videmment reprsentatif des critres correspondants aux quotas (sexe, ge, catgorie
socioprofessionnelle, rgion, taille de la commune...) selon lesquels il a t fabriqu. Mais on
na aucun moyen de savoir jusqu quel point il est reprsentatif de ce pour quoi il a t
prlev, cest--dire le sujet du sondage, lopinion, le pourcentage que lon cherche
valuer. Lexpression reprsentatif de la population franaise , que lon lit souvent dans la
presse, prte videmment confusion. On a limpression que lchantillon est reprsentatif
de tout ce que lon veut. En statistique, on dsigne plutt par chantillon reprsentatif , un
chantillon o le hasard permet dviter les biais inconnus et dappliquer le calcul des
probabilits. La mthode optimale pour obtenir un chantillon reprsentatif est celle du
sondage alatoire stratifi optimal. .
3/11
Cet ventail de dfinitions, proprits ou remises en cause de la reprsentativit dun
chantillon montre lapparente subtilit et complexit de cette notion. Pourtant, cette notion
nous semble fondamentale. Nous pourrons prouver, voir unifier les points de vue ds lors
quune dfinition statistique unique simpose. Dans cet article, nous proposons une dfinition
dun chantillon reprsentatif dune population finie et dmontrons plusieurs proprits
essentielles qui en dcoulent. Deux ides fondamentales ont guid notre rflexion :
Un chantillon reprsentatif nest pas une fin en soi. Ce que nous souhaitons cest que les
rsultats issus du traitement statistique de lchantillon puissent tre extrapols la
population. Aussi, ce que lon souhaite cest que les rsultats soient reprsentatifs .
Un rsultat reprsentatif est une ide assez claire. En tout cas, nous pouvons nous accorder sur
une dfinition statistique en ce qui concerne les rsultats issus des mthodes
dchantillonnage probabilistes. Un rsultat sur lchantillon doit estimer une quantit dans la
population. Ce que lon souhaite clairement, dun point de vue statistique, cest que cette
estimation soit sans biais. Cest sur cette ide quest construite la thorie des sondages (voir
par exemple Ardilly (2006)).
Un rsultat reprsentatif est donc, statistiquement, un rsultat issu dun estimateur sans biais.
On peut donc dire que lensemble des rsultats dun sondage est reprsentatif si chaque
rsultat est reprsentatif. A ce stade, nous pourrions tudier la proposition de dfinition
suivante :
Dfinition 0 : Un chantillon est reprsentatif pour une tude (cest dire un ensemble de
rsultats) si et seulement si lensemble des rsultats de ltude est reprsentatif.
Ici, un chantillon est reprsentatif si et seulement si tout rsultat produit est un estimateur
sans biais de la quantit recherche dans la population. Ici, lchantillon est reprsentatif au
regard de la qualit de lensemble des rsultats produits par ltude.
4/11
ici, un chantillon ne peut tre reprsentatif en soi . Or, nous avons admis, par exemple,
quun chantillon simple au hasard doit tre un chantillon reprsentatif, un chantillon
reprsentatif en soi ou par dfinition .
Cette dfinition est nanmoins intressante. En effet, si lon dmontre que tout rsultat est issu
dun estimateur sans biais, alors lchantillon est reprsentatif. On aurait donc une mthode de
dmonstration de la reprsentativit de lchantillon au regard des traitements qui seront
raliss.
Malheureusement, si nous souhaitons estimer une quantit pour laquelle il nexiste pas
destimateur sans biais quelque soit lchantillon (par exemple, le maximum dune variable
quantitative nest estim sans biais que si n=N), nous devrions conclure quaucun chantillon
reprsentatif nexiste pour cette quantit. Or nous voulons quun chantillon simple au hasard
soit un chantillon reprsentatif. La dfinition 0 est donc sans suite.
La statistique est base sur la notion dinformation et on posera que la population contient
toute linformation (sur cette population). La dfinition dun chantillon reprsentatif ne peut
pas dpendre des maladresses de mthodes destimation. On veut quun chantillon puisse
tre reprsentatif en soi.
Dans la suite, on reprend les notations de lintroduction en notant S = {i1 ,..., in } les indices des
Dfinition 1 : Une caractristique dune population de taille N est un vecteur de taille N qui
consigne, pour cette population les valeurs prises par chaque unit de la population un
moment donn (ex : ge de chaque personne).
Il est clair quune caractristique C dune population peut sexprimer en termes dune
distribution empirique FN(C) simplement dfinie comme lensemble des frquences dans la
population des valeurs prises par la caractristique dans la population.
Dfinition 2 : Lensemble des caractristiques dune population de taille N est une matrice
de taille NXK qui consigne, pour cette population les valeurs prises par chaque individu pour
5/11
lensemble des K caractristiques de la population (ex : ge, taille, CSP,).
Il est clair que lensemble des caractristiques dune population peut sexprimer en termes
dune distribution empirique de dimension K : FN (C1 ,..., CK ) . On note C( i , k ) la valeur de la
population de taille N sil existe une mthode dchantillonnage probabiliste dans E dune
unit ui E telle que la loi de probabilit de C( i , k ) qui est la valeur de cette caractristique
pour lindividu ui E , pris au hasard dans lchantillon, est gale la loi de distribution
Pi = P (ui E1 | ui E ) pour i S .
Un chantillon E compos de n units {ui }iS est reprsentatif dune population P sil existe
une mthode dchantillonnage probabiliste dans E dune unit ui E telle que la loi de
6/11
probabilit conjointe des caractristiques ( C(i ,1) ,..., C(i , K ) ) de lindividu ui E pris au hasard
En substance, un chantillon est donc reprsentatif sil est possible de tirer au hasard dans cet
chantillon un individu dont la loi des caractristiques est celle de la population. Le hasard de
ce tirage nest pas ncessairement quiprobable. On dmontre quun chantillon est
reprsentatif si et seulement si on dmontre que FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) .
la population, alors il est clair que FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) .
dans S.
7/11
Proprit 4 : Si E est un chantillon de n individus dune population P de taille N est issu
dune mthode dchantillonnage probabiliste avec des probabilits dinclusion connues et
suprieures ou gales 1/N, (i.e. P (ui ) = P (ui E ) 1 / N , pour i = 1 ... N), alors E est un
chantillon reprsentatif de P :
alors un ensemble de probabilits qui peut tre la base dune mthode dchantillonnage
conditionnel dun individu dans lchantillon E. Alors, la probabilit dinclusion de tout ui
i=1N. La proprit 3 nous dit que FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) .
Cette limite nest pas si surprenante : si lon sintresse lestimation dune proportion dune
caractristique D par lestimateur de Horvitz-Thomson, on peut trouver la formule par
exemple dans Ardilly (2006 page 133) :
1 1 1 1
PD = P qui est, avec nos notations, gale P(u ) .
N is i N iE i
iD iD
Or, si P (ui ) < 1 / N , lestimation de la proportion est suprieure 1. Dans notre exemple, si
8/11
NB : La proprit destimation sans biais nest clairement pas suffisante pour garantir la
reprsentativit de lchantillon. En effet, dans lexemple prcdant, lestimation de la
proportion de D dans la population est sans biais puisque :
Donc lesprance est bien de 0,02*500%=10% (comme dans la population). Mais il est clair
quaucun statisticien ne cautionnerait une estimation de 500%. Donc on devra limiter
lestimation 100%. Mais dans ce cas, lesprance de lestimateur sera de 0,02*100%=2%.
Lestimateur est alors biais.
La mthode des quotas est la plus frquemment utilise pour tenter de construire un
chantillon reprsentatif . Pour Jrme Fourquet en 2011 Cest en respectant cette
mthode des quotas quon arrive avoir un chantillon reprsentatif. . Pour LIPSOS (Page
Web) Linconvnient majeur de la mthode des quotas est de ne pas permettre de calculer
scientifiquement la marge derreur du sondage. Les lois statistiques qui permettent de la
dterminer ne valent thoriquement que pour les sondages alatoires. En pratique, on
considre cependant que la marge derreur des sondages par quotas est gale ou infrieure
celle des sondages alatoires .
Le principe des quotas est simple : connaissant dans la population la distribution de certaines
caractristiques de la population, on slectionnera des individus de la population
squentiellement jusqu satisfaction (en proportions exactes) de ces distributions. Cette seule
contrainte ne dfinit pas les probabilits dinclusion de chaque individu de la population. Pour
autant, cette mthode ne signifie pas que les probabilits dinclusion soient ncessairement
inconnues.
Exemple : supposons que lon dispose dune base de sondage exhaustive et que lon
slectionne un chantillon de n individus squentiellement selon la mthode des quotas de la
manire suivante : le premier individu de lchantillon est slectionn au hasard simple (1/N)
dans la population. Le second au hasard simple (1/(N-1)) et ainsi de suite. Si, a un moment,
lindividu ne satisfait pas aux quotas, on le retire de la base et on poursuit au hasard simple.
Une petite analyse de lchantillonnage montre que chaque individu de la population a la
9/11
mme probabilit dinclusion dans lchantillon. On est donc ici dans le cas dun
chantillonnage stratifi, reprsentatif selon la dfinition 4 et dont la marge derreur []
est gale ou infrieure celle des sondages alatoires (IPSOS).
La mthode des Quotas nest donc pas en soi une mthode empirique ou non probabiliste.
Elle ne le devient que si les probabilits dinclusion sont inconnues.
Pour rpondre cette question, nous devons dabord rpondre la question : pourquoi avons-
nous redress a posteriori lchantillon ? Il est clair que si lchantillon est reprsentatif, nous
navons aucune raison deffectuer un redressement a posteriori. Donc, notre chantillon nest,
pour une raison ou pour une autre, pas reprsentatif, nous le savons et nous voudrions le
rendre reprsentatif. La dfinition 4 nous dit que tout cela nest que vaine peine. En effet,
nous ne pourrons en aucun cas dmontrer la reprsentativit de cet chantillon redress.
Remarque 2 : Un chantillon par quotas est reprsentatif des distributions marginales des
caractristiques prises en compte pas les quotas. De ce fait, cette mthode est identique un
chantillonnage alatoire (non reprsentatif d un dfaut de couverture ou des non-rponses)
avec redressement par calage sur les mmes caractristiques.
6. Conclusion
Ce papier propose une dfinition dun chantillon reprsentatif dune population finie. Cette
dfinition nest pas base sur la slection au hasard dindividus de la population mais la
slection au hasard dun individu de lchantillon. De ce fait, il ny a aucun a priori sur le
mode de slection de lchantillon. Les propositions qui en dcoulent sont riches
denseignements. Dans un premier temps, on dmontre quun chantillon alatoire simple est
10/11
bien reprsentatif. De plus, on montre que si la mthode dchantillonnage a des probabilits
dinclusion trop disparates, la reprsentativit nest pas vidente. Enfin, on voit que la
reprsentativit de la mthode des quotas na rien envier celle des chantillons alatoires
avec redressement pour dfaut de couverture ou non-rponse.
Les diffrentes citations de la partie (2.a.) peuvent tre commentes au regard de cette
dfinition de la reprsentativit dun chantillon.
Pour Yves Till et Pascal Ardilly, la reprsentativit est une notion inadapte . Nous
esprons que la dfinition propose dans cet article les fera changer davis. Pour Olivier
Sautory, Un chantillon n'est jamais reprsentatif "en soi" . Notre dfinition est base sur
le contraire. Pour Jean Vaillant, il suffit que les probabilits dinclusion soit connues et non
nulles. Nous avons montr le problme que pose lutilisation de probabilits dinclusion
infrieures 1/N. Notre dfinition est en revanche, totalement en accord avec la citation de
Sheldon M. Ross et pour lessentiel, en accord avec Philippe Dutarte.
Il est clair pour tous que la reprsentativit de lchantillon est un idal. En effet, un taux de
couverture de 100%, un taux de non-rponse de 0%, font partie des hypothses du
thoricien mais rarement de la ralit du statisticien. On peut alors se poser la question de la
construction dun indice de reprsentativit qui aurait pour but de relativiser le plus
objectivement possible (et de la manire la plus consensuelle) le dfaut de reprsentativit
dun dchantillon.
Bibliographie
11/11