Documente Academic
Documente Profesional
Documente Cultură
REPRESENTATIF
(DUNE
ET PROPRIET
Leo Gerville-Reache, Vincent Couallier
1. Introduction
Quest ce quun chantillon reprsentatif, et pourquoi cette notion de reprsentativit est-elle
un pralable de nombreuses analyses de rsultats de sondage ? Il est bien vident quune
analyse par chantillonnage en vue de dcrire, prdire ou extrapoler la population entire est
la base des statistiques, le problme tant de justifier les techniques de statistique
mathmatique associes. Avant mme de parler de reprsentativit, on doit dfinir la notion
de population, dchantillonnage dans cette population, et enfin dchantillon de cette
population. Dans la suite, suivant les notations de Cochran (1977) ou Ardilly (2006), une
population de taille finie N est classiquement dfinie comme un ensemble dunits disjointes
pouvant tre indexes par les N premiers entiers et reprsente par P = {ui , i = 1,..., N } sans
distinction dordre. Une mthode dchantillonnage est un algorithme permettant sans
ambigut de crer un chantillon, cest dire de slectionner sans distinction dordre une
partie de P. Puisque les units statistiques sont distinguables, lchantillonnage revient
dcrire comment sont slectionns les indices {i1 ,..., in } des n units statistiques de la
population. Ainsi, chantillonner dans P est quivalent chantillonner dans {1,..., N } . Enfin,
un chantillon {ui1 ,..., uin } est le rsultat dune mthode dchantillonnage applique une fois
sur la population P.
1/11
La reprsentativit dun chantillon ne peut donc tre envisage (une fois dfinie) quen
termes de qualit dun chantillon provenant dune mthode dchantillonnage donne. Cest
donc la mthode dchantillonnage qui donnera aux chantillons leur qualit de
reprsentativit.
Dans cet article, nous proposons une dfinition dun chantillon reprsentatif dune
population finie et dmontrons quelques proprits essentielles qui en dcoulent.
2. Notions
de
reprsentativit
dun
chantillon
dans
la
littrature.
La reprsentativit est souvent un argument avanc pour justifier lusage des rsultats dune
enqute par sondage. Il existe cependant de nombreuses interprtations de ce terme et nous
avons relev quelques argumentaires ou dfinitions de ce terme.
a. Aperu de notions releves dans la littrature.
Pour Yves Till (2001) Le concept de reprsentativit est aujourd'hui ce point galvaud
qu'il est dsormais porteur de nombreuses ambivalences. Cette notion, d'ordre
essentiellement intuitif, est non seulement sommaire mais encore fausse et, bien des gards,
invalide par la thorie. .
Pour Jean Vaillant (2005) La dfinition d'chantillon reprsentatif diffre selon que le plan
d'chantillonnage est probabiliste ou non probabiliste :
- un plan probabiliste fournit un chantillon reprsentatif ds lors que chaque individu de la
population a une probabilit connue et non nulle d'tre inclus dans l'chantillon.
- un plan non probabiliste fournit un chantillon reprsentatif si la structure de l'chantillon
pour certaines variables cls est similaire celle de la population cible. Par exemple, on peut
vouloir construire un chantillon pour lequel les proportions de catgories d'individus soient
similaires dans l'chantillon celles de la population cible (c'est le principe de la mthode
dite des quotas). .
Pour Pascal Ardilly (2006) On dit quun plan de sondage est reprsentatif dune expression
donne et numriquement connue construite partir dune variable auxiliaire (un total le
plus souvent) lorsque, pour la mthode dchantillonnage choisie, lestimateur estime
parfaitement bien (cest--dire avec un biais nul et une variance nulle) lexpression donne
2/11
ici, un chantillon ne peut tre reprsentatif en soi . Or, nous avons admis, par exemple,
quun chantillon simple au hasard doit tre un chantillon reprsentatif, un chantillon
reprsentatif en soi ou par dfinition .
Cette dfinition est nanmoins intressante. En effet, si lon dmontre que tout rsultat est issu
dun estimateur sans biais, alors lchantillon est reprsentatif. On aurait donc une mthode de
dmonstration de la reprsentativit de lchantillon au regard des traitements qui seront
raliss.
Malheureusement, si nous souhaitons estimer une quantit pour laquelle il nexiste pas
destimateur sans biais quelque soit lchantillon (par exemple, le maximum dune variable
quantitative nest estim sans biais que si n=N), nous devrions conclure quaucun chantillon
reprsentatif nexiste pour cette quantit. Or nous voulons quun chantillon simple au hasard
soit un chantillon reprsentatif. La dfinition 0 est donc sans suite.
5/11
Q = 1 .
i
iS
6/11
probabilit conjointe des caractristiques ( C(i ,1) ,..., C(i , K ) ) de lindividu ui E pris au hasard
dans lchantillon est gale la loi de distribution empirique de lensemble des
caractristiques dans la population P, cest dire que FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) .
En substance, un chantillon est donc reprsentatif sil est possible de tirer au hasard dans cet
chantillon un individu dont la loi des caractristiques est celle de la population. Le hasard de
ce tirage nest pas ncessairement quiprobable. On dmontre quun chantillon est
reprsentatif si et seulement si on dmontre que FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) .
Proprit 1 : La population P est un chantillon reprsentatif de la population P.
Dmonstration : Si on tire au hasard quiprobable (i.e. {Qi = Pi = 1 / N }i =1.. N ) une unit ui de
la population, alors il est clair que FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) .
Proprit 2 : Un chantillonnage alatoire simple produit un chantillon reprsentatif de la
population P.
Dmonstration : Si on tire au hasard quiprobable, n individus dans la population et que lon
tire un individu au hasard quiprobable dans cet chantillon, il est clair que cela revient tirer
un individu au hasard quiprobable directement dans la population, revenant ainsi au cas de la
proprit 1 et donc FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) . Dans ce cas, Qi = Pi = 1/ N , pour tout i
dans S.
Proprit 3 : Si E est un chantillon de n individus dune population P de taille N issu dune
mthode dchantillonnage probabiliste tel quil existe une mthode dchantillonnage
probabiliste dune unit ui E avec P (ui E1 ) = 1 / N , pour tout i = 1N, alors E est un
chantillon reprsentatif de P :
Si P (ui E1 ) = 1 / N pour tout i = 1N alors FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) ,
Dmonstration : Cette proprit est une consquence directe de la proprit 2.
Ainsi, en substance, un chantillon est reprsentatif si sa construction est quivalente
celle dun chantillon simple au hasard.
7/11
E1
est : P (u i E1 ) = P (u i E1 | u i E ) P (u i E ) = Pi P (u i ) = 1 / N
pour
tout
i=1N. La proprit 3 nous dit que FE1 (C1 ,..., CK ) = FN (C1 ,..., CK ) .
Remarque : La condition portant sur des probabilits dinclusion connues et suprieures ou
gales 1/N peut sembler surprenante. Pour autant cette condition est en ralit naturelle et
essentielle. En effet, supposons que lon tire un chantillon de taille deux sur une population
de taille 10 avec une mthode dchantillonnage telle que les probabilits dinclusion soient
P(u1)=...= P(u9)=0,22 et P(u10)=0,02.
P
is
iD
1
N
P(u )
iE
iD
Or, si P (ui ) < 1 / N , lestimation de la proportion est suprieure 1. Dans notre exemple, si
lindividu n10 est le seul possder le caractre D et si lindividu n10 appartient
lchantillon E, on estimera la proportion de D dans la population :
1
1
= 5 , soit
10 0, 02
500%.
8/11
NB : La proprit destimation sans biais nest clairement pas suffisante pour garantir la
reprsentativit de lchantillon. En effet, dans lexemple prcdant, lestimation de la
proportion de D dans la population est sans biais puisque :
u10 appartient E avec probabilit 0,02 et lestimation vaut alors 500%,
u10 nappartient pas E avec probabilit 0,92 et lestimation vaut alors 0%.
Donc lesprance est bien de 0,02*500%=10% (comme dans la population). Mais il est clair
quaucun statisticien ne cautionnerait une estimation de 500%. Donc on devra limiter
lestimation 100%. Mais dans ce cas, lesprance de lestimateur sera de 0,02*100%=2%.
Lestimateur est alors biais.
9/11
mme probabilit dinclusion dans lchantillon. On est donc ici dans le cas dun
chantillonnage stratifi, reprsentatif selon la dfinition 4 et dont la marge derreur []
est gale ou infrieure celle des sondages alatoires (IPSOS).
La mthode des Quotas nest donc pas en soi une mthode empirique ou non probabiliste.
Elle ne le devient que si les probabilits dinclusion sont inconnues.
6. Conclusion
Ce papier propose une dfinition dun chantillon reprsentatif dune population finie. Cette
dfinition nest pas base sur la slection au hasard dindividus de la population mais la
slection au hasard dun individu de lchantillon. De ce fait, il ny a aucun a priori sur le
mode de slection de lchantillon. Les propositions qui en dcoulent sont riches
denseignements. Dans un premier temps, on dmontre quun chantillon alatoire simple est
10/11
Bibliographie
[1] Ardilly P. (2006), Les techniques de sondage, Edition TECHNIP.
[2] Cochran W.G. (1977), Sampling techniques, 3rd edition, Wiley & Sons, NY.
[3] Dutarte P. (2005), L'induction statistique au lyce (ed : Didier).
[4] Fourquet J. (2011), Emission C dans lair du 17 Fvrier 2011.
[5] Norme ISO 3534-1 (1996) Vocabulaire et symboles.
[6] Ross S.M. (1999), Introduction to Probability and Statistics, Elsevier
[7] Sautory O. (2010), Journe dtudes sur la reprsentativit, ENS Paris.
[8] Senat (2010), Proposition de loi du 14 fvier 2010 relative la publication et la
diffusion de certains sondages dopinion.
[9] Till Y. (2001), Thorie des sondages, Edition DUNOD.
[10] Vaillant J. (2005), Initiation la thorie de l'chantillonnage, Web.
11/11