Documente Academic
Documente Profesional
Documente Cultură
Sylvie Rousseau
UE STA 108
MANUEL
DEXERCICES
Enqutes et sondages
V. Plans stratifis.....................................................................................................24
Rappels sur les plans stratifis 29
2
I. Rappels de probabilits et de statistique infrentielle
Le responsable qualit dune usine contrle 20 objets dans chaque lot de 1000 objets avant de le
laisser partir vers le client. Il accepte seulement les lots pour lesquels il ne trouve aucun objet non
conforme dans lchantillon ; dans le cas contraire, le lot est tri unit par unit.
1. Si p% des pices fabriques sont dfectueuses, quelle est la probabilit den trouver k dans
un lot donn de taille 20 ?
2. Quelle est la probabilit pour quun lot contenant une proportion p = 0,05 dobjets non
conformes soit accept ?
3. Mme question pour p = 0,1.
X i . Calculer E (X ) et V (X ).
1 n
moyenne m et de variance . La moyenne empirique est : X =
n i =1
On suppose que les rendements sont mutuellement indpendants et quils sont issus dune population
infinie distribue selon une loi normale de moyenne m et de variance .
Construire un intervalle de confiance pour le rendement moyen au niveau de confiance 95%.
3
Exercice 6 Protection de lanonymat dans une enqute
Pour prserver lanonymat dans certaines enqutes par sondage, le procd suivant peut tre suivi.
Admettons que lon veuille estimer la proportion de personnes qui remplissent leur dclaration fiscale
de manire honnte. On demande alors chaque personne interroge de se retirer dans une pice
isole, et de jouer pile ou face.
- si elle obtient pile alors elle doit rpondre honntement par oui ou non la
question Votre dclaration fiscale est-elle honnte ?
- si elle obtient face , elle devra lancer la pice une nouvelle fois et rpondre par oui ou
non la question Avez-vous obtenu face au deuxime tirage ? .
Grce ce procd, il est impossible lenquteur de savoir quelle question se rapporte la rponse
de la personne interroge, celle-ci peut donc fournir sans crainte une rponse sincre.
4
Quelques rappels sur les lois de probabilit
Variable alatoire X
Cest une grandeur qui peut prendre diffrentes valeurs avec diffrentes probabilits. Elle est dfinie
sur l'ensemble des rsultats possibles (ou vnements) d'une exprience alatoire (ex : rsultat dun
jeu de hasard, dure dattente,).
Loi de probabilit
La loi de probabilit, ou distribution, d'une variable alatoire X est dfinie par l'ensemble des valeurs
prises par X ainsi que par :
- la probabilit de chaque valeur possible de X quand X est une v.a. discrte,
- la probabilit que X se ralise dans un intervalle donn quand X est une v.a. continue. La
fonction de densit de X, drive de la fonction de rpartition caractrise la loi de probabilit.
Esprance E(X)
Cest la valeur que l'on peut esprer obtenir, en moyenne, en ralisant une v.a. X. On lassimile la
moyenne de X par abus de langage.
Pour une variable alatoire discrte, E ( X ) = k P( X = k ) .
k
+
Pour une variable alatoire continue admettant une densit f(x), E ( X ) = xf (x )
Proprits :
- Pour c constante relle, E (c ) = c
- E ( X + Y ) = E ( X ) + E (Y ) : on dit que l'esprance est un oprateur linaire
- Si X et Y sont indpendantes alors E ( XY ) = E ( X ) E (Y )
Variance Var(X)
Cest une mesure de la variabilit des valeurs par rapport la moyenne. Plus les valeurs de X sont
imprvisibles , plus elle est grande. Elle se dfinit par Var( X ) = X2 = E[X E ( X )] = E ( X ) [E ( X )]
( moyenne des carrs des carts la moyenne )
Proprits :
- La variance est toujours positive ou nulle
- Var ( X ) = 0 X constante
- Var (cX ) = c Var ( X ) o c est une constante relle
- Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X , Y )
o Cov( X , Y ) = XY = E [X E ( X )] E [Y E (Y )]
o Cov( X , Y ) = 0 si X et Y sont indpendantes
5
Loi hypergomtrique H(N, n,p)
Cest la loi de la variable X qui compte le nombre de boules blanches slectionnes lissue de n
tirages sans remise dans une urne de taille N contenant des boules blanches en proportion p.
k C n_k
CNp
Loi de probabilit : P( X =k )= N Np
avec max(0,n(N Np) )k min(n, Np )
CN
n
Esprance : E(X)=np
Variance : Var(X)=np(1 p) N n
N 1
Convergence de la loi hypergomtrique vers la loi binomiale
Si N tend vers l'infini, la loi H(N,n,p) tend vers la loi B(n, p), c'est--dire que lorsqu'on effectue un
tirage dans une grande population, il importe peu que ce tirage se fasse avec ou sans remise (en
pratique, on considrera que la population est grande lorsque l'chantillon reprsente moins de
10% de cette population : n /N < 0,1).
f(x)= 1 exp 1 xm
2 2
2
( )
Esprance : E(X)=m
Variance : Var(X)=
Autrement dit, la moyenne d'une variable sur un chantillon alatoire simple tend vers la moyenne
dans la population, quand la taille de lchantillon tend vers l'infini. Par exemple, si l'on pouvait jouer
indfiniment "pile ou face" avec une pice bien quilibre, le pourcentage de "pile" obtenu tendrait
vers 50 %.
n X n m N(0,1)
Loi
alors:
n
6
Quelques rappels sur les intervalles de confiance
I/ Gnralits
Soient X une variable alatoire de loi paramtre par et X 1 ,...,X n n variables i.i.d. selon la loi de X.
Les bornes de lintervalle de confiance IC dpendent de lchantillon, elles sont donc alatoires.
Par abus de langage, on note souvent P( IC ) = 1 .
2) Vocabulaire
La probabilit pour que lintervalle de confiance ne contienne pas la vraie valeur peut tre rpartie
diffremment de part et dautre des bornes de lintervalle de confiance. crivons donc = 1 +2 o
1 et 2 mesurent respectivement les risques gauche et droite de dpasser un seuil plancher ou
plafond.
Lintervalle de confiance est dit bilatral quand 1 0 et 2 0 . Si 1 = 2 = , lintervalle
2
est dit symtrique. Il est dissymtrique sinon.
3) Construction
Pour construire un intervalle de confiance, on utilise une variable alatoire dont on connat la
distribution de probabilit.
Dfinition : une fonction pivotale pour le paramtre est une fonction des observations ( X 1,..., Xn) et
du paramtre dont la loi ne dpend pas du paramtre .
On recherche dans la suite des fonctions pivotales particulires adaptes aux cas tudis.
7
Dans la suite on considre X ~ N(m, 2 ) et X 1 ,...,X n n variables i.i.d. selon la loi de X.
n
X
1
On dfinit la moyenne empirique Xn = i et la variance empirique modifie
n i =1
n
( X
1
Xn) .
2
S n' 2 = i
n 1 i =1
Xn m
On a : P u n u = 1 o u est le fractile dordre 1 de la loi N ( 0,1) .
2
Ce qui revient : P X n u m Xn + u = 1 .
n n
Quand la variance est connue, lintervalle de confiance bilatral symtrique pour lesprance dune loi
normale scrit donc au niveau 1 sous la forme suivante :
IC ( m ) = x n u , xn + u x n est la ralisation de X n sur lchantillon.
n n
Remarque : si = 5% , le fractile dordre 0,975 de la loi normale centre rduite correspond 1,96.
si = 10% , le fractile dordre 0,95 de la loi normale centre rduite vaut environ 1,64.
Remarque : quand n , on approxime la loi de Student par la loi normale centre rduite. On
retrouve alors le cas prcdent.
8
3) Cas particulier : intervalle de confiance pour une proportion
n
X
Soient X 1 ,...,X n i.i.d. selon B( p ) et X = X
i =1
i ~B(n, p ) . Notons Fn =
n
estimateur sans biais de p.
Fn p
Ce qui permet dcrire : P u n u = 1 o u est le fractile dordre 1 de la
p(1 p) 2
loi N ( 0,1) .
u u u u u u
fn + + f n (1 f n ) f n + + + f n (1 f n )
2n n 4n 2n n 4n
IC(p) = ,
u u
1+ 1+
n n
f n (1 f n ) f n (1 f n )
IC ( p) = f n u , fn + u
n n
Fn p
Do : P u n u = 1 o u est le fractile dordre 1 de la loi N ( 0,1) .
Fn (1 Fn ) 2
Quand n est grand, lintervalle de confiance bilatral symtrique pour une proportion scrit donc
au niveau 1 sous la forme :
(
f n 1 f n ) (
f n 1 f n )
IC (p) = f n u , fn + u f n est la ralisation de Fn sur lchantillon.
n n
9
III/ Intervalles de confiance pour la variance d'une loi normale
Soient X ~ N(m, 2 ) et X 1 ,...,X n n variables i.i.d. selon la loi de X.
( X i m) 2 . S n* 2
1
Soit S n* 2 = On a n 2 ( n)
n i =1 2
S n*2
Do P 2 1 n 2 2 2 = 1
o 21 est le fractile dordre 1 de la loi 2 ( n) ,
2 1
2
et 12 2 est le fractile dordre 1 2 de la loi 2 ( n) .
Quand lesprance est connue, lintervalle de confiance bilatral pour la variance dune loi normale
scrit donc au niveau 1 sous la forme suivante :
( X
1
X n ) comme fonction pivotale
2
On considre la variance empirique modifie S n' 2 = i
n 1 i =1
pour .
( n 1) S n' 2
On sait que 2 ( n 1) .
S n' 2
On a donc P 2 1 ( n 1) 2 2 2 = 1 o 1 est le fractile dordre 1 de la loi ( n 1)
2 2
1
2 2
et 12 2 le fractile dordre 1 2 de la loi 2 ( n 1) .
Quand lesprance est inconnue, lintervalle de confiance bilatral pour la variance dune loi
normale scrit donc au niveau 1 sous la forme suivante :
s n' 2 s n' 2
( )
IC ( ) = n 1 2
2 ( )
, n 1 2 sn' est la ralisation de S n' sur lchantillon.
2 1
1
2 2
10
II. Sondage alatoire simple
Lexercice propose de retrouver sur un exemple les rsultats de la thorie pour un sondage alatoire
simple sans remise de taille fixe. On considre pour cela tous les chantillons possibles de taille 2 pris
dans une population de taille N = 5. On connat par ailleurs les valeurs de la variable dintrt Y pour
chaque unit de la population, savoir respectivement : 8, 3, 11, 4 et 7.
Lexercice propose de dmontrer des rsultats prsents dans le cours et dinsister sur des
techniques de raisonnement usuelles en sondage. Considrons quon veuille estimer le total et la
moyenne dune grandeur Y dans une population U de taille N. Pour cela, on procde un sondage
alatoire simple sans remise de taille n et on note S lchantillon alatoire obtenu.
1. Combien y a-t-il dchantillons possibles ? Quelle est la probabilit de tirer chacun dentre
eux ?
4. En dduire que :
N
a. ty =
n
Y
k S
k estime sans biais le vrai total t y =
k U
Y k
1 1
b. et que Y =
n k S
Yk estime sans biais la vraie moyenne Y =
N
Y
k U
k .
11
6. On note S y =
2 1
(Yk Y )2 et f = Nn . Montrer que :
N 1 k U
S y2
a. Var (ty ) = N ( N n )
n
() S 2
Var Y = (1 f )
y
b.
n
7. Quel est lintrt du sondage sans remise par rapport au sondage avec remise ?
8. Montrer que s =
2 1
n 1 k S
(
Yk Y )
2
estime sans biais S y .
2
9. En dduire des estimateurs sans biais de Var ty et de Var Y .( ) ()
Exercice 3 Estimation de la surface agricole utile dun canton
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )
On veut estimer la surface moyenne cultive dans les fermes dun canton rural. Sur 2010 fermes que
comprend ce canton, on en tire 100 par sondage alatoire simple. On mesure Yk la surface cultive
par la ferme k en hectares et on trouve :
Y
k S
k = 2907 ha et Y
k S
k
2
= 154 593 ha 2
1
1. Donner la valeur de lestimateur sans biais classique de la moyenne Y =
N
Y
k U
k .
145 mnages de touristes sjournant en France dans une rgion donne ont dpens 830 en
moyenne par jour. Lcart type estim de leurs dpenses slve 210 . Sachant que 50 000
mnages de touristes ont visit la rgion o a t effectue lenqute, que peut-on dire de la dpense
totale journalire de lensemble de ces mnages ? On supposera pour cela que lchantillon est issu
dun plan alatoire simple probabilits gales.
Un sondage sur la popularit dune personnalit politique lui accorde un pourcentage p = 30%
dopinions favorables. En admettant quil sagisse dun sondage alatoire simple sans remise et que la
taille de lchantillon est ngligeable au regard de celle de la population, combien de personnes ont-
elles t interroges pour que lon puisse dire avec un degr de confiance de 95% que la vraie
proportion dopinions favorables dans la population ne scarte pas de p de plus de deux points ?
12
Exercice 6 Taille dchantillon pour une proportion
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )
2. Que faire dans le cas du plan sans remise si on ne connat pas la proportion dindividus
habituellement touchs par la maladie ?
Une entreprise de promotion immobilire dsire estimer le nombre despaces de stationnement requis
pour une nouvelle tour devant abriter des bureaux. Elle dcide de procder un sondage alatoire
simple sans remise. Elle sait que le nouveau btiment abritera 5 000 personnes et que, dans des
entreprises de mme type que celles devant emmnager dans les futurs locaux, la proportion de
personnes se rendant leur bureau en utilisant les moyens de transport en commun est toujours
suprieure 75%. Quelle doit tre la taille de lchantillon pris au sein des futurs occupants des
bureaux pour pourvoir estimer le nombre despaces de stationnement prvoir avec une marge
derreur symtrique dau plus 150 places au niveau de confiance 90% ?
Les sondages sont trs largement utiliss dans le marketing direct : il arrive souvent que lon estime
par sondage le rendement dun fichier donn, ou que lon souhaite comparer les rendements de
plusieurs fichiers, ou encore, que disposant de plusieurs fichiers, on souhaite estimer par sondage le
rendement global de lensemble de ces fichiers. Dans cet exercice, on suppose lexistence d'un fichier
de N = 200 000 adresses. On note p le rendement inconnu du fichier une offre dabonnement prix
rduit avec calculette offerte en prime ; cest donc la proportion dindividus qui sabonneraient si loffre
tait offerte tous les individus du fichier. Selon lusage p est lestimation de p obtenue partir dun
test fait sur un chantillon de n adresses choisies probabilits gales et sans remise sur le fichier.
1. On sait par exprience que les rendements ce type doffre sur ce fichier ne dpassent pas
gnralement 3%. Quelle taille dchantillon doit-on prendre pour estimer p avec une
prcision absolue de 0,5 point et un degr de confiance de 95% ?
3. Le test a port sur 10 000 adresses et on a not 230 abonnements. En dduire lintervalle de
confiance bilatral 95% pour le rendement p ainsi que le pour le nombre total
dabonnements si la mme offre tait faite sur lensemble du fichier.
est le fractile dordre 1 de la loi normale centre rduite.
2
13
Exercice 9 Un cas denqute rpte
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )
On veut estimer lvolution du prix moyen du litre entre mai et juin. On choisit, comme indicateur de
cette volution la diffrence des prix moyens On propose deux mthodes concurrentes:
- Mthode 1 : on chantillonne n stations (n < 10) en mai et n stations en juin, les deux
chantillons tant totalement indpendants ;
2. Mme question si on souhaite cette fois estimer un prix moyen sur la priode globale mai-juin.
3. Si on sintresse au prix moyen de la question 2, ne vaut-il pas mieux tirer, non pas 2 fois n
relevs avec la mthode 1 (n chaque mois) mais directement 2n relevs sans se soucier des
mois (mthode 3) ? Aucun calcul nest ncessaire.
En cours de collecte, la taille dun chantillon savre parfois insuffisante pour assurer la prcision
attendue. Une solution naturelle est denquter un chantillon complmentaire. Intressons-nous au
plan de sondage final obtenu aprs :
Un premier chantillonnage simple sans remise de n1 units parmi N probabilits gales,
Suivi dun second tirage simple sans remise de n2 units parmi N-n1 probabilits gales
La slection des n = n1 + n2 units ainsi retenues obit-elle un plan simple sans remise et
probabilits gales dans la population de taille N?
On souhaite estimer la moyenne et le total d'une variable y sur un domaine U0 dune population finie U
de taille N. Ces quantits sont notes :
t y0 1
t y0 = Y
kU 0
k et Yo =
N0
=
N0
Y
kU 0
k
On slectionne un chantillon s au sein de la population entire par un sondage alatoire simple sans
remise de taille n. On observe un sous-chantillon s0 de taille n0 dont les individus sont dans le
domaine U0.
14
On dispose des deux estimateurs suivants de la moyenne et du total de y sur le domaine U0 :
N ty 0 N
1. ty 0 =
n
Yk
ks0
et Y0 = = Yk
N 0 N 0 n ks0
1 N
2. Y0 =
n0
Y
ks0
k et ty 0 = N 0 Y0 = 0
n0
Y
ks0
k
b) Montrer que les deux estimateurs du total (ou de la moyenne) sont tous deux sans biais pour le vrai
total (ou la vraie moyenne) du domaine. Est-ce que lun est prfrable lautre ?
c) Donner les expressions de variance des deux estimateurs de la moyenne. Comparer ces deux
variances.
d) Donner les estimateurs sans biais pour les variance de ces deux estimateurs.
e) Exemple : considrons une population de N = 5 793 entreprises. Supposons connues les quantits
suivantes :
N 0 = 984 , Y
kU 0
k =154814 , Y
kU 0
k
2
= 42148912
Calculer les vraies variance pour les deux estimateurs de la moyenne pour un chantillon de taille
n = 579.
f) On a observ sur un chantillon particulier de taille n = 579
n0 = 89 , y
is0
i = 13782 , y =4530306
is0
2
i
Donner les valeurs des deux estimateurs de la moyenne et calculer les valeurs de leur variance
estime.
15
Rappels sur le sondage alatoire simple
I/ Dfinition
Tirage dun chantillon de n units sans remise et probabilits gales dans une population finie
compose de N units identifiables.
II/ Notations
1. Dans la population (ou univers) U = {1,2,..., k ,..., N }
Total : TY = kU
Yk
TY 1
Moyenne: Y = =
N N Y
kU k
(Y )2
1
Variance : y = Y
2
kU k
N
(Y Y ) =
1 2 N
Dispersion (variance modifie) : S y = 2y
2
k
N 1 k U N 1
p( s ) 0, s S , et sS
p( s ) = 1.
1
Moyenne : y =
Y
n kS k
(Y )
1 2
Dispersion empirique : s y = y
2
k
n 1 k S
kl = kl k l
16
III/ Formulaire du sondage alatoire simple
Probabilit de slectionner lchantillon s : p(s) = 1/ CNn
n
Probabilit de slectionner lindividu k : k U , k = P (k s ) = = f (taux de sondage)
N
Paramtre
Proportion
dintrt Moyenne Total
p = N0/N
Statistique
n
N
1
Estimateur du 1 p = yk = 0
y = Yk = y (s) ty = N y = Y
paramtre dintrt n k S n ks n n kS k
n N p(1 p)
()
2 2
S
n Sy
( )
Vraie variance
dchantillonnage Var y = 1 Var( p ) = 1 Var y = N 1 n y
t
de cet estimateur N n N N 1 n N n
n p (1 p )
()
2
n sy
2
n s y
( )
Estimateur
Var( p ) = 1
de la variance Var y = 1 Var t y = N 1
dchantillonnage N n N n 1 N n
() ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y
()
y Y
sous hypothse que n est grand N (0, 1)
Var ( y )
17
III. PLANS PROBABILITS INGALES
On considre une population U = {1,2,3} ,sur laquelle on dfinit le plan de sondage suivant :
18
Exercice 4 Tirage systmatique dentreprises
On veut slectionner un chantillon de taille 4 dans une population de 8 entreprises dont on connat la
taille, mesure en termes deffectif salari. Lchantillon est tir probabilits proportionnelles la
taille.
Entreprise 1 2 3 4 5 6 7 8
Taille 300 300 150 100 50 50 25 25
Lorsquon effectue des tirages probabilits ingales, on utilise en gnral des mthodes
dchantillonnage de taille fixe. Il existe cependant des algorithmes trs simples permettant des
tirages probabilits ingales mais confrant lchantillon une taille variable. On sintresse ici au
tirage de Poisson dont le principe consiste effectuer une loterie sur chaque individu de la population
indpendamment dun individu lautre. Ainsi, pour une population de taille N o les probabilits
dinclusion individuelles k sont connues pour tout k, on simule N alas indpendants dans la loi
uniforme sur [0,1] et on retient lindividu k si et seulement si u k k
1. Vrifier que lalgorithme de tirage respecte les probabilits dinclusion dordre 1 en calculant la
probabilit pour que lindividu k soit slectionn.
19
Rappels sur les plans probabilits ingales
I/ Intrt
Retenir de prfrence les units les plus porteuses dinformation afin daccrotre la prcision.
III/ Formulaire
Probabilit de slectionner lindividu k :
- Pour un plan probabilits proportionnelles une variable X de taille (corrle positivement Y)
kU, k =P(kS)=n X k
Xk kU
Paramtre
dintrt Moyenne Total
Statistique
Si la taille N est connue :
y = 1 Yk = ty
N ks k N
ty = Yk
k
Estimateur
dHorvitz-Thompson
Sinon, estimateur de Hjek : ks
du paramtre dintrt
Y k N = 1
(-estimateur)
En particulier :
k
=t
= 1 Y =
k ks
yH k ks y
N 1 N
ks k
ks k
Var( y )= 1 Yk Yl kl
2N kU lU k l
( )
2
Var( ty )= 1 Yk Yl kl
2 kU lU k l
( )
2
Var1( y )= 1 Yk Yl kl Var1( ty )= Yk Yl kl
Estimateur N ks ls k l kl ks ls k l kl
de la variance
dchantillonnage Si la taille de lchantillon est fixe Si la taille de lchantillon est fixe
Var2( y )= 1 Yk Yl kl (
2N ks ls k l kl
)
2
Var2( ty )= 1 Yk Yl kl (
2 ks ls k l kl
)
2
20
IV. TP1 : SIMULATIONS DE TIRAGE DCHANTILLONS
Objectifs de la sance
Utiliser diffrents algorithmes de tirages dchantillons pour des plans simples sans remise et
des plans probabilits ingales ;
valuer le paramtre dintrt et la prcision de cette estimation ;
Valider de manire empirique certaines proprits de la thorie des sondages ;
Comparer les mthodes dchantillonnage.
Donnes utilises
La population tudie est celle des 771 communes rurales dle-de-France recenses en 1999. On
cherche estimer le nombre total dhabitants rsidant dans ces communes ainsi que le nombre
moyen dhabitants par commune. Les donnes datent des recensements de 1999 et de 1990.
Partie II : Simulations
1) On choisit dabord dchantillonner les communes selon un plan simple sans remise.
a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre
dintrt ainsi que la variance dchantillonnage.
b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne.
c. Tracer la distribution de lestimateur de la moyenne et commenter.
d. Vrifier empiriquement labsence de biais de lestimateur de la variance dchantillonnage.
2) On choisit maintenant de slectionner les communes proportionnellement leur taille,
mesure en nombre dhabitants recenss en 1990.
a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre
dintrt.
b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne.
c. Tracer la distribution de lestimateur de la moyenne.
3) Comparer les deux plans de sondage.
Le choix du logiciel est libre. A toutes fins utiles, la suite de lnonc propose deux modes demploi :
- lun sous Excel (des macros pr-programmes sont mises disposition),
- lautre sous SAS qui appelle aux procdures SURVEYSELECT et SURVEYMEANS.
21
Mode d'emploi sous Excel
TP1.xls
Entre
La base de sondage est dcrite dans l'onglet BS . Par commodit, le contenu de cette base se
limite l'identifiant, la variable d'intrt, voire la variable auxiliaire utile au calcul de probabilits
ingales proportionnelles.
Paramtres
L'utilisateur spcifi le nombre d'chantillons tirer ainsi que leur taille dans l'onglet Paramtres
prvu cet effet.
Dans le cas de simulations, un paramtre supplmentaire permet galement de spcifier si les tirages
systmatiques sont probabilits gales ou ingales.
Algorithmes pr-programms
Les macros mises disposition permettent de slectionner un ou plusieurs chantillon(s) selon
diffrents algorithmes de tirage. Elles fournissent galement les estimations de total et de moyenne de
la variable d'intrt sur l'(les) chantillon(s) obtenu(s). Dans le cas de simulations, elles dressent aussi
le bilan de l'ensemble des tirages.
Les algorithmes pr-programms sont ceux-ci :
Mthode du tri alatoire pour un plan simple sans remise (macro Tri_alatoire) ;
Mthode de slection-rejet pour un ou plusieurs plan(s) simple(s) sans remise (macros
Slection_rejet et Simulations_SAS_SR) ;
Tirage de Bernouilli pour un plan probabilits gales et sans remise (macro Bernoulli) ;
Algorithme de Sunter pour un plan probabilits ingales, de taille fixe et sans remise (macro
Sunter) ;
Tirage systmatique pour un ou plusieurs plan(s) probabilits ingales, de taille fixe et sans
remise (macros Tirage_systmatique et Simulations_systmatique) ;
Tirage de Poisson pour un plan probabilits ingales, sans remise (macro Poisson).
Sorties
Les rsultats de chaque macro alimentent un onglet prcis. Avant lancement de chaque macro, il
convient donc de vrifier la prsence de la feuille vierge ad-hoc ainsi que labsence dun onglet portant
le nom rserv aux sorties. Plus prcisment, les onglets rservs par chaque mthode sont :
Nom de longlet Nom de longlet
Algorithme
en entre en sortie
Tri alatoire Feuil1 Ech.Tri_Alatoire
Systmatique Feuil2 Ech.Systmatique
Slection-Rejet Feuil3 Ech. Slection-Rejet
Sunter Feuil4 Ech.Sunter
Bernoulli Feuil5 Ech.Bernoulli
Poisson Feuil6 Ech. Poisson
Simulation de plans simples sans remise Feuil7 Simul_SAS_SR
Simulation de plans probabilits ingales Feuil8 Simul_Systmatique
22
Mise en uvre
1. A l'ouverture du fichier Excel, cliquer sur Activer les macros ;
2. Renseigner la feuille BS en indiquant l'identifiant de chaque unit de la base de sondage
en 1re colonne, la variable d'intrt en 2me colonne, voire la variable auxiliaire en 3me
colonne si le plan est probabilits ingales proportionnelles cette donne ;
3. Renseigner les paramtres souhaits dans la feuille Paramtres ;
4. Vrifier la disponibilit des onglets requis dans le classeur ;
5. Cliquer sur Outils, puis Macro suivi de Macros ;
6. Slectionner la mthode voulue, puis cliquer sur Excuter pour lancer la macro retenue ;
7. Consulter les rsultats dans la feuille correspondante la mthode choisie.
Remarques
1. Au 1er lancement, il est conseill de limiter le nombre de simulations afin de contrler le
temps d'excution des macros.
2. Pour modifier le contenu des macros,
a. Cliquer sur Modifier aprs Outils > Macro > Macros
b. Saisir le nouveau code.
NB : des commentaires permettent de comprendre le rle de chaque action.
3. Pour tracer un histogramme, une possibilit est d'utiliser l'utilitaire d'analyse d'Excel. Pour
cela, cliquer sur Outils, puis Macro Complmentaire. Cocher Utilitaire d'analyse et valider par
OK. Ensuite, cliquer sur Outils, puis Utilitaire d'analyse. Choisir histogramme dans le menu
droulant qui s'affiche et suivre les indications.
La base de sondage
tp1.sas7bdat
Procdures SAS
d'chantillonnage.pdf
23
V. PLANS STRATIFIES
(Y Y ) = N (Y Y )
H H
1 1 1
N
2 2
2y = k h 2yh + h h
N k U N h =1 N h =1
2. Montrer que ces deux estimateurs sont sans biais et calculer leur variance.
4. Le point de vue envisag maintenant est celui dune allocation optimale afin de satisfaire un
H
souci de prcision. Sous la contrainte que nh =1
h = n,
a. Quelle est lallocation des nh qui minimise la variance de lestimateur du total ?
b. Que vaut alors la variance ?
c. Comment peut-on interprter le choix des allocations optimales ?
Un directeur de cirque possde 100 lphants classs en deux catgories : "mles" et "femelles". Le
directeur veut estimer le poids total de son troupeau, car il veut traverser un fleuve en bateau. Il a la
possibilit de faire peser seulement 10 lphants de son troupeau. Cependant, en 1998, ce mme
directeur a pu faire peser tous les lphants de son troupeau, et il a obtenu les rsultats suivants (en
tonnes) :
Effectif Moyenne Variance
Mles 60 6 4,00
Femelles 40 4 2,25
24
1. Calculer la variance dans la population de la variable "poids de l'lphant" en 1998.
2. Si, en 1998, le directeur avait procd un sondage alatoire simple sans remise de 10
lphants, quelle aurait t la variance de l'estimateur du poids total du troupeau ?
3. Si le directeur avait procd un sondage stratifi, avec SAS dans chaque strate, avec
allocation proportionnelle de 10 lphants, quelle aurait t la variance de l'estimateur du
poids total du troupeau ?
4. Si le directeur avait procd un sondage stratifi optimal, avec SAS dans chaque strate,
de 10 lphants, quels auraient t les effectifs de l'chantillon dans les strates, et quelle
aurait t la variance de l'estimateur du poids total du troupeau ?
Une grande entreprise veut raliser une enqute auprs de son personnel qui comprend 10 000
personnes. Des tudes prliminaires ont montr :
- que les variables que lon cherche analyser dans lenqute sont trs contrastes selon les
catgories de personnel et quil y a donc intrt stratifier selon ces catgories. Pour
simplifier, on considrera quil y a 3 grandes catgories qui formeront les strates,
- que ces variables sont galement trs fortement lies lge des individus.
On va donc proposer des plans dchantillonnage comme si on voulait tudier lge des individus : si
une stratgie est meilleure que dautres pour estimer lge moyen, alors on a de bonnes raisons de
penser quelle le sera aussi pour les variables dintrt. Comme on connat lge des membres du
personnel, on peut raisonner en faisant les comparaisons exactes.
1. Soit Y lge moyen et Y lestimateur issu dun chantillon alatoire simple sans remise
probabilits gales de n = 100 individus. Quelle est lerreur type de Y ?
2. On dcide que lchantillon de 100 individus doit tre stratifi selon les catgories de
personnel. Quelle est la rpartition reprsentative ? Quelle est lerreur type de lestimateur
de Y qui en dcoule ? Comparer avec les rsultats de la question 1.
3. Quelle serait la rpartition optimale de lchantillon ? Quelle est lerreur type de lestimateur de
Y qui en dcoule ? Comparer avec les rsultats de la question 2.
Sur les 7500 employs dune entreprise, on souhaite connatre la proportion p dentre eux qui
possdent au moins un vhicule. Pour chaque individu de la base de sondage, on dispose de la
valeur de son revenu. On dcide alors de constituer trois strates dans la population : individus de
faibles revenus (strate 1), de revenus moyens (strate 2) et de revenus levs (strate 3).
25
On note :
- Nh la taille de la strate h,
- nh la taille de lchantillon dans la strate h,
- p h lestimateur de la proportion dindividus possdant au moins un vhicule dans la strate h.
Le but de lexercice est de montrer que si une stratgie est optimale pour estimer prcisment une
quantit dans lensemble dune population stratifie, elle peut ne plus ltre tout fait si lobjectif du
sondage est justement de comparer les strates entre elles. La bonne dfinition des objectifs
atteindre est donc essentielle au choix de la technique employer. Considrons une population de
taille N forme de deux strates, de taille N1 et N2 et intressons-nous la moyenne X dune variable
X. Les moyennes de X dans les strates 1 et 2 sont notes X 1 et X 2 et leurs estimateurs X 1 et X 2 .
- le tirage effectu est un sondage alatoire simple sans remise de nh units parmi Nh dans la
strate h (h =1 ou 2),
- la fonction de cot scrit C1n1 + C2n2 o Ch dsigne le cot unitaire dans la strate h.
()
b. Calculer sa variance.
c. Quelle rpartition (n1, n2) de lchantillon donne une variance V X minimale ? Que
()
vaut alors V X ?
()
d. Application numrique : calculer n1, n2, n et V X avec :
N1 = 10 000 N2 = 20 000
S1 = 2 S2 = 1
C1 = 4 C2 = 9 C = 1 000
26
3. En fait, on cherche valuer lcart entre les moyennes des deux groupes : X 1 X 2 .
a. Montrer que X 1 X 2 est un estimateur sans biais de X 1 X 2 .
b. Calculer sa variance.
c. ( )
Dterminer la rpartition (n1, n2) de lchantillon pour que V X 1 X 2 soit minimale,
toujours avec la mme contrainte de budget. (on pourra ventuellement utiliser, en les
adaptant, certains rsultats de la question 1).
()
d. Calculer dans ces conditions V X . Comparer ce rsultat avec celui de la 1re
()
V X et la perte relative de prcision par rapport lchantillon optimal.
Cet exercice est une application du principe : " chaque objectif son chantillon". Une entreprise
comporte 400 excutants et 100 cadres. La direction de l'entreprise dsire valuer un indice de
satisfaction, assimilable une variable numrique positive Y, mesurable pour chaque individu partir
d'un ensemble de questions : elle dcide pour cela de faire raliser une enqute auprs de 100
personnes employes dans l'entreprise, l'aide d'un plan de sondage stratifi, avec un sondage
alatoire simple dans chaque strate. Le cot d'une interview est le mme dans les deux strates.
On pense a priori que la dispersion de la variable Y doit tre la mme au sein de chacun des deux
groupes. Comment rpartir l'chantillon entre les deux groupes, selon que l'on vise l'un des objectifs
suivants :
a. obtenir la meilleure prcision possible sur la valeur moyenne de l'indice de satisfaction dans
l'entreprise ;
b. obtenir la mme prcision sur la valeur moyenne de l'indice de satisfaction dans chacune des
deux catgories ;
c. obtenir la meilleure prcision possible sur la diffrence entre les valeurs moyennes de l'indice
de satisfaction dans les deux catgories.
H
Nh H
La moyenne de Y dans la population vaut bien sr : Y =
h =1 N
Yh = wh Yh .
h =1
On ralise un sondage stratifi, avec sondage alatoire simple sans remise dans chaque strate, de
H
taux de sondage f h = n h / N h . La taille de l'chantillon total est n = n
h =1
h .
27
L'objectif est de comparer une strate particulire U i la population totale : on veut estimer
Di = Yi Y
2. Pour une taille d'chantillon fixe n, trouver l'allocation optimale n1 K n h K n H , qui minimise la
$ . Comparer avec l'allocation optimale de Neyman.
variance de D i
28
Rappels sur les plans stratifis
I/ Dfinition
Partition de la population en sous-groupes appels strates selon un critre li au paramtre dintrt
puis tirage dautant dchantillons indpendants quil y a de strates.
U1 Uh UH
S1 Sh SH
Constituer des strates homognes en intra au regard de la variable dintrt permet de gagner en
prcision.
II/ Notations
1. Dans la population
H H
U =h=1U h et N =Nh
h=1
H H
Total : ty = t =N y
h=1
yh
h=1
h h
yh = 1 yk
H
y= ty = Nh yh
Moyenne:
N h=1 N avec
Nh kU h
H H
Variance : y2= 1 ( yk y )= Nh yh2 + Nh (yh y )= y2intra + y2inter = N 1S y2
N kU h=1 N h=1 N N
avec yh2 = 1
Nh k
(yk yh )
U h
2. Dans lchantillon
H H
S =h=1Sh et n=nh
h=1
yh= 1 yk
Moyenne dans Sh : nh kSh
Dispersion dans Sh :
nh1k
2= 1
Syh (
yk yh )
Sh
29
III/ Formulaire du sondage stratifi
Paramtre
dintrt Moyenne Proportion Total
Statistique
Estimateur du H H H H
paramtre y = Nh yh p = Nh ph ty =Ny =tyh=Nh yh
dintrt h=1 N h=1 N h=1 h=1
[] H H
[ ]
Var y =Var Nh yh=Var Nh yh [ ] []
Var[ty ]=Var Ny = NVar y
Vraie variance
h=1 N h=1 N
Si plan simple dans chaque strate
( )( )
Si plan simple dans chaque
dchantillonnage H
p (1 ph) strate :
Var[p ]= Nh 1 nh Nh h
2
de cet estimateur Si plan simple dans chaque strate :
[ ] ( )( ) h=1 N Nh Nh1 nh
Var[ty]=Nh21 nh Syh ( )
H
H S2 2
Var y = Nh 1 nh yh
2
h=1 N Nh nh h=1 Nh nh
Si plan simple dans chaque
Si plan simple dans chaque strate Si plan simple dans chaque strate
( )( )
Estimateur strate
p (1 ph)
[ ] ( )( ) ( )
2 H
ar y = Nh 1 nh S yh Var[p ]= Nh 1 nh h
H 2 2
Var[ty]=Nh21 nh yh
de la variance H
S2
V Nh nh1
dchantillonnage h=1 N Nh nh h=1 N
h=1 Nh nh
() ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y
()
y Y
sous hypothse que n est grand N (0, 1)
Var ( y )
NhSyh
- Allocations optimales sous contrainte budgtaires : nh=C H
Ch NlSyl Cl
l =1
30
VI. PLANS PAR GRAPPES
Lobjet de cet exercice est de rappeler le formulaire tabli en cours et de revenir sur les notions deffet
de sondage et deffet de grappe.
Un sondage en grappes se pratique sur une population partitionne en groupes dindividus appels
grappes : il consiste slectionner certaines grappes, selon un plan quelconque, et retenir tous
les individus des grappes dsignes dans lchantillon final. Procder de la sorte permet de rduire
les cots denqute. On sintresse ici au cas particulier o m grappes sont choisies par sondage
alatoire simple sans remise parmi les M grappes de taille Ni dune population de taille N.
On cherche estimer le total t y et la moyenne y sur la population dun caractre dintrt Y.
1. Partie 1 : gnralits
N (Y Y )
M
2
0 i
y2 inter
rapport de corrlation inter-grappes : = 2 i =1
=
M N0
y2
(Y Y )
2
k
i =1 k =1
2.2. En dduire quand le plan par grappes est plus prcis que le sondage alatoire simple.
(Y
i =1 k =1 l =1,l k
k Y )(Yl Y )
= .
( N 0 1)( N 1) S Y2
Ce coefficient mesure leffet de grappe. Il se rapproche de 1 si lintrieur de chaque grappe, il
ny a pas de diffrence entre les individus ; au contraire, il est ngatif si les individus sont trs
disparates lintrieur de leurs grappes.
31
3.1. Montrez que leffet de grappe vaut :
2
= 1 N0 y int2 er 1
N0 1 y
n 1 2
3.2. En dduire que Deff = 1 + ( N 0 1) et que Var ( y ) = 1 S y [1 + ( N 0 1)] .
Nn
On cherche estimer leffet de sondage et leffet de grappe et donc estimer sans biais Varsas (y )
autrement dit la dispersion S y2 . Les grappes sont de mme taille.
4.1. Montrez que la dispersion empirique observe sur lchantillon s y2 = 1 (yk y) possde
n1kS
un biais sous un plan complexe de taille fixe et probabilits gales (comme ici avec des
grappes de mme taille) donn par :
[
E[s y2 ]= n y2 Var(y )
n1
]
Var(y )
( )
eff =
4.2. En dduire que lexpression D est justifie si n est assez grand.
n s y2
1
N n
Exercice 2 Nombre de signataires dune ptition
(Extrait de Cochran, Sampling Technics)
On a collect des signatures pour une ptition sur 676 feuilles. Sur chacune dentre elles, il y a la
place pour 42 signatures, mais beaucoup ne sont pas trs remplies. Le nombre de signatures par
feuille a t tudi sur un chantillon de 50 feuilles ( peu prs 7% de lensemble donc). A partir des
rsultats sont consigns dans le tableau cicontre, estimer le nombre total de signatures et donner un
intervalle de confiance pour ce nombre 95% et 80% .
Nombre Frquence
de signatures
42 23
41 4
36 1
32 1
29 1
27 2
23 1
19 1
16 2
15 2
14 1
11 1
10 1
9 1
7 1
6 3
5 2
4 1
3 1
32
Exercice 3 Slection dlots
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Lobjectif est destimer le revenu moyen des mnages dans un arrondissement dune ville compose
de 60 lots de maisons (un lot est un pt de maison , de taille variable). Pour cela, on slectionne
3 lots par sondage alatoire simple sans remise et on interroge tous les mnages qui y rsident. On
sait en outre que 5 000 mnages rsident dans cet arrondissement. Le rsultat est donn dans le
tableau ci-dessous.
1. Estimez le revenu moyen et le revenu total des mnages de larrondissement par lestimateur
dHorvitz-Thompson.
Une socit bancaire structure en 3 980 succursales gre 39 800 clients, raison de 10 clients par
agence. On choisit 40 succursales par sondage alatoire simple sans remise pour lesquelles on
compte le nombre de clients ayant obtenu un prt durant une priode donne.
40 40
On note t yi le nombre obtenu dans la succursale i et on observe : t
i =1
yi =185 et t
i =1
2
yi =1263 .
1. Estimer le nombre total de clients de la banque qui ont obtenu un prt durant la priode de
rfrence ainsi que leur proportion dans lensemble de la clientle. On notera ces estimateurs
ty et p .
2. Calculer la variance des estimateurs ty et p .
3. Estimer ces variances et fournir un intervalle de confiance approch 95% pour chacune des
quantits estimes.
4. Calculer leffet de sondage dfini comme le ratio mesurant la perte de variance estime par
rapport un sondage alatoire simple sans remise de mme taille (indication : on
commencera par estimer la dispersion S y2 ). On pourra commenter le rsultat en comparant
les amplitudes des intervalles de confiance 95% obtenus pour la proportion dintrt entre
les deux plans de sondage.
Un statisticien souhaite raliser une enqute sur la qualit des soins assurs dans les services de
cardiologie des hpitaux. Pour cela, il tire par sondage alatoire simple 100 hpitaux parmi les 1 000
hpitaux rpertoris , puis, dans chacun des hpitaux tirs, il recueille lavis de tous les malades du
service de cardiologie.
33
2. On considre que chaque service de cardiologie comprend exactement 50 lits et que
lintervalle de confiance 95% sur la vraie proportion P de malades insatisfaits est : P [ 0,10
0,018], (cela signifie en particulier que, dans l chantillon, 10 % des malades sont
insatisfaits de la qualit des soins). Comment estimez-vous leffet de grappe (commencer par
estimer S y2 , dispersion du caractre dintrt sur toute la population) ?
34
Rappels sur les plans par grappes
I/ Dfinition
Objectif principal : rduire les cots denqute et/ou de pallier le manque dune base de sondage.
Principe : partition de la population en sous-groupes appels grappes, puis tirage de grappes et enfin
recensement de toutes les units qui les composent.
U1 Ug UM
II/ Notations
1. Dans la population U constitue de M grappes et N individus
M M
U = g=1U g et N = N g
g =1
M M
t y =t yg = N g yg
g =1 g =1
M
y = t y = N g yg avec yg =
1 yk
N g =1 N N g kUg
M
SG2 = 1 t yg t y
M 1 g =1 M
S = g Ug et ns = N g
SG gSG
35
III/ Formulaire du plan par grappe dans le cas dun plan simple de grappes
Paramtre
dintrt Total Moyenne
Statistique
y = 1 ty = M N g yg
Estimateur du
paramtre ty = M t yg N Nm gSG
dintrt m gSG
( ) []
Var y = 1 Var[ty]
Vraie variance
Var[ty ]= M 1 m 1 1 t yg t y
M 2
dchantillonnage
de cet estimateur M m M 1 g =1 M N
( ) []
Var y = 1 Var[ty ]
Estimateur 2
Var[ty ]=M 1 m 1 1 t yg t y
de la variance
dchantillonnage M m m1 gS G M N
() () ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y
sous hypothse que la taille de lchantillon est assez grande.
36
VII. PLANS PLUSIEURS DEGRS
2. Ce plan de sondage est-il simple, stratifi, en grappes, deux degrs, ou aucun de ces plans
particuliers?
Dans la suite, on considrera le cas o les UP sont choisies selon un sondage alatoire simple sans
remise de taille m et o les US sont tires dans les UP retenues au 1er degr selon un plan simple
sans remise de taille ni parmi Ni . On sintresse au total t y dun caractre dintrt Y .
Un camion transporte des vis sur 500 palettes, chacune d'elles contenant 40 botes de vis. L'industriel
rceptionnant ces palettes souhaite estimer le nombre moyen de vis par bote. Pour cela, il tire un
chantillon de 100 palettes, selon un sondage alatoire simple sans remise, puis il tire dans chacune
de ces 100 palettes un chantillon de 5 botes, selon un sondage alatoire simple sans remise
galement, et enfin il compte le nombre de vis dans les botes ainsi tires.
37
L'industriel, et nanmoins statisticien, calcule pour chaque palette i de son chantillon le nombre
moyen de vis par bote, et la dispersion du nombre de vis par bote (ces deux quantits sont calcules
partir des 5 botes chantillonnes dans la palette).
Il calcule ensuite les moyennes, sur les 100 palettes, de ces deux quantits :
moyenne du nombre moyen de vis par bote = 50
moyenne de la dispersion du nombre de vis par bote = 455.
Il calcule aussi la dispersion des 100 estimations du nombre de vis par palette et obtient 375 000.
3. Donnez un intervalle de confiance 95% pour le nombre moyen de vis par bote.
Sur un disque dur de micro-ordinateur, on compte 400 fichiers, chacun comprenant exactement 50
enregistrements. Pour estimer le nombre moyen de caractres par enregistrement, on dcide de tirer
par sondage alatoire simple 80 fichiers, puis 5 enregistrements dans chaque fichier. On note m = 80
et n = 5 .
En vue de prparer le lancement dun nouveau produit financier, une socit bancaire ayant un
rseau de M succursales souhaite mener une tude approfondie auprs de particuliers possesseurs
de comptes chez elle . Les variables dintrt de lenqute ont trait aux caractristiques de la clientle
et ses motivations ventuelles. On cherche estimer la proportion p de personnes potentiellement
intresses par la nouvelle offre. Lenqute opre selon un plan 2 degrs : dans un premier temps,
on choisit m succursales pour participer lopration parmi lesquelles, au second temps, on dsigne
des chantillons de titulaires de comptes interroger. Le plan de sondage est le suivant :
38
2
M ST2 1 f 2 M Ni
2. Montrer que V ( p
) (1 f1) + pi (1 pi )
N m Nf1 f 2 i =1 N
2
M sT2 1 f 2 Ni
3. Montrer que V ( p
) (1 f1) + p i (1 p i )
N m Nf1 f 2 iS1 N
4. Application numrique : donner un intervalle de confiance 95% pour p avec les rsultats
Ni
denqute suivants : y =102 , s =1200 , N
kS
k 2
T
isI
p i (1 p i ) = 0,01
Une population de 1010 saucisses est partitionne en deux units primaires, de tailles respectives
1000 et 10. Pour estimer le nombre moyen de bouts de saucisses dans cette population, on emploie
le plan de sondage suivant :
on slectionne une UP selon un sondage alatoire simple,
on slectionne deux saucisses dans l'UP tire selon un sondage alatoire simple sans remise.
La premire UP est slectionne. On observe que chacune des deux saucisses tires dans l'UP
possde deux bouts.
Le statisticien A calcule le nombre moyen de bouts sur son chantillon de deux saucisses et trouve 2.
Il affirme que cette valeur est une estimation sans biais du nombre moyen de bouts dans la
population.
Le statisticien B propose comme estimation sans biais de ce nombre moyen de bouts la valeur :
1000
4 = 3.96
1010
Discuter les deux mthodes d'estimation, en prcisant les logiques qui les sous-tendent.
39
Rappels sur les plans deux degrs
I/ Dfinition
Objectif principal : rduire les cots denqute et/ou de pallier le manque dune base de sondage.
Principe : dans une population partitionne en sous-groupes appels units primaires, eux-mmes
composs dunits secondaires :
- au 1er degr, tirage dunits primaires
- au 2nd degr, tirage dunits secondaires dans les units primaires retenues au 1er degr
(indpendamment dune unit primaire lautre)
U1 Ui UM
S1
Si SM
Rgle : constituer des units primaires htrognes en intra au regard de la variable dintrt.
II/ Notations
1. Dans la population U constitue de M units primaires et N individus
M M
U =
i =1
Ui et N = Ni
i =1
M M
t y =t yi = Ni yi
i =1 i =1
yi = 1 yk
M
y = t y = Ni yi
N i =1 N avec
Ni kUi
M Ni
SI2 = 1 t yi t y et Si2 = 1 ( yk yi )
M 1 i =1 M Ni 1 k =1
S = USi et
ns =ni
iSUP iSi
sI2 = 1 tyi t y
( )
i
et si2 = 1 yk yi
m1iSUP M ni 1kSi
40
III/ Formulaire du plan deux degrs dans le cas dun plan simple des units primaires et
des units secondaires
Paramtre
dintrt Total Moyenne
Statistique
yk y = 1 ty = M N g y g
Estimateur du
paramtre ty = = M tyg = M Ni yk N Nm gSG
dintrt kS k m iSUP m iSUP ni kSi
( ) ( ) []
Var[ty ]=M 1 m SI + M Ni2 1 ni Si Var y = NVar[t y ]
Vraie variance
dchantillonnage 2 M 2 1
de cet estimateur M m m i =1 Ni ni
Var[ty ]=M(1 m )s + M N (1 n )s []
Var y = 1 Var[ty ]
Estimateur
2
I
2 i
2
i
de la variance i
dchantillonnage M m m iSUP N n i i N
() () ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y
sous hypothse que la taille de lchantillon est assez grande
41
X. REDRESSEMENTS
Exercice 1 Post-stratification
Un institut de sondage est charg de mesurer laudience dun nouveau magazine. Il interroge pour
cela un chantillon de taille n selon un procd que lon assimilera un plan simple probabilits
gales et sans remise au sein de la population franaise des individus gs de 15 ans et plus. On
supposera de plus quil ny a pas de non-rponse. Pour satisfaire la demande de lditeur, les
rsultats sont ventils selon le critre habitant en zone urbaine ou habitant en zone rurale . Les
donnes recueillies se prsentent ainsi :
Habitant en zone rurale Habitant en zone urbaine Total
Lecteurs 64 476 540
Non lecteurs 576 884 1 460
Total 640 1 360 2 000
On considre une rgion agricole comprenant N = 2010 fermes o on cherche estimer la moyenne
de la surface cultive en crales (variable Y mesure en hectares). On possde linformation
auxiliaire sur la surface agricole totale cultive de chaque ferme. En particulier, on sait quil y a 1 580
fermes de moins de 160 hectares (post-strate 1) et 430 fermes dau moins 160 hectares (post-strate
2). On ralise un sondage alatoire simple de n = 100 exploitations et on obtient (avec les indices 1 et
2 pour les deux post-strates dfinies) : n1 =70 n2 =30 y1 =19,40 y2 =51,63 s 2y1 =312 s 2y2 =922 .
42
1. a. Quel est l'estimateur post-stratifi post ? Est-il diffrent de la moyenne simple?
b. Quelle est la loi de n1 ? Que valent son esprance et sa variance?
c. Calculer l'estimateur sans biais de la variance de post et donner un intervalle de
confiance 95% pour la surface moyenne cultive en crales.
2. On exploite dsormais la variable auxiliaire X mesurant la surface agricole totale cultive pour
construire un estimateur par le ratio. On connat la moyenne X =118,32 ha et on obtient sur
l'chantillon : x =132,25 sx2 =9173 s y2 =708 =0,57 o est lestimateur du vrai coefficient
de corrlation linaire inconnu .
a. Rappeler lexpression de .
b. Comment dfinissez-vous ? Sagit-il dune estimation sans biais de ?
c. Montrez que lestimateur par le ratio de Y apparat prfrable la moyenne simple si
C V(x)
et seulement si > 1 o les CV estiment les coefficients de variation.
2 C V(y)
Quobtient-on dans le cas prsent ?
d. Calculez lestimateur par le ratio yq de Y .
e. Estimez sa prcision et donnez un intervalle de confiance 95% pour Y .
Le directeur dune entreprise de confection de chaussures veut estimer la longueur moyenne des
pieds droits des hommes adultes dune ville. Soient y le caractre longueur du pied droit (en
centimtre) et x la taille de lindividu (en centimtres). Le directeur sait en outre par les rsultats dun
recensement que la taille moyenne des hommes adultes de cette ville est de 168 cm. Pour estimer la
longueur des pieds, le directeur effectue un sondage alatoire simple sans remise de 100 hommes
adultes. Les rsultats sont les suivants : s y =2,sx =10,sxy =15, x =169, y =24 .Sachant que 400 000
hommes adultes vivent dans cette ville,
1. Calculez lestimateur dHorvitz-Thompson, lestimateur par le quotient, lestimateur par
diffrence et lestimateur par la rgression.
2. Estimez les variances de ces 4 estimateurs
3. Quel estimateur conseilleriez-vous au directeur ?
4. Exprimez la diffrence littrale entre la variance de lestimateur par le quotient et la variance
de lestimateur par la rgression en fonction de x , y et de la pente b de la droite de
rgression de y sur x dans lchantillon. Commentez.
43
Rappels sur les redressements
I/ Intrt
Accrotre la prcision en tirant parti dinformation auxiliaire lie au caractre dintrt.
yk
( ) = N 1 Nn Sny
2
Estimateur ty = = N yk Var ty
kS k n kS
dHorvitz-Thompson
( D ) = N 1 Nn (S y + Snx 2Sxy )
2 2
Estimateur par la
diffrence tyD=ty +tx tx Var ty
n (S + R S 2RS )
2 2
Var t = N 1
y x xy
tx yQ
N n
Estimateur par le
tyQ=ty
ratio (ou le quotient) tx avec R=ty = Y
tx X
tyD=ty +b(tx tx ) 2
n Sy
Var tyQ = N 1 (1 ) avec = sxy
Estimateur par la
rgression avec sxy
b= N n sx sy
sx2
ty post =Nh yh = Nh yk Var(ty post )= N n NhSyh
H H H H
2 + N n N N Nh S 2
Estimateur post-
stratifi h=1 h=1 nh kSh n h=1 N 1 n
h=1 N yh
() ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y
()
sous hypothse que la taille de lchantillon est assez grande.
44
IX. TP2 : CALAGE SUR MARGES
Cette sance utilise la macro SAS %CALMAR dveloppe par lInsee. Elle est disponible sur le site
insee.fr, accompagne de sa documentation.
Exercice 1
Un institut spcialis a ralis une enqute auprs des salaris d'une entreprise, qui compte 230
salaris rpartis sur deux tablissements A (70 salaris) et B (160 salaris). L'institut a effectu un
sondage alatoire simple dans chaque tablissement, de taux de sondage respectifs 1/10 (A) et 1/20
(B). Le but est destimer la proportion de salaris prts montariser une partie de leurs congs.
Par ailleurs, la direction de l'entreprise a aimablement fourni les informations suivantes sur ses
salaris : l'entreprise compte 80 employs, 90 ouvriers, 140 hommes, 100 personnes travaillent dans
le secteur productif, et le salaire total annuel vaut 47 000.
tp2_exercice1.sas7b
dat
45
Exercice 2
Exercice 2
Vous disposez dune base de sondage de 11 600 individus dcrits par la rgion, lge, le niveau
scolaire, la catgorie socio-professionnelle, etc. (cf. tableau ci-dessous).
Le but de lexercice est den slectionner un chantillon, puis de procder des estimations et des
redressements, en faisant comme si linformation dintrt avait t collecte sur lchantillon
seulement. Les variables dintrt mesurent limportance consacre aux activits sportives et
culturelles.
Ci-dessous le contenu de la base de donnes :
Nom Type Libell et modalits
IDENTIND C Identifiant
Tranche dge
1 : de 15 25 ans
2 : de 25 29 ans
3 : de 30 39 ans
TRAGE C
4 : de 40 49 ans
5 : de 50 64 ans
6 : de 65 69 ans
7 : plus de 70 ans
Niveau scolaire
NIVSCO2 C 1 : infrieur au baccalaurat
2 : suprieur au baccalaurat
Catgorie socio-professionnelle
1 : agriculteurs
2 : artisans, commerants, chefs dentreprises, professions librales
3 : cadres
CS C
4 : professions intermdiaires
5 : employs
6 : ouvriers
7 : retraits
REGION C Rgion
Zone demploi et damnagement du territoire
1 : Rgion parisienne
2 : Bassin parisien
3 : Nord
ZEAT C 4 : Est
5 : Ouest
6 : Sud-ouest
7 : Centre-est
8 : Mditerrane
CINEMA N Nombre de fois o lindividu est all au cinma au cours des 12 derniers mois
EXPO N Nombre dexpositions visites au cours des 12 derniers mois
SPORT N Nombre dheures de sport pratiques au cours de la dernire semaine
LECTURE N Nombre dheures de lecture au cours de la dernire semaine
TELE N Nombre dheures passes devant la tlvision au cours de la dernire semaine
tp2_exercice2.sas7b
dat
46
1 / Donner la rpartition de la population par tranche dge et niveau scolaire.
3 / A partir de lchantillon, estimer la rpartition de la population par tranche dge et niveau scolaire.
valuer galement le nombre moyen dheure par semaine consacres la lecture, au sport, passes
devant la tlvision ainsi que le nombre moyen dexpositions visites en une anne et le nombre
moyen de sances de cinma en un an.
4 / Caler lchantillon sur la vraie structure par tranche dge et niveau scolaire. Pourquoi ces
variables de calage sont-elles pertinentes ?
47
X. TP3 : CORRECTION DE LA NON-REPONSE
Le but de l tude de cas est de corriger la non-rponse (totale et partielle) pour une enqute conduite
auprs de 2 389 personnes interroges sur leur perception de leur tat de sant.
L'chantillon a t choisi par sondage alatoire simple sans remise dans une population de 2 millions
d'individus. Les informations disponibles sont les suivantes :
- l'identifiant de l'enqut (variable ident ),
- son poids de sondage initial ( poids ),
- son ge ( ge ),
- son sexe ( sexe ),
- son niveau de revenu ( revenu ),
- sa rgion d'habitat ( region ),
- son nombre de consultations chez un professionnel de la sant en un an ( visites ),
- sa consommation de tabac ( tabac ),
- sa perception de son tat de sant ( sante ),
- une indicatrice de la non-rponse totale ( nrt ),
- une indicatrice de la non-rponse partielle ( nrp ).
Les modalits des caractristiques qualitatives sont dfinies de la sorte :
Variable Modalits
Age 3-4 : Junior
5-6 : Jeune adulte
7-8 : Adulte
9-11: Senior
Sexe 1 : Homme
2 : Femme
Revenu 1-4 : Bas revenus
5-6 : Moyens revenus
7-8 : Bons revenus
9-11: Hauts revenus
Tabac 1 : Fume quotidiennement
2 : Ayant fum quotidiennement
3 : Fume occasionnellement
4 : Ayant fum occasionnellement
5 : Jamais fum
Sante 1-2 : Excellente
3 : Bonne
4-5 : Passable
tp3.sas7bdat
2. On ralise maintenant un tirage bernoullien directement dans U, tel que chaque lment a la
probabilit d'tre slectionn.
a. Dterminer pour que l'esprance de la taille de l'chantillon, sous ce plan de
sondage, soit gale l'esprance de la taille de l'chantillon calcule la question
prcdente.
b. Calculer alors la variance de la taille de l'chantillon, et comparer cette variance
celle de la question prcdente.
49
3. On ralise prsent un tirage systmatique de taille n : on tire un nombre a au hasard entre 1
et k et on forme un chantillon de taille voulue avec les units a, a + k, a + 2k, , a + (n-1)k.
Soit Ysys la moyenne des units slectionnes dans lchantillon.
( )
Montrer que : E Ysys = Y et que ( )
V Ysys =
k 2 1
12
4. Comparer V (Y ) V (Y )
et sys et commenter
On veut estimer le poids moyen de 10 lphants dun cirque. Pour cela, on ralise un sondage
alatoire simple sans remise de taille 5 laide dun tri alatoire. On simule donc une variable
alatoire uniforme U ~ U[0,1] sur la population des lphants, puis on trie les ralisations obtenues
par ordre croissant (ou dcroissant) et on retient lchantillon correspondant aux 5 plus grandes
valeurs (ou plus petites). La simulation a t effectue partir de la fonction ALEA() sous Excel et a
donn les ralisations ci-dessous :
N de l'lphant Valeur gnre
1 0,84
2 0,12
3 0,36
4 0,60
5 0,68
6 0,11
7 0,87
8 0,44
9 0,21
10 0,77
1. Quel est lchantillon tir ?
2. On pse les lphants retenus et on obtient en tonnes les poids respectifs suivants : 3,65 ;
3,17 ; 4,18 ; 3,55 et 4,26.
3. Donnez un estimateur du poids moyen des lphants puis un intervalle de confiance 95% de
ce poids moyen.
4. Finalement, on ralise une pese exhaustive des lphants. On obtient un poids moyen de
3,45 tonnes. Que dire de lintervalle de confiance prcdent ? Do peut venir le problme ?
50
1. Montrer que le plan est de taille fixe n et quil suffit effectivement donc dau plus N oprations
pour slectionner ces n units
2. Montrer que le plan est simple. En dduire que les probabilits dinclusion individuelles sont
n
bien gales : k = , k U .
N
3. Application : slectionner un chantillon de taille 4 dans une population de taille 10 selon cette
mthode en utilisant les ralisations suivantes dune variable alatoire U uniforme sur [0,1[ :
Individu
1 2 3 4 5 6 7 8 9 10
k
uk 0,375 0,620 0,518 0,0454 0,633 0,246 0,927 0,326 0,646 0,178
Lobjet de cet exercice est de montrer lexistence de biais pouvant dcouler de non-rponses dans les
enqutes par quotas. On considre une enqute o sont imposs des quotas relatifs une variable
qualitative donne. Pour fixer les ides, on supposera, par exemple, quil y a dans la population, H
variables dge ou de poids en proportion Nh/N pour h = 1 H. On demande aux enquteurs de
complter un chantillon reprsentatif, cest--dire tel que nh/n = Nh/N. A la fin de lenqute, la
moyenne Y de la variable dintrt est estime par la moyenne simple sur lchantillon y , ce qui peut
encore scrire :
H
n H
N 1
y = h y h = h y h o y h = y k .
h =1 n h =1 N nh kS h
Pour tudier linfluence de la non-rponse, on fait lhypothse quil existe dans la population un
partage en 2 catgories :
La 1re est celle des personnes accessibles et rpondant volontiers lenqute caractrise
par les effectifs N 1 et N h1 dans les tranches dge h, et les moyennes Y1 et Yh1 .
1. Si on fait lhypothse que les nh rponses constituent un chantillon dun plan alatoire simple
sans remise prlev dans un ensemble deffectif N h1 , montrer que y est un estimateur biais
pour Y . On crira lexpression du biais en fonction de N , N h 0 et h = Yh1 Yh 0 .
Une banque dsire tudier par sondage (interviews par enquteur) les caractristiques socio-
dmographiques (ge, catgorie sociale,) et les comportements financiers des titulaires de comptes
CODEVI. Leur rpartition en fonction des montants moyens annuels des comptes est la suivante :
51
Solde moyen annuel Nombre de comptes
De 0 100 15 000
De 100 900 15 000
Plus de 900 30 000
Ensemble 60 000
Pour chacun des trois groupes, on veut tudier la rpartition des titulaires par classe dge, catgorie
sociale, etc. Par exemple, on sintresse la proportion de titulaires ayant entre 25 et 35 ans. Quelle
taille dchantillon doit-on prvoir dans chaque strate sil sagit de dterminer les diffrentes
proportions avec une prcision de 2,5% au niveau de confiance 95% ?
Pour estimer le nombre moyen Y de personnes par mnage dans un pays donn, on ralise un tirage
2 degrs :
1er degr : tirage alatoire avec remise de m = 4 villages parmi M = 400 proportionnellement
leur taille. La taille dun village est le nombre de mnages quil contient. Ainsi, chacun des
4 tirages indpendants, un village est slectionn avec une probabilit proportionnelle sa
taille.
2me degr : tirage alatoire simple de ni mnages parmi les Ni si le village i est tir.
Le nombre total de mnages dans le pays est N = 10 000. Les donnes sont reprsentes dans le
tableau ci-dessous ; Yi est le nombre moyen de personnes par mnage dans le village i daprs
lchantillon.
i 1 2 3 4
Ni 20 23 25 18
Yi 5.25 5.50 4.50 5
1. a. Quelle est la probabilit de tirage pi de chacun des 4 villages slectionns ? (on appelle
probabilit de tirage la probabilit qua le village dtre choisi lors de chacun des 4 tirages
indpendants raliss successivement dans les mmes conditions).
b. Calculer Pr(iS) en fonction de (1- pi). En dduire la probabilit dinclusion i =Pr(iS) en
fonction de pi . Examiner le cas o pi est petit.
2. Quelle est lexpression de Y (vraie valeur) et quel est son estimateur sans biais ?
3. Estimer la variance de cet estimateur. Quel intrt a-t-on utiliser un tirage avec remise au 1er
degr ?
Exercice 8 Raking-ratio
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
On sintresse la population des 10 000 tudiants inscrits en 1re anne dans une universit. On
connat le nombre total dtudiants dont les parents ont un diplme dtudes primaires, secondaires et
suprieures (respectivement 5000, 3000 et 2000). On effectue un sondage selon un plan alatoire
simple sans remise de 150 tudiants. On ventile ces 150 tudiants selon le diplme des parents et
leurs rsultats (chec ou russite) lexamen de 1re anne et on obtient le rsultat ci-dessous :
Niveau dtudes chec Russite
Primaire 45 15
Secondaire 25 25
Suprieure 10 30
52
1. Estimez le taux de russite des tudiants en utilisant lestimateur de Horvitz-Thompson et
donnez un estimateur de variance et un intervalle de confiance 95% de ce taux.
2. Expliquez pourquoi il est a priori intressant deffectuer un redressement, et pourquoi le
redressement doit diminuer la valeur de lestimation issue de 1.
3. Estimez le taux de russite des tudiants par lestimateur post-stratifi et donnez un
estimateur de variance et un intervalle de confiance 95% de ce taux.
4. Estimez le taux de russite par niveau dtudes des parents en utilisant une technique de
raking-ratio et sachant que dans la population totale tudiante, le taux de russite est en
ralit de 40%.
53