Sunteți pe pagina 1din 53

Conservatoire National des Arts et Mtiers

Ple Sciences et Techniques de l'Information et de la Communication, Spcialit Mathmatiques

Sylvie Rousseau
UE STA 108

MANUEL
DEXERCICES
Enqutes et sondages

Anne scolaire 2011 2012


Table des matires

I. Rappels de probabilits et de statistique infrentielle ........................................3


Rappels sur les lois de probabilits 5
Rappels sur les intervalles de confiance 7

II. Sondage alatoire simple ...................................................................................11


Rappels sur le sondage alatoire simple 16

III. Plans probabilits ingales ............................................................................18


Rappels sur les plans probabilits ingales 20

IV. TP1 : Simulations de tirage dchantillons ......................................................21

V. Plans stratifis.....................................................................................................24
Rappels sur les plans stratifis 29

VI. Plans par grappes ..............................................................................................31


Rappels sur les plans par grappes 35

VII. Plans plusieurs degrs ..................................................................................37


Rappels sur les plans plusieurs degrs 40

VIII. Redressements ................................................................................................42


Rappels sur les redressements 44

IX. TP2 : Calage sur marges ...................................................................................49

X. TP3 : Correction de la non-rponse...................................................................49

XI. Complments et rvisions.................................................................................49

2
I. Rappels de probabilits et de statistique infrentielle

Exercice 1 Notions desprance et de variance


Un passager du mtro mesure son temps de trajet domicile-travail pendant 10 jours et relve
successivement (en minutes) : 32 ; 25 ; 28 ; 36 ; 30 ; 26 ; 37 ; 25 ; 33 ; 28 .
Quel est en moyenne la dure du trajet ? valuer aussi la variabilit de cette dure.
Comparer avec un autre itinraire emprunt par notre voyageur pendant les jours suivants et qui lui
prend : 46 ; 21 ; 24 ; 38 ; 44 ; 22 ; 37 ; 20 ; 25 ; 23 minutes.

Exercice 2 Loi binomiale

A chaque balade quil effectue, un cavalier a une probabilit p dtre dsaronn.


1. Quelle est la probabilit que le cavalier ait chut k fois au terme de n balades ? On suppose
que les diffrentes promenades sont indpendantes les unes des autres.
2. Quelle est la loi du nombre de chutes en n balades ?
3. Donner lesprance et la variance du nombre de chutes en n balades.

Exercice 3 Loi hypergomtrique

Le responsable qualit dune usine contrle 20 objets dans chaque lot de 1000 objets avant de le
laisser partir vers le client. Il accepte seulement les lots pour lesquels il ne trouve aucun objet non
conforme dans lchantillon ; dans le cas contraire, le lot est tri unit par unit.
1. Si p% des pices fabriques sont dfectueuses, quelle est la probabilit den trouver k dans
un lot donn de taille 20 ?
2. Quelle est la probabilit pour quun lot contenant une proportion p = 0,05 dobjets non
conformes soit accept ?
3. Mme question pour p = 0,1.

Exercice 4 La moyenne empirique

Soient X1, X2, , Xn n variables alatoires indpendantes et identiquement distribues (i.i.d.) de

X i . Calculer E (X ) et V (X ).
1 n
moyenne m et de variance . La moyenne empirique est : X =
n i =1

Exercice 5 Intervalle de confiance pour une moyenne

On a mesur le rendement de 100 parcelles de bl dune varit donne. On a obtenu


1 100 100 2
x i = 86 et x i = 750000 o xi exprime le rendement observ sur la i
me
parcelle (en qx/ha).
100 i =1 i =1

On suppose que les rendements sont mutuellement indpendants et quils sont issus dune population
infinie distribue selon une loi normale de moyenne m et de variance .
Construire un intervalle de confiance pour le rendement moyen au niveau de confiance 95%.

3
Exercice 6 Protection de lanonymat dans une enqute

Pour prserver lanonymat dans certaines enqutes par sondage, le procd suivant peut tre suivi.
Admettons que lon veuille estimer la proportion de personnes qui remplissent leur dclaration fiscale
de manire honnte. On demande alors chaque personne interroge de se retirer dans une pice
isole, et de jouer pile ou face.
- si elle obtient pile alors elle doit rpondre honntement par oui ou non la
question Votre dclaration fiscale est-elle honnte ?
- si elle obtient face , elle devra lancer la pice une nouvelle fois et rpondre par oui ou
non la question Avez-vous obtenu face au deuxime tirage ? .

Grce ce procd, il est impossible lenquteur de savoir quelle question se rapporte la rponse
de la personne interroge, celle-ci peut donc fournir sans crainte une rponse sincre.

1. On note p la proportion inconnue de dclarations fiscales remplies honntement dans la


population et la proportion de rponses oui . Montrer que = p/2 + 1/4 .
2. Soit X la variable alatoire dsignant le nombre de rponses oui dans une enqute auprs
de n personnes. Quelle est la loi de X ? Donner un estimateur de et un estimateur de p.
Calculer leur esprance et variance respectives.
3. En dduire un intervalle de confiance de niveau 1- pour p. On utilisera lapproximation
normale de la loi binomiale.
4. Application numrique avec n = 1000 et 600 rponses affirmatives. Donner une estimation de
p et un intervalle de confiance pour p au niveau 95%. Quel est le prix pay pour la
confidentialit ?

4
Quelques rappels sur les lois de probabilit
Variable alatoire X
Cest une grandeur qui peut prendre diffrentes valeurs avec diffrentes probabilits. Elle est dfinie
sur l'ensemble des rsultats possibles (ou vnements) d'une exprience alatoire (ex : rsultat dun
jeu de hasard, dure dattente,).

Loi de probabilit
La loi de probabilit, ou distribution, d'une variable alatoire X est dfinie par l'ensemble des valeurs
prises par X ainsi que par :
- la probabilit de chaque valeur possible de X quand X est une v.a. discrte,
- la probabilit que X se ralise dans un intervalle donn quand X est une v.a. continue. La
fonction de densit de X, drive de la fonction de rpartition caractrise la loi de probabilit.

Esprance E(X)
Cest la valeur que l'on peut esprer obtenir, en moyenne, en ralisant une v.a. X. On lassimile la
moyenne de X par abus de langage.
Pour une variable alatoire discrte, E ( X ) = k P( X = k ) .
k
+
Pour une variable alatoire continue admettant une densit f(x), E ( X ) = xf (x )
Proprits :
- Pour c constante relle, E (c ) = c
- E ( X + Y ) = E ( X ) + E (Y ) : on dit que l'esprance est un oprateur linaire
- Si X et Y sont indpendantes alors E ( XY ) = E ( X ) E (Y )

Variance Var(X)
Cest une mesure de la variabilit des valeurs par rapport la moyenne. Plus les valeurs de X sont
imprvisibles , plus elle est grande. Elle se dfinit par Var( X ) = X2 = E[X E ( X )] = E ( X ) [E ( X )]
( moyenne des carrs des carts la moyenne )
Proprits :
- La variance est toujours positive ou nulle
- Var ( X ) = 0 X constante
- Var (cX ) = c Var ( X ) o c est une constante relle
- Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X , Y )
o Cov( X , Y ) = XY = E [X E ( X )] E [Y E (Y )]
o Cov( X , Y ) = 0 si X et Y sont indpendantes

Loi de Bernoulli B(p)


Cest la loi de la variable X qui indique si le rsultat dune preuve est un chec ou un succs (par
exemple : jouer pile ou face).
Loi de probabilit : P( X =1)= p et P( X =0)=1 p
Esprance : E(X)= p
Variance : Var(X)= p(1 p)
Loi binomiale B(n,p)
Cest la loi de la variable X qui compte le nombre de boules blanches obtenues lissue de n tirages,
indpendants et avec remise, dans une urne de taille N contenant p % de boules blanches.
P( X =k )=Cnk p k (1 p ) avec k{0,1,...,n}
nk
Loi de probabilit :
Esprance : E(X)=np
Variance : Var(X)=np(1 p)
N.B. : une loi binomiale de paramtres n et p est aussi la somme de n lois de Bernoulli indpendantes
et de mme paramtre p.

5
Loi hypergomtrique H(N, n,p)
Cest la loi de la variable X qui compte le nombre de boules blanches slectionnes lissue de n
tirages sans remise dans une urne de taille N contenant des boules blanches en proportion p.
k C n_k
CNp
Loi de probabilit : P( X =k )= N Np
avec max(0,n(N Np) )k min(n, Np )
CN
n

Esprance : E(X)=np
Variance : Var(X)=np(1 p) N n
N 1
Convergence de la loi hypergomtrique vers la loi binomiale
Si N tend vers l'infini, la loi H(N,n,p) tend vers la loi B(n, p), c'est--dire que lorsqu'on effectue un
tirage dans une grande population, il importe peu que ce tirage se fasse avec ou sans remise (en
pratique, on considrera que la population est grande lorsque l'chantillon reprsente moins de
10% de cette population : n /N < 0,1).

Loi normale ou loi de Laplace-Gauss N(m,)


Cest la loi dune variable X continue, variant de - + , dont la densit de probabilit vaut :

f(x)= 1 exp 1 xm
2 2
2
( )
Esprance : E(X)=m
Variance : Var(X)=

Convergence de la loi binomiale vers la loi normale


X np
Si X suit une B(n,p) et que n tend vers linfini alors
N (0,1)
np (1 p)
En pratique, on considre que l'approximation est correcte ds que n p(1-p) > 18, d'autant plus que n
est grand et p proche de 0,5.

Loi uniforme U(0,1)


Une variable X suit une loi uniforme U(0,1) si sa densit de probabilit vaut : f(x)=1]0,1[(x)
Esprance : E(X)=1/ 2
Variance : Var(X)=1/12
F(x)= P( X x )= x sur [0,1]

Loi faible des grands nombres


Si (X1,X2,,Xn) sont des variables indpendantes et identiquement distribues (i.i.d.) selon une loi
n p
quelconque de mme moyenne m, alors: X n = 1 Xi m
n i =1 n

Autrement dit, la moyenne d'une variable sur un chantillon alatoire simple tend vers la moyenne
dans la population, quand la taille de lchantillon tend vers l'infini. Par exemple, si l'on pouvait jouer
indfiniment "pile ou face" avec une pice bien quilibre, le pourcentage de "pile" obtenu tendrait
vers 50 %.

Thorme central limite


Si (X1,X2,,Xn) sont des variables i.i.d. selon une loi quelconque de moyenne m et de variance ,

n X n m N(0,1)
Loi
alors:
n

6
Quelques rappels sur les intervalles de confiance
I/ Gnralits
Soient X une variable alatoire de loi paramtre par et X 1 ,...,X n n variables i.i.d. selon la loi de X.

1) Principe dun intervalle de confiance


Plutt que destimer ponctuellement la vraie valeur inconnue du paramtre , on recherche un
intervalle recouvrant trs vraisemblablement cette vraie valeur.
Dfinition : On appelle intervalle de confiance de niveau de confiance 1 du paramtre tout
intervalle IC tel que : P( IC ) = 1 pour [ 0,1] fix.

Les bornes de lintervalle de confiance IC dpendent de lchantillon, elles sont donc alatoires.
Par abus de langage, on note souvent P( IC ) = 1 .

Remarquons que si augmente (ou que si n augmente), lamplitude de lintervalle de confiance


diminue.

2) Vocabulaire
La probabilit pour que lintervalle de confiance ne contienne pas la vraie valeur peut tre rpartie
diffremment de part et dautre des bornes de lintervalle de confiance. crivons donc = 1 +2 o
1 et 2 mesurent respectivement les risques gauche et droite de dpasser un seuil plancher ou
plafond.

Lintervalle de confiance est dit bilatral quand 1 0 et 2 0 . Si 1 = 2 = , lintervalle
2
est dit symtrique. Il est dissymtrique sinon.

Lintervalle de confiance est dit unilatral si 1 2 = 0 :


- quand on veut assurer une valeur minimale au paramtre estimer, on considre
1 = et 2 = 0 , lintervalle de confiance est alors de la forme : IC = [ a ,+[ .
- quand on ne veut pas dpasser un seuil maximal, on prend 1 = 0 et 2 = et on
obtient alors un intervalle de confiance de la forme : IC = ] , b] .

3) Construction
Pour construire un intervalle de confiance, on utilise une variable alatoire dont on connat la
distribution de probabilit.
Dfinition : une fonction pivotale pour le paramtre est une fonction des observations ( X 1,..., Xn) et
du paramtre dont la loi ne dpend pas du paramtre .
On recherche dans la suite des fonctions pivotales particulires adaptes aux cas tudis.

II/ Intervalles de confiance pour lesprance


On envisage deux cas :
la variable alatoire mesure est normale et le nombre de ralisations est quelconque,
la variable alatoire mesure n'est pas normale et le nombre de ralisations est important.
Dans ce cas, la distribution de la moyenne empirique tend vers une loi normale d'aprs le
thorme central limite. On parlera dintervalle de confiance asymptotique.

7
Dans la suite on considre X ~ N(m, 2 ) et X 1 ,...,X n n variables i.i.d. selon la loi de X.
n

X
1
On dfinit la moyenne empirique Xn = i et la variance empirique modifie
n i =1
n

( X
1
Xn) .
2
S n' 2 = i
n 1 i =1

1) Cas o la variance est connue


Xn m
Aprs centrage et rduction de la moyenne empirique, on obtient : n N ( 0,1)

Xn m
On a : P u n u = 1 o u est le fractile dordre 1 de la loi N ( 0,1) .
2

Ce qui revient : P X n u m Xn + u = 1 .
n n

Quand la variance est connue, lintervalle de confiance bilatral symtrique pour lesprance dune loi
normale scrit donc au niveau 1 sous la forme suivante :


IC ( m ) = x n u , xn + u x n est la ralisation de X n sur lchantillon.
n n

Remarque : si = 5% , le fractile dordre 0,975 de la loi normale centre rduite correspond 1,96.
si = 10% , le fractile dordre 0,95 de la loi normale centre rduite vaut environ 1,64.

2) Cas o la variance est inconnue


Xn m
On a : n St (n 1) (loi de Student n-1 degrs de liberts).
S n'
Xn m
d'o P t n t = 1 o t est le fractile dordre 1 de la loi St (n 1)
S n' 2
S n' S n'
et donc P X n t m Xn + t = 1 .
n n
Quand la variance est inconnue, lintervalle de confiance bilatral symtrique pour lesprance dune
loi normale scrit donc au niveau 1 sous la forme suivante :

sn' sn' x n et sn' sont les ralisations respectives de X n et S n'


IC ( m ) = x n t , xn + t
n n sur lchantillon.

Remarque : quand n , on approxime la loi de Student par la loi normale centre rduite. On
retrouve alors le cas prcdent.

8
3) Cas particulier : intervalle de confiance pour une proportion
n
X
Soient X 1 ,...,X n i.i.d. selon B( p ) et X = X
i =1
i ~B(n, p ) . Notons Fn =
n
estimateur sans biais de p.

- Dans le cas de grands chantillons :


Fn p
N (0,1) .
loi
En approchant une loi binomiale vers une loi normale, on a : n
p(1 p) n

Fn p
Ce qui permet dcrire : P u n u = 1 o u est le fractile dordre 1 de la
p(1 p) 2

loi N ( 0,1) .

Et donc lintervalle de confiance bilatral symtrique pour une proportion p au niveau 1


Fn p
sobtient en rsolvant linquation : n u
p (1 p )

Ce qui donne en notant f n la ralisation de Fn sur lchantillon:

u u u u u u
fn + + f n (1 f n ) f n + + + f n (1 f n )
2n n 4n 2n n 4n
IC(p) = ,
u u
1+ 1+
n n

Pour une taille dchantillon importante, on considre lapproximation suivante :

f n (1 f n ) f n (1 f n )
IC ( p) = f n u , fn + u
n n

Cette approximation est parfaitement justifie sur le plan thorique.


En effet, daprs le thorme de Slutsky, on a : Fn (1 Fn ) p 1 p .
p
( )
Fn p
N (0,1) .
loi
On en dduit donc que : n
Fn (1 Fn ) n

Fn p
Do : P u n u = 1 o u est le fractile dordre 1 de la loi N ( 0,1) .
Fn (1 Fn ) 2

Quand n est grand, lintervalle de confiance bilatral symtrique pour une proportion scrit donc
au niveau 1 sous la forme :


(
f n 1 f n ) (

f n 1 f n )
IC (p) = f n u , fn + u f n est la ralisation de Fn sur lchantillon.
n n

- Sinon, construction dintervalles de confiance exacts :


On construit ces intervalles en considrant la fonction de rpartition de la loi binomiale. Si la
probabilit de recouvrement de lintervalle ne vaut pas exactement 1 , on prend lintervalle
ayant la plus petite probabilit de recouvrement parmi ceux ayant une probabilit de
recouvrement suprieure 1 .

9
III/ Intervalles de confiance pour la variance d'une loi normale
Soient X ~ N(m, 2 ) et X 1 ,...,X n n variables i.i.d. selon la loi de X.

1) Cas o lesprance est connue


n

( X i m) 2 . S n* 2
1
Soit S n* 2 = On a n 2 ( n)
n i =1 2
S n*2
Do P 2 1 n 2 2 2 = 1
o 21 est le fractile dordre 1 de la loi 2 ( n) ,
2 1
2
et 12 2 est le fractile dordre 1 2 de la loi 2 ( n) .

Quand lesprance est connue, lintervalle de confiance bilatral pour la variance dune loi normale
scrit donc au niveau 1 sous la forme suivante :

sn* est la ralisation de S n* sur lchantillon.


sn*2 sn*2
IC ( 2 ) = n 2 , n 2
2 1 Remarque : cet intervalle n'est pas centr car la loi du khi-deux
1 2 2 n'est pas symtrique.

2) Cas o lesprance est inconnue


n

( X
1
X n ) comme fonction pivotale
2
On considre la variance empirique modifie S n' 2 = i
n 1 i =1
pour .
( n 1) S n' 2
On sait que 2 ( n 1) .


S n' 2
On a donc P 2 1 ( n 1) 2 2 2 = 1 o 1 est le fractile dordre 1 de la loi ( n 1)
2 2
1
2 2
et 12 2 le fractile dordre 1 2 de la loi 2 ( n 1) .

Quand lesprance est inconnue, lintervalle de confiance bilatral pour la variance dune loi
normale scrit donc au niveau 1 sous la forme suivante :


s n' 2 s n' 2
( )
IC ( ) = n 1 2
2 ( )
, n 1 2 sn' est la ralisation de S n' sur lchantillon.
2 1
1
2 2

10
II. Sondage alatoire simple

Exercice 1 Un petit exemple

Lexercice propose de retrouver sur un exemple les rsultats de la thorie pour un sondage alatoire
simple sans remise de taille fixe. On considre pour cela tous les chantillons possibles de taille 2 pris
dans une population de taille N = 5. On connat par ailleurs les valeurs de la variable dintrt Y pour
chaque unit de la population, savoir respectivement : 8, 3, 11, 4 et 7.

1. Calculer la moyenne Y et la dispersion S Y du caractre dintrt sur la population.


2

2. Lister tous les chantillons possibles de taille 2.


3. Pour chacun de ces chantillons, calculer lestimateur Y de la moyenne de la variable


dintrt ainsi que lestimateur de sa variance V Y . ()

4. Vrifier que Y estime sans biais la vraie moyenne.
5. Calculer la variance V Y . ( )
( )
6. Vrifier que V Y concide avec la formule de la variance donne par la thorie.

7. Vrifier que V (Y ) estime sans biais la vraie variance V Y . ( )


Exercice 2 Rappels de cours

Lexercice propose de dmontrer des rsultats prsents dans le cours et dinsister sur des
techniques de raisonnement usuelles en sondage. Considrons quon veuille estimer le total et la
moyenne dune grandeur Y dans une population U de taille N. Pour cela, on procde un sondage
alatoire simple sans remise de taille n et on note S lchantillon alatoire obtenu.

1. Combien y a-t-il dchantillons possibles ? Quelle est la probabilit de tirer chacun dentre
eux ?

2. On considre un individu k quelconque dans U. Combien y a-t-il dchantillons contenant cet


individu ? En dduire la probabilit de tirage de k.

3. On note I k la variable alatoire valant 1 si k appartient lchantillon et 0 sinon.


a. Que vaut E (I k ) ?
b. Comment peut-on rcrire Y
k S
k partir des I k ?

4. En dduire que :
N
a. ty =
n
Y
k S
k estime sans biais le vrai total t y =
k U
Y k

1 1
b. et que Y =


n k S
Yk estime sans biais la vraie moyenne Y =
N
Y
k U
k .

5. Combien y a-t-il dchantillons comprenant les individus identifis k et l ? En dduire la


probabilit de tirer ces deux individus conjointement. Que vaut alors E (I k I l ) ? En dduire
Cov(I k , I l ) .

11
6. On note S y =
2 1
(Yk Y )2 et f = Nn . Montrer que :
N 1 k U
S y2
a. Var (ty ) = N ( N n )
n

() S 2

Var Y = (1 f )
y
b.
n
7. Quel est lintrt du sondage sans remise par rapport au sondage avec remise ?

8. Montrer que s =
2 1

n 1 k S
(
Yk Y )
2
estime sans biais S y .
2


9. En dduire des estimateurs sans biais de Var ty et de Var Y .( ) ()
Exercice 3 Estimation de la surface agricole utile dun canton
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )

On veut estimer la surface moyenne cultive dans les fermes dun canton rural. Sur 2010 fermes que
comprend ce canton, on en tire 100 par sondage alatoire simple. On mesure Yk la surface cultive
par la ferme k en hectares et on trouve :

Y
k S
k = 2907 ha et Y
k S
k
2
= 154 593 ha 2

1
1. Donner la valeur de lestimateur sans biais classique de la moyenne Y =
N
Y
k U
k .

2. Donner un intervalle de confiance 95% pour Y .

Exercice 4 Estimation dune retombe touristique


(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

145 mnages de touristes sjournant en France dans une rgion donne ont dpens 830 en
moyenne par jour. Lcart type estim de leurs dpenses slve 210 . Sachant que 50 000
mnages de touristes ont visit la rgion o a t effectue lenqute, que peut-on dire de la dpense
totale journalire de lensemble de ces mnages ? On supposera pour cela que lchantillon est issu
dun plan alatoire simple probabilits gales.

Exercice 5 Taille dchantillon pour un sondage dopinion


(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Un sondage sur la popularit dune personnalit politique lui accorde un pourcentage p = 30%
dopinions favorables. En admettant quil sagisse dun sondage alatoire simple sans remise et que la
taille de lchantillon est ngligeable au regard de celle de la population, combien de personnes ont-
elles t interroges pour que lon puisse dire avec un degr de confiance de 95% que la vraie
proportion dopinions favorables dans la population ne scarte pas de p de plus de deux points ?

12
Exercice 6 Taille dchantillon pour une proportion
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )

On sintresse lestimation de la proportion P dindividus atteints par une maladie professionnelle


dans une entreprise de 1500 salaris. On sait par ailleurs que trois personnes sur dix sont
ordinairement touches par cette maladie dans des entreprises du mme type. On se propose de
slectionner un chantillon au moyen dun sondage alatoire simple.
1. Quelle taille dchantillon faut-il slectionner pour que la longueur totale dun intervalle de
confiance avec un niveau de confiance 0,95 soit infrieure 0,01 pour un plan simple :
a. avec remise ?
b. sans remise ?

2. Que faire dans le cas du plan sans remise si on ne connat pas la proportion dindividus
habituellement touchs par la maladie ?

Exercice 7 Nombre despaces de stationnement prvoir


(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Une entreprise de promotion immobilire dsire estimer le nombre despaces de stationnement requis
pour une nouvelle tour devant abriter des bureaux. Elle dcide de procder un sondage alatoire
simple sans remise. Elle sait que le nouveau btiment abritera 5 000 personnes et que, dans des
entreprises de mme type que celles devant emmnager dans les futurs locaux, la proportion de
personnes se rendant leur bureau en utilisant les moyens de transport en commun est toujours
suprieure 75%. Quelle doit tre la taille de lchantillon pris au sein des futurs occupants des
bureaux pour pourvoir estimer le nombre despaces de stationnement prvoir avec une marge
derreur symtrique dau plus 150 places au niveau de confiance 90% ?

Exercice 8 Application au marketing direct


(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Les sondages sont trs largement utiliss dans le marketing direct : il arrive souvent que lon estime
par sondage le rendement dun fichier donn, ou que lon souhaite comparer les rendements de
plusieurs fichiers, ou encore, que disposant de plusieurs fichiers, on souhaite estimer par sondage le
rendement global de lensemble de ces fichiers. Dans cet exercice, on suppose lexistence d'un fichier
de N = 200 000 adresses. On note p le rendement inconnu du fichier une offre dabonnement prix
rduit avec calculette offerte en prime ; cest donc la proportion dindividus qui sabonneraient si loffre
tait offerte tous les individus du fichier. Selon lusage p est lestimation de p obtenue partir dun
test fait sur un chantillon de n adresses choisies probabilits gales et sans remise sur le fichier.

1. On sait par exprience que les rendements ce type doffre sur ce fichier ne dpassent pas
gnralement 3%. Quelle taille dchantillon doit-on prendre pour estimer p avec une
prcision absolue de 0,5 point et un degr de confiance de 95% ?

2. Mmes questions pour une prcision de 0,3 point et 0,1 point.

3. Le test a port sur 10 000 adresses et on a not 230 abonnements. En dduire lintervalle de
confiance bilatral 95% pour le rendement p ainsi que le pour le nombre total
dabonnements si la mme offre tait faite sur lensemble du fichier.

Rappel : on appelle prcision absolue au niveau de confiance 1-- la quantit t1 V ( p ) o t1


2 2


est le fractile dordre 1 de la loi normale centre rduite.
2

13
Exercice 9 Un cas denqute rpte
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )

On considre une population de 10 stations-services et on sintresse au prix du litre de


supercarburant que chacune dentre elles affiche. Plus exactement, sur deux mois conscutifs, mai et
juin, les donnes de prix figurent dans le tableau ci-dessous :
Prix du litre de supercarburant
Station 1 2 3 4 5 6 7 8 9 10
Mai 5,82 5,33 5,76 5,98 6,20 5,89 5,68 5,55 5,69 5,81
Juin 5,89 5,34 5,92 6,05 6,20 6,00 5,79 5,63 5,78 5,84

On veut estimer lvolution du prix moyen du litre entre mai et juin. On choisit, comme indicateur de
cette volution la diffrence des prix moyens On propose deux mthodes concurrentes:

- Mthode 1 : on chantillonne n stations (n < 10) en mai et n stations en juin, les deux
chantillons tant totalement indpendants ;

- Mthode 2 : on chantillonne n stations en mai, et on interroge de nouveau ces stations en


juin (technique de panel).

1. Comparer lefficacit des deux mthodes.

2. Mme question si on souhaite cette fois estimer un prix moyen sur la priode globale mai-juin.

3. Si on sintresse au prix moyen de la question 2, ne vaut-il pas mieux tirer, non pas 2 fois n
relevs avec la mthode 1 (n chaque mois) mais directement 2n relevs sans se soucier des
mois (mthode 3) ? Aucun calcul nest ncessaire.

Exercice 10 chantillonnages successifs

En cours de collecte, la taille dun chantillon savre parfois insuffisante pour assurer la prcision
attendue. Une solution naturelle est denquter un chantillon complmentaire. Intressons-nous au
plan de sondage final obtenu aprs :
Un premier chantillonnage simple sans remise de n1 units parmi N probabilits gales,
Suivi dun second tirage simple sans remise de n2 units parmi N-n1 probabilits gales
La slection des n = n1 + n2 units ainsi retenues obit-elle un plan simple sans remise et
probabilits gales dans la population de taille N?

Exercice 11 Estimation dans un domaine

On souhaite estimer la moyenne et le total d'une variable y sur un domaine U0 dune population finie U
de taille N. Ces quantits sont notes :
t y0 1
t y0 = Y
kU 0
k et Yo =
N0
=
N0
Y
kU 0
k

o N D est la taille du domaine.

On slectionne un chantillon s au sein de la population entire par un sondage alatoire simple sans
remise de taille n. On observe un sous-chantillon s0 de taille n0 dont les individus sont dans le
domaine U0.

14
On dispose des deux estimateurs suivants de la moyenne et du total de y sur le domaine U0 :

N ty 0 N
1. ty 0 =
n
Yk
ks0
et Y0 = = Yk
N 0 N 0 n ks0
1 N
2. Y0 =
n0
Y
ks0
k et ty 0 = N 0 Y0 = 0
n0
Y
ks0
k

a) La taille n0 du sous-chantillon s0 est alatoire. Calculer sa valeur moyenne .

b) Montrer que les deux estimateurs du total (ou de la moyenne) sont tous deux sans biais pour le vrai
total (ou la vraie moyenne) du domaine. Est-ce que lun est prfrable lautre ?
c) Donner les expressions de variance des deux estimateurs de la moyenne. Comparer ces deux
variances.
d) Donner les estimateurs sans biais pour les variance de ces deux estimateurs.
e) Exemple : considrons une population de N = 5 793 entreprises. Supposons connues les quantits
suivantes :

N 0 = 984 , Y
kU 0
k =154814 , Y
kU 0
k
2
= 42148912

o y dsigne le chiffre daffaires.

Calculer les vraies variance pour les deux estimateurs de la moyenne pour un chantillon de taille
n = 579.
f) On a observ sur un chantillon particulier de taille n = 579

n0 = 89 , y
is0
i = 13782 , y =4530306
is0
2
i

Donner les valeurs des deux estimateurs de la moyenne et calculer les valeurs de leur variance
estime.

15
Rappels sur le sondage alatoire simple

I/ Dfinition
Tirage dun chantillon de n units sans remise et probabilits gales dans une population finie
compose de N units identifiables.

II/ Notations
1. Dans la population (ou univers) U = {1,2,..., k ,..., N }

Variable dintrt : Y de caractristique individuelle Yk

Total : TY = kU
Yk

TY 1
Moyenne: Y = =
N N Y
kU k

(Y )2
1
Variance : y = Y
2
kU k
N

(Y Y ) =
1 2 N
Dispersion (variance modifie) : S y = 2y
2
k
N 1 k U N 1

2. Dans lchantillon s : sous-ensemble de U de taille n(s)


Ensemble des chantillons possibles : S
Plan de sondage probabiliste : loi de probabilit sur S

p( s ) 0, s S , et sS
p( s ) = 1.


1
Moyenne : y =
Y
n kS k

(Y )
1 2
Dispersion empirique : s y = y
2
k
n 1 k S

Probabilit dinclusion dordre un de k : k = P(k s ) = sS / ks p(s )

Probabilit dinclusion ou double de k et l : kl = P (k s , l s ) = sS / k ,ls p (s )

kl = kl k l

16
III/ Formulaire du sondage alatoire simple
Probabilit de slectionner lchantillon s : p(s) = 1/ CNn

n
Probabilit de slectionner lindividu k : k U , k = P (k s ) = = f (taux de sondage)
N

Paramtre
Proportion
dintrt Moyenne Total
p = N0/N
Statistique
n
N
1

Estimateur du 1 p = yk = 0
y = Yk = y (s) ty = N y = Y
paramtre dintrt n k S n ks n n kS k

n N p(1 p)
()
2 2
S
n Sy
( )
Vraie variance
dchantillonnage Var y = 1 Var( p ) = 1 Var y = N 1 n y
t
de cet estimateur N n N N 1 n N n
n p (1 p )
()
2
n sy
2
n s y
( )
Estimateur
Var( p ) = 1
de la variance Var y = 1 Var t y = N 1

dchantillonnage N n N n 1 N n

Intervalle au niveau de confiance 95% pour la moyenne :

() ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y

()
y Y
sous hypothse que n est grand N (0, 1)
Var ( y )

17
III. PLANS PROBABILITS INGALES

Exercice 1 Rappels de cours sur lestimateur dHorvitz-Thompson


On considre une population U et on sintresse lestimation du total dune variable dintrt Y not
ty = Yk . Pour cela, on prlve un chantillon s avec des probabilits individuelles de slection
kU
notes ( k )kU .
1. Rappeler lexpression de lestimateur dHorvitz-Thompson (ou -estimateur ou encore
estimateur des valeurs dilates ).
2. tudier son esprance et sa variance.

Exercice 2 Application directe du cours

On considre une population U = {1,2,3} ,sur laquelle on dfinit le plan de sondage suivant :

p({1,2}) = , p({1,3}) = , p({2,3}) =


1 1 1
2 4 4
Y est une variable dfinie sur U, telle que : Y1 = Y2 = 3,Y3 = 6 dont on veut estimer le total t y .

1. Calculer les probabilits d'inclusion simple k et double kl .


2. Donner la distribution de probabilit de l'estimateur de Horvitz-Thompson tY du total.
Calculer la variance de cet estimateur.
3. Donner la distribution de probabilit d'un estimateur de variance de tY (il est conseill de
choisir l'estimateur le plus simple calculer). On pourra vrifier que cet estimateur est sans
biais.

Exercice 3 Volume darchives


On dsire estimer lchelle dun canton le nombre de kilomtres linaires darchives stockes dans
les mairies. Pour cela, on procde un tirage de 4 communes parmi les 9 du canton,
proportionnellement leur population.
1. Calculer les probabilits dinclusion de chaque communes, partir des donnes suivantes :
N de commune Nom de la commune Population
1 Val le Grand 1100
2 Les Gries 650
3 Les Combres 500
4 Flins 2300
5 Villers le Lac 4000
6 Fortin 5500
7 Montlebon 1900
8 Sanzeau 200
9 Aumont 150
2. Estimer le mtrage total des archives du canton partir des rsultats suivants :
N de commune Nom de la commune Mtres darchives
2 Les Gries 17
4 Flins 38
5 Villers le Lac 55
6 Fortin 70

18
Exercice 4 Tirage systmatique dentreprises

On veut slectionner un chantillon de taille 4 dans une population de 8 entreprises dont on connat la
taille, mesure en termes deffectif salari. Lchantillon est tir probabilits proportionnelles la
taille.
Entreprise 1 2 3 4 5 6 7 8
Taille 300 300 150 100 50 50 25 25

1. Donner les probabilits d'inclusion dordre 1 des entreprises.


2. Slectionner lchantillon selon un tirage systmatique en utilisant 0,27 comme nombre alatoire ;
3. Lister les chantillons possibles que l'on peut obtenir avec un tirage systmatique, et indiquer les
probabilits de tirage de chacun d'eux.
4. A partir des chantillons obtenus, donner une estimation du total de leffectif salari des
entreprises. Le rsultat tait-il prvisible ?
5. Calculer la matrice des probabilits dinclusion dordre 2 ? Commenter.

Exercice 5 Tirage de Poisson


(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003)

Lorsquon effectue des tirages probabilits ingales, on utilise en gnral des mthodes
dchantillonnage de taille fixe. Il existe cependant des algorithmes trs simples permettant des
tirages probabilits ingales mais confrant lchantillon une taille variable. On sintresse ici au
tirage de Poisson dont le principe consiste effectuer une loterie sur chaque individu de la population
indpendamment dun individu lautre. Ainsi, pour une population de taille N o les probabilits
dinclusion individuelles k sont connues pour tout k, on simule N alas indpendants dans la loi
uniforme sur [0,1] et on retient lindividu k si et seulement si u k k

1. Vrifier que lalgorithme de tirage respecte les probabilits dinclusion dordre 1 en calculant la
probabilit pour que lindividu k soit slectionn.

2. La taille de lchantillon est une variable alatoire note n S .


a. crire n S en fonction des variables indicatrices de Cornfield.
b. Que vaut lesprance et la variance de n S ?
c. Quelle est la probabilit pour que lchantillon ait une taille au moins gale 1 ?
On supposera dans la suite que lchantillon a une taille au moins gale 1.
Yk
3. On utilise lestimateur du total Y =
kS
o S dsigne lchantillon alatoire obtenu lissue
k
des N loteries.
a. Vrifier que Y estime le vrai total sans biais.
b. Quelle est la variance de Y ? Comment peut-on lestimer sans biais ?
c. Que valent les probabilits dinclusion dordre 2 ?
4. Comparer un plan gnral de taille fixe n de mmes probabilits dinclusion. Quelles sont
les inconvnients dun plan de taille non-fixe ?

19
Rappels sur les plans probabilits ingales
I/ Intrt
Retenir de prfrence les units les plus porteuses dinformation afin daccrotre la prcision.

III/ Formulaire
Probabilit de slectionner lindividu k :
- Pour un plan probabilits proportionnelles une variable X de taille (corrle positivement Y)

kU, k =P(kS)=n X k
Xk kU

- Pour un plan de taille fixe, =n


kU
k

Paramtre
dintrt Moyenne Total
Statistique
Si la taille N est connue :

y = 1 Yk = ty

N ks k N
ty = Yk
k
Estimateur
dHorvitz-Thompson
Sinon, estimateur de Hjek : ks
du paramtre dintrt
Y k N = 1
(-estimateur)

En particulier :
k
=t

= 1 Y =
k ks
yH k ks y

N 1 N
ks k
ks k

Cas gnral Cas gnral :


Var( y )= 1 Yk Yl kl Var( ty )= Yk Yl kl
Vraie variance
N kU lU k l kU lU k l
dchantillonnage de Si la taille de lchantillon est fixe
cet estimateur Si la taille de lchantillon est fixe

Var( y )= 1 Yk Yl kl
2N kU lU k l
( )
2
Var( ty )= 1 Yk Yl kl
2 kU lU k l
( )
2

Cas gnral Cas gnral

Var1( y )= 1 Yk Yl kl Var1( ty )= Yk Yl kl
Estimateur N ks ls k l kl ks ls k l kl
de la variance
dchantillonnage Si la taille de lchantillon est fixe Si la taille de lchantillon est fixe

Var2( y )= 1 Yk Yl kl (
2N ks ls k l kl
)
2
Var2( ty )= 1 Yk Yl kl (
2 ks ls k l kl
)
2

Si n est grand, lintervalle de confiance pour la moyenne au niveau de confiance 1- est :

IC1 ( y)= y u12 Var( y ); y +u12 Var( y )



o u12 dsigne le fractile dordre 1- /2 de la loi N(0,1)

20
IV. TP1 : SIMULATIONS DE TIRAGE DCHANTILLONS

Objectifs de la sance
Utiliser diffrents algorithmes de tirages dchantillons pour des plans simples sans remise et
des plans probabilits ingales ;
valuer le paramtre dintrt et la prcision de cette estimation ;
Valider de manire empirique certaines proprits de la thorie des sondages ;
Comparer les mthodes dchantillonnage.

Donnes utilises
La population tudie est celle des 771 communes rurales dle-de-France recenses en 1999. On
cherche estimer le nombre total dhabitants rsidant dans ces communes ainsi que le nombre
moyen dhabitants par commune. Les donnes datent des recensements de 1999 et de 1990.

Partie I : Tirage dun chantillon


On cherche chantillonner 100 communes en raisonnant successivement probabilits gales puis
probabilits ingales, proportionnellement la population recense en 1990. Slectionner un tel
chantillon en utilisant les diffrents algorithmes suivants :
1) Tirage de Bernoulli ;
2) Mthode du tri alatoire ;
3) Mthode de slection-rejet ;
4) Tirage de Poisson ;
5) Tirage systmatique ;
6) Algorithme de Sunter.

Partie II : Simulations
1) On choisit dabord dchantillonner les communes selon un plan simple sans remise.
a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre
dintrt ainsi que la variance dchantillonnage.
b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne.
c. Tracer la distribution de lestimateur de la moyenne et commenter.
d. Vrifier empiriquement labsence de biais de lestimateur de la variance dchantillonnage.
2) On choisit maintenant de slectionner les communes proportionnellement leur taille,
mesure en nombre dhabitants recenss en 1990.
a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre
dintrt.
b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne.
c. Tracer la distribution de lestimateur de la moyenne.
3) Comparer les deux plans de sondage.

Le choix du logiciel est libre. A toutes fins utiles, la suite de lnonc propose deux modes demploi :
- lun sous Excel (des macros pr-programmes sont mises disposition),
- lautre sous SAS qui appelle aux procdures SURVEYSELECT et SURVEYMEANS.

21
Mode d'emploi sous Excel

La base de sondage et le catalogue de macros

TP1.xls

Entre
La base de sondage est dcrite dans l'onglet BS . Par commodit, le contenu de cette base se
limite l'identifiant, la variable d'intrt, voire la variable auxiliaire utile au calcul de probabilits
ingales proportionnelles.

Paramtres
L'utilisateur spcifi le nombre d'chantillons tirer ainsi que leur taille dans l'onglet Paramtres
prvu cet effet.
Dans le cas de simulations, un paramtre supplmentaire permet galement de spcifier si les tirages
systmatiques sont probabilits gales ou ingales.

Algorithmes pr-programms
Les macros mises disposition permettent de slectionner un ou plusieurs chantillon(s) selon
diffrents algorithmes de tirage. Elles fournissent galement les estimations de total et de moyenne de
la variable d'intrt sur l'(les) chantillon(s) obtenu(s). Dans le cas de simulations, elles dressent aussi
le bilan de l'ensemble des tirages.
Les algorithmes pr-programms sont ceux-ci :
Mthode du tri alatoire pour un plan simple sans remise (macro Tri_alatoire) ;
Mthode de slection-rejet pour un ou plusieurs plan(s) simple(s) sans remise (macros
Slection_rejet et Simulations_SAS_SR) ;
Tirage de Bernouilli pour un plan probabilits gales et sans remise (macro Bernoulli) ;
Algorithme de Sunter pour un plan probabilits ingales, de taille fixe et sans remise (macro
Sunter) ;
Tirage systmatique pour un ou plusieurs plan(s) probabilits ingales, de taille fixe et sans
remise (macros Tirage_systmatique et Simulations_systmatique) ;
Tirage de Poisson pour un plan probabilits ingales, sans remise (macro Poisson).

Sorties
Les rsultats de chaque macro alimentent un onglet prcis. Avant lancement de chaque macro, il
convient donc de vrifier la prsence de la feuille vierge ad-hoc ainsi que labsence dun onglet portant
le nom rserv aux sorties. Plus prcisment, les onglets rservs par chaque mthode sont :
Nom de longlet Nom de longlet
Algorithme
en entre en sortie
Tri alatoire Feuil1 Ech.Tri_Alatoire
Systmatique Feuil2 Ech.Systmatique
Slection-Rejet Feuil3 Ech. Slection-Rejet
Sunter Feuil4 Ech.Sunter
Bernoulli Feuil5 Ech.Bernoulli
Poisson Feuil6 Ech. Poisson
Simulation de plans simples sans remise Feuil7 Simul_SAS_SR
Simulation de plans probabilits ingales Feuil8 Simul_Systmatique

22
Mise en uvre
1. A l'ouverture du fichier Excel, cliquer sur Activer les macros ;
2. Renseigner la feuille BS en indiquant l'identifiant de chaque unit de la base de sondage
en 1re colonne, la variable d'intrt en 2me colonne, voire la variable auxiliaire en 3me
colonne si le plan est probabilits ingales proportionnelles cette donne ;
3. Renseigner les paramtres souhaits dans la feuille Paramtres ;
4. Vrifier la disponibilit des onglets requis dans le classeur ;
5. Cliquer sur Outils, puis Macro suivi de Macros ;
6. Slectionner la mthode voulue, puis cliquer sur Excuter pour lancer la macro retenue ;
7. Consulter les rsultats dans la feuille correspondante la mthode choisie.

Remarques
1. Au 1er lancement, il est conseill de limiter le nombre de simulations afin de contrler le
temps d'excution des macros.
2. Pour modifier le contenu des macros,
a. Cliquer sur Modifier aprs Outils > Macro > Macros
b. Saisir le nouveau code.
NB : des commentaires permettent de comprendre le rle de chaque action.
3. Pour tracer un histogramme, une possibilit est d'utiliser l'utilitaire d'analyse d'Excel. Pour
cela, cliquer sur Outils, puis Macro Complmentaire. Cocher Utilitaire d'analyse et valider par
OK. Ensuite, cliquer sur Outils, puis Utilitaire d'analyse. Choisir histogramme dans le menu
droulant qui s'affiche et suivre les indications.

Mode d'emploi sous SAS

La base de sondage

tp1.sas7bdat

Les procdures SURVEYSELECT et SURVEYMEANS

Procdures SAS
d'chantillonnage.pdf

23
V. PLANS STRATIFIES

Exercice 1 Rappels de cours

Dans une population de taille N partitionne en H strates, on slectionne un chantillon de taille n


suivant un plan stratifi. Dans chaque strate h, on tire nh individus parmi Nh selon un sondage
alatoire simple sans remise de taille fixe.

Pralable : montrer la formule de dcomposition de la variance :

(Y Y ) = N (Y Y )
H H
1 1 1
N
2 2
2y = k h 2yh + h h
N k U N h =1 N h =1

1. Pour une variable dintrt Y, donner les estimateurs du total t Y et de la moyenne.

2. Montrer que ces deux estimateurs sont sans biais et calculer leur variance.

3. On considre lallocation proportionnelle de lchantillon : on dcide de tirer dans chaque


strate h un nombre dindividus nh tel que :
nh n n
= (en supposant que N h soit entier).
Nh N N

a. Comment scrivent alors les estimateurs du total et de la moyenne ?


b. Que vaut leur variance ?

c. Montrer alors, que si on suppose : 2y S y2 et 2yh S yh


2
pour tout h, lallocation
proportionnelle est toujours meilleure quun sondage alatoire simple.

4. Le point de vue envisag maintenant est celui dune allocation optimale afin de satisfaire un
H
souci de prcision. Sous la contrainte que nh =1
h = n,
a. Quelle est lallocation des nh qui minimise la variance de lestimateur du total ?
b. Que vaut alors la variance ?
c. Comment peut-on interprter le choix des allocations optimales ?

Exercice 2 Estimation du poids des lphants dun cirque


(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )

Un directeur de cirque possde 100 lphants classs en deux catgories : "mles" et "femelles". Le
directeur veut estimer le poids total de son troupeau, car il veut traverser un fleuve en bateau. Il a la
possibilit de faire peser seulement 10 lphants de son troupeau. Cependant, en 1998, ce mme
directeur a pu faire peser tous les lphants de son troupeau, et il a obtenu les rsultats suivants (en
tonnes) :
Effectif Moyenne Variance
Mles 60 6 4,00
Femelles 40 4 2,25

24
1. Calculer la variance dans la population de la variable "poids de l'lphant" en 1998.

2. Si, en 1998, le directeur avait procd un sondage alatoire simple sans remise de 10
lphants, quelle aurait t la variance de l'estimateur du poids total du troupeau ?

3. Si le directeur avait procd un sondage stratifi, avec SAS dans chaque strate, avec
allocation proportionnelle de 10 lphants, quelle aurait t la variance de l'estimateur du
poids total du troupeau ?

4. Si le directeur avait procd un sondage stratifi optimal, avec SAS dans chaque strate,
de 10 lphants, quels auraient t les effectifs de l'chantillon dans les strates, et quelle
aurait t la variance de l'estimateur du poids total du troupeau ?

Exercice 3 Lge du personnel

Une grande entreprise veut raliser une enqute auprs de son personnel qui comprend 10 000
personnes. Des tudes prliminaires ont montr :

- que les variables que lon cherche analyser dans lenqute sont trs contrastes selon les
catgories de personnel et quil y a donc intrt stratifier selon ces catgories. Pour
simplifier, on considrera quil y a 3 grandes catgories qui formeront les strates,

- que ces variables sont galement trs fortement lies lge des individus.

On va donc proposer des plans dchantillonnage comme si on voulait tudier lge des individus : si
une stratgie est meilleure que dautres pour estimer lge moyen, alors on a de bonnes raisons de
penser quelle le sera aussi pour les variables dintrt. Comme on connat lge des membres du
personnel, on peut raisonner en faisant les comparaisons exactes.

On dispose des renseignements suivants :

Catgorie Poids dans lensemble cart type


de personnel du personnel des ges
1 20% 18,0
2 30% 12,0
3 50% 3,6
Ensemble 100% 16,0


1. Soit Y lge moyen et Y lestimateur issu dun chantillon alatoire simple sans remise

probabilits gales de n = 100 individus. Quelle est lerreur type de Y ?

2. On dcide que lchantillon de 100 individus doit tre stratifi selon les catgories de
personnel. Quelle est la rpartition reprsentative ? Quelle est lerreur type de lestimateur
de Y qui en dcoule ? Comparer avec les rsultats de la question 1.

3. Quelle serait la rpartition optimale de lchantillon ? Quelle est lerreur type de lestimateur de
Y qui en dcoule ? Comparer avec les rsultats de la question 2.

Exercice 4 Estimation dune


proportion

Sur les 7500 employs dune entreprise, on souhaite connatre la proportion p dentre eux qui
possdent au moins un vhicule. Pour chaque individu de la base de sondage, on dispose de la
valeur de son revenu. On dcide alors de constituer trois strates dans la population : individus de
faibles revenus (strate 1), de revenus moyens (strate 2) et de revenus levs (strate 3).

25
On note :
- Nh la taille de la strate h,
- nh la taille de lchantillon dans la strate h,
- p h lestimateur de la proportion dindividus possdant au moins un vhicule dans la strate h.

On obtient le rsultat suivant :


h=1 h=2 h=3
Nh 3500 2000 2000
nh 500 300 200
ph 0,13 0,45 0,50

1. Quel estimateur p de p proposez-vous ? Que peut-on dire de son biais ?

2. Calculez la prcision de p , et donnez un intervalle de confiance 95% pour p.

3. Estimez-vous que le critre de stratification est adquat ?

Exercice 5 0ptimalit pour une diffrence


(daprs J-M. Grosbras, Mthodes statistiques des sondages, Economica, 1987)

Le but de lexercice est de montrer que si une stratgie est optimale pour estimer prcisment une
quantit dans lensemble dune population stratifie, elle peut ne plus ltre tout fait si lobjectif du
sondage est justement de comparer les strates entre elles. La bonne dfinition des objectifs
atteindre est donc essentielle au choix de la technique employer. Considrons une population de
taille N forme de deux strates, de taille N1 et N2 et intressons-nous la moyenne X dune variable

X. Les moyennes de X dans les strates 1 et 2 sont notes X 1 et X 2 et leurs estimateurs X 1 et X 2 .

On dispose dun budget C et on suppose que :

- le tirage effectu est un sondage alatoire simple sans remise de nh units parmi Nh dans la
strate h (h =1 ou 2),
- la fonction de cot scrit C1n1 + C2n2 o Ch dsigne le cot unitaire dans la strate h.

1. Si on cherche estimer prcisment la moyenne X ,



a. Donner lexpression de X , estimateur sans biais de X en fonction de X 1 et X 2 .

()
b. Calculer sa variance.
c. Quelle rpartition (n1, n2) de lchantillon donne une variance V X minimale ? Que

()
vaut alors V X ?

()
d. Application numrique : calculer n1, n2, n et V X avec :
N1 = 10 000 N2 = 20 000
S1 = 2 S2 = 1
C1 = 4 C2 = 9 C = 1 000

2. Si on avait appliqu une allocation proportionnelle, cest--dire : nh / Nh = n / N ,


a. Quaurait-on trouv pour n1, n2 et n ?

b. Que vaudrait alors V X ? ()


c. Avec les mmes donnes numriques, valuer la perte relative de prcision par
rapport lchantillon optimal.

26
3. En fait, on cherche valuer lcart entre les moyennes des deux groupes : X 1 X 2 .


a. Montrer que X 1 X 2 est un estimateur sans biais de X 1 X 2 .
b. Calculer sa variance.

c. ( )
Dterminer la rpartition (n1, n2) de lchantillon pour que V X 1 X 2 soit minimale,

toujours avec la mme contrainte de budget. (on pourra ventuellement utiliser, en les
adaptant, certains rsultats de la question 1).

()
d. Calculer dans ces conditions V X . Comparer ce rsultat avec celui de la 1re

question en crivant la diffrence des variances de ces deux estimateurs.


e. Reprendre lapplication numrique pour trouver les nouvelles valeurs de n1, n2, n,

()
V X et la perte relative de prcision par rapport lchantillon optimal.

Exercice 6 Choix des allocations


(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Cet exercice est une application du principe : " chaque objectif son chantillon". Une entreprise
comporte 400 excutants et 100 cadres. La direction de l'entreprise dsire valuer un indice de
satisfaction, assimilable une variable numrique positive Y, mesurable pour chaque individu partir
d'un ensemble de questions : elle dcide pour cela de faire raliser une enqute auprs de 100
personnes employes dans l'entreprise, l'aide d'un plan de sondage stratifi, avec un sondage
alatoire simple dans chaque strate. Le cot d'une interview est le mme dans les deux strates.

On pense a priori que la dispersion de la variable Y doit tre la mme au sein de chacun des deux
groupes. Comment rpartir l'chantillon entre les deux groupes, selon que l'on vise l'un des objectifs
suivants :
a. obtenir la meilleure prcision possible sur la valeur moyenne de l'indice de satisfaction dans
l'entreprise ;

b. obtenir la mme prcision sur la valeur moyenne de l'indice de satisfaction dans chacune des
deux catgories ;

c. obtenir la meilleure prcision possible sur la diffrence entre les valeurs moyennes de l'indice
de satisfaction dans les deux catgories.

Exercice 7 Estimation dune diffrence

On considre une population U de taille N partitionne en H strates notes U 1 KU h KU H , de tailles


respectives N 1 K N h K N H .On note Y1 KYh KYH les moyennes d'une variable d'intrt Y au sein
de chaque strate, et S 1 K S h K S H les dispersions.
2 2 2

H
Nh H
La moyenne de Y dans la population vaut bien sr : Y =
h =1 N
Yh = wh Yh .
h =1
On ralise un sondage stratifi, avec sondage alatoire simple sans remise dans chaque strate, de
H
taux de sondage f h = n h / N h . La taille de l'chantillon total est n = n
h =1
h .

27
L'objectif est de comparer une strate particulire U i la population totale : on veut estimer
Di = Yi Y

1. Donner l'expression de l'estimateur de Horvitz-Thompson de Di , not Di , ainsi que


l'expression de sa variance.

2. Pour une taille d'chantillon fixe n, trouver l'allocation optimale n1 K n h K n H , qui minimise la
$ . Comparer avec l'allocation optimale de Neyman.
variance de D i

28
Rappels sur les plans stratifis

I/ Dfinition
Partition de la population en sous-groupes appels strates selon un critre li au paramtre dintrt
puis tirage dautant dchantillons indpendants quil y a de strates.
U1 Uh UH

S1 Sh SH

Constituer des strates homognes en intra au regard de la variable dintrt permet de gagner en
prcision.

II/ Notations
1. Dans la population
H H
U =h=1U h et N =Nh
h=1

H H
Total : ty = t =N y
h=1
yh
h=1
h h

yh = 1 yk
H
y= ty = Nh yh
Moyenne:
N h=1 N avec
Nh kU h
H H
Variance : y2= 1 ( yk y )= Nh yh2 + Nh (yh y )= y2intra + y2inter = N 1S y2
N kU h=1 N h=1 N N

avec yh2 = 1
Nh k
(yk yh )
U h

2. Dans lchantillon
H H
S =h=1Sh et n=nh
h=1

yh= 1 yk
Moyenne dans Sh : nh kSh

Dispersion dans Sh :
nh1k
2= 1
Syh (
yk yh )
Sh

29
III/ Formulaire du sondage stratifi
Paramtre
dintrt Moyenne Proportion Total
Statistique
Estimateur du H H H H
paramtre y = Nh yh p = Nh ph ty =Ny =tyh=Nh yh
dintrt h=1 N h=1 N h=1 h=1

[] H H
[ ]
Var y =Var Nh yh=Var Nh yh [ ] []
Var[ty ]=Var Ny = NVar y
Vraie variance
h=1 N h=1 N
Si plan simple dans chaque strate

( )( )
Si plan simple dans chaque
dchantillonnage H
p (1 ph) strate :
Var[p ]= Nh 1 nh Nh h
2
de cet estimateur Si plan simple dans chaque strate :
[ ] ( )( ) h=1 N Nh Nh1 nh
Var[ty]=Nh21 nh Syh ( )
H
H S2 2
Var y = Nh 1 nh yh
2

h=1 N Nh nh h=1 Nh nh
Si plan simple dans chaque
Si plan simple dans chaque strate Si plan simple dans chaque strate

( )( )
Estimateur strate
p (1 ph)
[ ] ( )( ) ( )
2 H
ar y = Nh 1 nh S yh Var[p ]= Nh 1 nh h
H 2 2

Var[ty]=Nh21 nh yh
de la variance H
S2
V Nh nh1
dchantillonnage h=1 N Nh nh h=1 N
h=1 Nh nh

Intervalle au niveau de confiance 95% pour la moyenne :

() ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y

()
y Y
sous hypothse que n est grand N (0, 1)
Var ( y )

Choix des allocations

- Allocations proportionnelles : nh = Nh h{1,...H }


n N
NhSyh
- Allocations optimales de Neyman (sans contrainte de budget) : nh=n H
N S
l =1
l yl

NhSyh
- Allocations optimales sous contrainte budgtaires : nh=C H
Ch NlSyl Cl
l =1

30
VI. PLANS PAR GRAPPES

Exercice 1 Problmatique dun plan par grappes

Lobjet de cet exercice est de rappeler le formulaire tabli en cours et de revenir sur les notions deffet
de sondage et deffet de grappe.
Un sondage en grappes se pratique sur une population partitionne en groupes dindividus appels
grappes : il consiste slectionner certaines grappes, selon un plan quelconque, et retenir tous
les individus des grappes dsignes dans lchantillon final. Procder de la sorte permet de rduire
les cots denqute. On sintresse ici au cas particulier o m grappes sont choisies par sondage
alatoire simple sans remise parmi les M grappes de taille Ni dune population de taille N.
On cherche estimer le total t y et la moyenne y sur la population dun caractre dintrt Y.

1. Partie 1 : gnralits

1.1. Quelle est la probabilit pour quun individu appartienne lchantillon ?


1.2. Que pouvez-vous dire de la taille finale de lchantillon ? Mme question si toutes les
grappes sont de mme taille N0 .
1.3. Quels estimateurs sans biais ty et y proposez-vous ?
1.3.1. Quelle est la prcision de ces estimateurs ?
1.3.2. Montrez que dans le cas o les grappes sont de mme taille alors on obtient
2
Var(y )= M m y int er .
M 1 m
1.3.3. En dduire comment constituer les grappes pour obtenir des rsultats prcis.
1.4. Comment estimez-vous sans biais la prcision des estimateurs du total et de la moyenne ?
1.5. Dans le cas o N est inconnue, quel estimateur de y proposez-vous ? Cet estimateur est-il
sans biais ? Approcher son esprance et son erreur quadratique moyenne.

2. Partie 2 : effet de sondage

On souhaite caractriser la prcision de lchantillonnage par grappes par rapport au sondage


alatoire simple de mme taille dans le cas o les grappes sont deffectifs gaux N0.
Var(y )
2.1. Montrez que leffet de sondage dfini par Deff = vaut N0 o dsigne le
Varsas(y )

N (Y Y )
M
2
0 i
y2 inter
rapport de corrlation inter-grappes : = 2 i =1
=
M N0
y2
(Y Y )
2
k
i =1 k =1
2.2. En dduire quand le plan par grappes est plus prcis que le sondage alatoire simple.

3. Partie 3 : effet de grappe

On dfinit le coefficient de corrlation intra-grappes par :


M N0 N0

(Y
i =1 k =1 l =1,l k
k Y )(Yl Y )
= .
( N 0 1)( N 1) S Y2
Ce coefficient mesure leffet de grappe. Il se rapproche de 1 si lintrieur de chaque grappe, il
ny a pas de diffrence entre les individus ; au contraire, il est ngatif si les individus sont trs
disparates lintrieur de leurs grappes.

31
3.1. Montrez que leffet de grappe vaut :
2

= 1 N0 y int2 er 1
N0 1 y

n 1 2
3.2. En dduire que Deff = 1 + ( N 0 1) et que Var ( y ) = 1 S y [1 + ( N 0 1)] .
Nn

4. Partie 4 subsidiaire: estimation de leffet de sondage et de leffet de grappe

On cherche estimer leffet de sondage et leffet de grappe et donc estimer sans biais Varsas (y )
autrement dit la dispersion S y2 . Les grappes sont de mme taille.
4.1. Montrez que la dispersion empirique observe sur lchantillon s y2 = 1 (yk y) possde
n1kS
un biais sous un plan complexe de taille fixe et probabilits gales (comme ici avec des
grappes de mme taille) donn par :
[
E[s y2 ]= n y2 Var(y )
n1
]
Var(y )
( )
eff =
4.2. En dduire que lexpression D est justifie si n est assez grand.
n s y2
1
N n
Exercice 2 Nombre de signataires dune ptition
(Extrait de Cochran, Sampling Technics)

On a collect des signatures pour une ptition sur 676 feuilles. Sur chacune dentre elles, il y a la
place pour 42 signatures, mais beaucoup ne sont pas trs remplies. Le nombre de signatures par
feuille a t tudi sur un chantillon de 50 feuilles ( peu prs 7% de lensemble donc). A partir des
rsultats sont consigns dans le tableau cicontre, estimer le nombre total de signatures et donner un
intervalle de confiance pour ce nombre 95% et 80% .
Nombre Frquence
de signatures
42 23
41 4
36 1
32 1
29 1
27 2
23 1
19 1
16 2
15 2
14 1
11 1
10 1
9 1
7 1
6 3
5 2
4 1
3 1

32
Exercice 3 Slection dlots
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

Lobjectif est destimer le revenu moyen des mnages dans un arrondissement dune ville compose
de 60 lots de maisons (un lot est un pt de maison , de taille variable). Pour cela, on slectionne
3 lots par sondage alatoire simple sans remise et on interroge tous les mnages qui y rsident. On
sait en outre que 5 000 mnages rsident dans cet arrondissement. Le rsultat est donn dans le
tableau ci-dessous.

1. Estimez le revenu moyen et le revenu total des mnages de larrondissement par lestimateur
dHorvitz-Thompson.

2. Estimez sans biais la variance de lestimateur dHorvitz-Thompson de la moyenne.

3. Estimez le revenu moyen des mnages de larrondissement par le ratio de Hjek, et


comparez lestimation issue de 1. Le sens de variation tait-il prvisible ?

Numro de Nombre de mnages Revenu total des


llot dans llot mnages de llot
1 120 2100
2 100 2000
3 80 1500

Exercice 4 Emprunts bancaires

Une socit bancaire structure en 3 980 succursales gre 39 800 clients, raison de 10 clients par
agence. On choisit 40 succursales par sondage alatoire simple sans remise pour lesquelles on
compte le nombre de clients ayant obtenu un prt durant une priode donne.
40 40
On note t yi le nombre obtenu dans la succursale i et on observe : t
i =1
yi =185 et t
i =1
2
yi =1263 .
1. Estimer le nombre total de clients de la banque qui ont obtenu un prt durant la priode de
rfrence ainsi que leur proportion dans lensemble de la clientle. On notera ces estimateurs
ty et p .
2. Calculer la variance des estimateurs ty et p .

3. Estimer ces variances et fournir un intervalle de confiance approch 95% pour chacune des
quantits estimes.

4. Calculer leffet de sondage dfini comme le ratio mesurant la perte de variance estime par
rapport un sondage alatoire simple sans remise de mme taille (indication : on
commencera par estimer la dispersion S y2 ). On pourra commenter le rsultat en comparant
les amplitudes des intervalles de confiance 95% obtenus pour la proportion dintrt entre
les deux plans de sondage.

5. Calculer le coefficient de corrlation intra-grappe.

Exercice 5 Influence de la taille et du nombre de grappes chantillonnes


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

Un statisticien souhaite raliser une enqute sur la qualit des soins assurs dans les services de
cardiologie des hpitaux. Pour cela, il tire par sondage alatoire simple 100 hpitaux parmi les 1 000
hpitaux rpertoris , puis, dans chacun des hpitaux tirs, il recueille lavis de tous les malades du
service de cardiologie.

1. Comment se nomme ce plan de sondage et quelle est sa raison dtre ?

33
2. On considre que chaque service de cardiologie comprend exactement 50 lits et que
lintervalle de confiance 95% sur la vraie proportion P de malades insatisfaits est : P [ 0,10
0,018], (cela signifie en particulier que, dans l chantillon, 10 % des malades sont
insatisfaits de la qualit des soins). Comment estimez-vous leffet de grappe (commencer par
estimer S y2 , dispersion du caractre dintrt sur toute la population) ?

3. Le statisticien se demande comment voluerait la prcision de son enqute de satisfaction si,


dun seul coup, il chantillonnait deux fois plus dhpitaux mais que dans chaque hpital tir, il
ne collectait ses donnes que sur la moiti du service de cardiologie (mettons que les
services soient systmatiquement partags par un couloir et que notre statisticien ne
sintresse exclusivement quaux 25 lits qui se situent droite du couloir) ?

4. Commentez ce rsultat par rapport ce que donnait le premier plan de sondage.

34
Rappels sur les plans par grappes

I/ Dfinition
Objectif principal : rduire les cots denqute et/ou de pallier le manque dune base de sondage.

Principe : partition de la population en sous-groupes appels grappes, puis tirage de grappes et enfin
recensement de toutes les units qui les composent.

U1 Ug UM

Rgle : constituer des grappes htrognes en intra au regard de la variable dintrt.

II/ Notations
1. Dans la population U constitue de M grappes et N individus
M M
U = g=1U g et N = N g
g =1

M M
t y =t yg = N g yg
g =1 g =1


M
y = t y = N g yg avec yg =
1 yk
N g =1 N N g kUg
M
SG2 = 1 t yg t y
M 1 g =1 M

2. Dans lchantillon S constitu de m grappes et ns individus

S = g Ug et ns = N g
SG gSG

35
III/ Formulaire du plan par grappe dans le cas dun plan simple de grappes

Paramtre
dintrt Total Moyenne
Statistique

y = 1 ty = M N g yg
Estimateur du
paramtre ty = M t yg N Nm gSG
dintrt m gSG

( ) []
Var y = 1 Var[ty]
Vraie variance
Var[ty ]= M 1 m 1 1 t yg t y
M 2
dchantillonnage
de cet estimateur M m M 1 g =1 M N

( ) []
Var y = 1 Var[ty ]
Estimateur 2

Var[ty ]=M 1 m 1 1 t yg t y

de la variance
dchantillonnage M m m1 gS G M N

Intervalle au niveau de confiance 95% pour la moyenne :

() () ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y

sous hypothse que la taille de lchantillon est assez grande.

36
VII. PLANS PLUSIEURS DEGRS

Exercice 1 Probabilits dinclusion et plans de sondage


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

On considre une population U = {1,2,3,4,5,6,7,8,9}, sur laquelle on dfinit le plan de sondage


suivant :

p({1,2}) = , p({1,3}) = , p({2,3}) =


1 1 1
6 6 6
p({4,5}) = , p({4,6}) = , p({5,6}) =
1 1 1
12 12 12
p({7,8}) = , p({7,9}) = , p({8,9}) =
1 1 1
12 12 12

1. Calculer les probabilits d'inclusion simple k .

2. Ce plan de sondage est-il simple, stratifi, en grappes, deux degrs, ou aucun de ces plans
particuliers?

Exercice 2 Rappels de cours

Considrons une population de taille N rpartie en M units primaires elles-mmes quadrilles en Ni


units secondaires. Le premier degr de tirage consiste extraire un chantillon dunits primaires
parmi lesquelles, dans un second degr de tirage, sont slectionnes des units secondaires. Les
individus des units secondaires dsignes composent lchantillon final. Par exemple, si les UP
quadrillent le territoire selon un dcoupage en communes, elles-mmes composes dUS dfinies
partir des lots (ou pts de maisons ), alors lenqute sera limite gographiquement aux
communes et lots slectionns.

Dans la suite, on considrera le cas o les UP sont choisies selon un sondage alatoire simple sans
remise de taille m et o les US sont tires dans les UP retenues au 1er degr selon un plan simple
sans remise de taille ni parmi Ni . On sintresse au total t y dun caractre dintrt Y .

1. Quelle est lexpression de ty estimateur sans biais de t y ?

2. Donner lexpression de la variance de ty et interprter les diffrents termes de ce calcul.

3. Comment estime-t-on cette variance ?

4. Que pouvez-vous dire de la taille finale de lchantillon ?

Exercice 3 Estimation dun effectif

Un camion transporte des vis sur 500 palettes, chacune d'elles contenant 40 botes de vis. L'industriel
rceptionnant ces palettes souhaite estimer le nombre moyen de vis par bote. Pour cela, il tire un
chantillon de 100 palettes, selon un sondage alatoire simple sans remise, puis il tire dans chacune
de ces 100 palettes un chantillon de 5 botes, selon un sondage alatoire simple sans remise
galement, et enfin il compte le nombre de vis dans les botes ainsi tires.

37
L'industriel, et nanmoins statisticien, calcule pour chaque palette i de son chantillon le nombre
moyen de vis par bote, et la dispersion du nombre de vis par bote (ces deux quantits sont calcules
partir des 5 botes chantillonnes dans la palette).

Il calcule ensuite les moyennes, sur les 100 palettes, de ces deux quantits :
moyenne du nombre moyen de vis par bote = 50
moyenne de la dispersion du nombre de vis par bote = 455.

Il calcule aussi la dispersion des 100 estimations du nombre de vis par palette et obtient 375 000.

1. Donner un estimateur sans biais du nombre moyen de vis par bote.

2. Donner la prcision de cet estimateur.

3. Donnez un intervalle de confiance 95% pour le nombre moyen de vis par bote.

Exercice 4 Nombre de caractres par enregistrement


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

Sur un disque dur de micro-ordinateur, on compte 400 fichiers, chacun comprenant exactement 50
enregistrements. Pour estimer le nombre moyen de caractres par enregistrement, on dcide de tirer
par sondage alatoire simple 80 fichiers, puis 5 enregistrements dans chaque fichier. On note m = 80
et n = 5 .

On mesure aprs tirage :


la dispersion des estimateurs du nombre total de caractres par fichier, soit s I = 905000 ,
2
-
la moyenne des m dispersions s i est gale 805 o s i reprsente la dispersion du nombre
2 2
-
de caractres par enregistrement dans le fichier i.

1. Comment estimez-vous le nombre moyen Y de caractres par enregistrement ?

2. Comment estimez-vous sans biais la prcision de lestimateur prcdent ?

3. Donnez un intervalle de confiance 95% pour Y .

Exercice 5 tude dimpact pralable au lancement dun produit financier

En vue de prparer le lancement dun nouveau produit financier, une socit bancaire ayant un
rseau de M succursales souhaite mener une tude approfondie auprs de particuliers possesseurs
de comptes chez elle . Les variables dintrt de lenqute ont trait aux caractristiques de la clientle
et ses motivations ventuelles. On cherche estimer la proportion p de personnes potentiellement
intresses par la nouvelle offre. Lenqute opre selon un plan 2 degrs : dans un premier temps,
on choisit m succursales pour participer lopration parmi lesquelles, au second temps, on dsigne
des chantillons de titulaires de comptes interroger. Le plan de sondage est le suivant :

- Au premier degr, on ralise un sondage alatoire simple sans remise de m = 10


succursales parmi M = 100. Le taux de sondage f1 vaut 0,10. La socit bancaire gre
N = 100 000 titulaires de compte.

- Au second degr de tirage, le taux de sondage f2 est uniforme 10%.

1. Donner un estimateur sans biais de p quon notera p .

38
2
M ST2 1 f 2 M Ni
2. Montrer que V ( p
) (1 f1) + pi (1 pi )
N m Nf1 f 2 i =1 N

2
M sT2 1 f 2 Ni
3. Montrer que V ( p
) (1 f1) + p i (1 p i )
N m Nf1 f 2 iS1 N

4. Application numrique : donner un intervalle de confiance 95% pour p avec les rsultats
Ni
denqute suivants : y =102 , s =1200 , N
kS
k 2
T
isI
p i (1 p i ) = 0,01

Exercice 6 Choix entre mthodes concurrentes

Une population de 1010 saucisses est partitionne en deux units primaires, de tailles respectives
1000 et 10. Pour estimer le nombre moyen de bouts de saucisses dans cette population, on emploie
le plan de sondage suivant :
on slectionne une UP selon un sondage alatoire simple,
on slectionne deux saucisses dans l'UP tire selon un sondage alatoire simple sans remise.

La premire UP est slectionne. On observe que chacune des deux saucisses tires dans l'UP
possde deux bouts.

Le statisticien A calcule le nombre moyen de bouts sur son chantillon de deux saucisses et trouve 2.
Il affirme que cette valeur est une estimation sans biais du nombre moyen de bouts dans la
population.

Le statisticien B propose comme estimation sans biais de ce nombre moyen de bouts la valeur :
1000
4 = 3.96
1010
Discuter les deux mthodes d'estimation, en prcisant les logiques qui les sous-tendent.

39
Rappels sur les plans deux degrs

I/ Dfinition
Objectif principal : rduire les cots denqute et/ou de pallier le manque dune base de sondage.

Principe : dans une population partitionne en sous-groupes appels units primaires, eux-mmes
composs dunits secondaires :
- au 1er degr, tirage dunits primaires
- au 2nd degr, tirage dunits secondaires dans les units primaires retenues au 1er degr
(indpendamment dune unit primaire lautre)

U1 Ui UM
S1
Si SM

Rgle : constituer des units primaires htrognes en intra au regard de la variable dintrt.

II/ Notations
1. Dans la population U constitue de M units primaires et N individus
M M
U =
i =1
Ui et N = Ni
i =1

M M
t y =t yi = Ni yi
i =1 i =1

yi = 1 yk
M
y = t y = Ni yi
N i =1 N avec
Ni kUi
M Ni
SI2 = 1 t yi t y et Si2 = 1 ( yk yi )
M 1 i =1 M Ni 1 k =1

2. Dans lchantillon S constitu de m units primaires et ns individus

S = USi et
ns =ni
iSUP iSi

sI2 = 1 tyi t y

( )
i

et si2 = 1 yk yi
m1iSUP M ni 1kSi

40
III/ Formulaire du plan deux degrs dans le cas dun plan simple des units primaires et
des units secondaires

Paramtre
dintrt Total Moyenne
Statistique

yk y = 1 ty = M N g y g
Estimateur du
paramtre ty = = M tyg = M Ni yk N Nm gSG
dintrt kS k m iSUP m iSUP ni kSi

( ) ( ) []
Var[ty ]=M 1 m SI + M Ni2 1 ni Si Var y = NVar[t y ]
Vraie variance
dchantillonnage 2 M 2 1
de cet estimateur M m m i =1 Ni ni

Var[ty ]=M(1 m )s + M N (1 n )s []
Var y = 1 Var[ty ]
Estimateur

2
I
2 i
2
i
de la variance i
dchantillonnage M m m iSUP N n i i N

Intervalle au niveau de confiance 95% pour la moyenne :

() () ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y

sous hypothse que la taille de lchantillon est assez grande

41
X. REDRESSEMENTS

Exercice 1 Post-stratification

Un institut de sondage est charg de mesurer laudience dun nouveau magazine. Il interroge pour
cela un chantillon de taille n selon un procd que lon assimilera un plan simple probabilits
gales et sans remise au sein de la population franaise des individus gs de 15 ans et plus. On
supposera de plus quil ny a pas de non-rponse. Pour satisfaire la demande de lditeur, les
rsultats sont ventils selon le critre habitant en zone urbaine ou habitant en zone rurale . Les
donnes recueillies se prsentent ainsi :
Habitant en zone rurale Habitant en zone urbaine Total
Lecteurs 64 476 540
Non lecteurs 576 884 1 460
Total 640 1 360 2 000

1. Estimez la proportion du lectorat du magazine dans lensemble de la population et proposez


un intervalle de confiance 95% de ce taux de lecture.
2. Sachant que la proportion relle dhabitants en zone urbaine vaut 75%, proposez un nouvel
estimateur de la proportion de lecteurs et donnez en un intervalle de confiance 95%. Quel
gain de prcision obtient-on ?

Exercice 2 Chiffre daffaires et effectif salari


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Dans une population de 10 000 entreprises, on veut estimer le chiffre daffaires moyen Y . Pour cela,
on chantillonne n=100 entreprises par sondage alatoire simple. On dispose par ailleurs de
linformation auxiliaire nombre de salaris note x par entreprise. Les donnes issues du sondage
sont :
- X =50 salaris (vraie moyenne sur les xk ),
- y =5.210 6 euros (chiffre daffaires moyen dans lchantillon),
- x =45 salaris (effectif moyen dans lchantillon),
- s y2 =251010 (dispersion corrige des yk calcule dans lchantillon),
- sx2 =15 (dispersion corrige des xk calcule dans lchantillon),
- =0.8 (coefficient de corrlation linaire entre x et y calcul dans lchantillon).

1. Que vaut lestimateur par le ratio ? Cet estimateur est-il biais ?


2. Rappelez la formule de variance vraie de cet estimateur.
3. Calculez une estimation de la variance vraie. Lestimateur de variance utilis est-il biais ?
4. Donnez un intervalle de confiance 95% pour Y .

Exercice 3 Estimation dune surface cultive


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

On considre une rgion agricole comprenant N = 2010 fermes o on cherche estimer la moyenne
de la surface cultive en crales (variable Y mesure en hectares). On possde linformation
auxiliaire sur la surface agricole totale cultive de chaque ferme. En particulier, on sait quil y a 1 580
fermes de moins de 160 hectares (post-strate 1) et 430 fermes dau moins 160 hectares (post-strate
2). On ralise un sondage alatoire simple de n = 100 exploitations et on obtient (avec les indices 1 et
2 pour les deux post-strates dfinies) : n1 =70 n2 =30 y1 =19,40 y2 =51,63 s 2y1 =312 s 2y2 =922 .

42
1. a. Quel est l'estimateur post-stratifi post ? Est-il diffrent de la moyenne simple?
b. Quelle est la loi de n1 ? Que valent son esprance et sa variance?
c. Calculer l'estimateur sans biais de la variance de post et donner un intervalle de
confiance 95% pour la surface moyenne cultive en crales.

2. On exploite dsormais la variable auxiliaire X mesurant la surface agricole totale cultive pour
construire un estimateur par le ratio. On connat la moyenne X =118,32 ha et on obtient sur
l'chantillon : x =132,25 sx2 =9173 s y2 =708 =0,57 o est lestimateur du vrai coefficient
de corrlation linaire inconnu .
a. Rappeler lexpression de .
b. Comment dfinissez-vous ? Sagit-il dune estimation sans biais de ?
c. Montrez que lestimateur par le ratio de Y apparat prfrable la moyenne simple si
C V(x)
et seulement si > 1 o les CV estiment les coefficients de variation.
2 C V(y)
Quobtient-on dans le cas prsent ?
d. Calculez lestimateur par le ratio yq de Y .
e. Estimez sa prcision et donnez un intervalle de confiance 95% pour Y .

Exercice 4 Taille des pieds


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

Le directeur dune entreprise de confection de chaussures veut estimer la longueur moyenne des
pieds droits des hommes adultes dune ville. Soient y le caractre longueur du pied droit (en
centimtre) et x la taille de lindividu (en centimtres). Le directeur sait en outre par les rsultats dun
recensement que la taille moyenne des hommes adultes de cette ville est de 168 cm. Pour estimer la
longueur des pieds, le directeur effectue un sondage alatoire simple sans remise de 100 hommes
adultes. Les rsultats sont les suivants : s y =2,sx =10,sxy =15, x =169, y =24 .Sachant que 400 000
hommes adultes vivent dans cette ville,
1. Calculez lestimateur dHorvitz-Thompson, lestimateur par le quotient, lestimateur par
diffrence et lestimateur par la rgression.
2. Estimez les variances de ces 4 estimateurs
3. Quel estimateur conseilleriez-vous au directeur ?
4. Exprimez la diffrence littrale entre la variance de lestimateur par le quotient et la variance
de lestimateur par la rgression en fonction de x , y et de la pente b de la droite de
rgression de y sur x dans lchantillon. Commentez.

Exercice 5 Comparaison destimateurs


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
On se propose destimer la moyenne Y dun caractre dintrt au moyen dun chantillon slectionn
selon un plan alatoire simple sans remise de taille 1 000 dans une population de taille 1 000 000. On
connat la moyenne X =15 dun caractre auxiliaire x et on donne, avec les notations usuelles,
y =10 ; x =14 ; s x2 = 25 ; s y2 = 20 et s xy = 15
1. Estimez Y au moyen des estimateurs dHorvitz-Thompson, par diffrence, par le quotient et
par la rgression. Estimez les variances de ces estimateurs.
2. Quel estimateur choisiriez-vous pour estimer Y ?

43
Rappels sur les redressements

I/ Intrt
Accrotre la prcision en tirant parti dinformation auxiliaire lie au caractre dintrt.

Selon la nature de linformation auxiliaire, techniques de post-stratification, destimation par diffrence,


par le ratio, par la rgression, par calage gnralis.

II/ Formulaire pour le total


En notant X linformation auxiliaire,

Vraie erreur quadratique moyenne de cet


Mthode Estimateur du total
estimateur

yk
( ) = N 1 Nn Sny
2
Estimateur ty = = N yk Var ty
kS k n kS
dHorvitz-Thompson

( D ) = N 1 Nn (S y + Snx 2Sxy )
2 2
Estimateur par la
diffrence tyD=ty +tx tx Var ty

n (S + R S 2RS )
2 2

Var t = N 1
y x xy
tx yQ
N n
Estimateur par le
tyQ=ty
ratio (ou le quotient) tx avec R=ty = Y
tx X
tyD=ty +b(tx tx ) 2
n Sy

Var tyQ = N 1 (1 ) avec = sxy
Estimateur par la
rgression avec sxy
b= N n sx sy
sx2
ty post =Nh yh = Nh yk Var(ty post )= N n NhSyh
H H H H
2 + N n N N Nh S 2
Estimateur post-
stratifi h=1 h=1 nh kSh n h=1 N 1 n
h=1 N yh

Estimateur par substitution de lerreur quadratique moyenne

Intervalle au niveau de confiance 95% pour la moyenne :

() ()
IC95% Y = y 1,96 Var y , y + 1,96 Var y

()
sous hypothse que la taille de lchantillon est assez grande.

44
IX. TP2 : CALAGE SUR MARGES

Cette sance utilise la macro SAS %CALMAR dveloppe par lInsee. Elle est disponible sur le site
insee.fr, accompagne de sa documentation.

Exercice 1

Un institut spcialis a ralis une enqute auprs des salaris d'une entreprise, qui compte 230
salaris rpartis sur deux tablissements A (70 salaris) et B (160 salaris). L'institut a effectu un
sondage alatoire simple dans chaque tablissement, de taux de sondage respectifs 1/10 (A) et 1/20
(B). Le but est destimer la proportion de salaris prts montariser une partie de leurs congs.

Pour chaque salari enqut, on dispose de :


son identifiant (variable ID), 3 caractres : le premier indique l'tablissement, les deux suivants
constituent un numro d'ordre dans l'tablissement ;
la variable SERVICE indiquant si le salari travaille dans un service productif (1) ou administratif
(2) ;
la variable CATEG qui indique la catgorie de personnel laquelle appartient le salari :
employs (1), ouvriers (2), autres (9) ;
la variable SEXE ;
la variable SALAIRE annuel brut ;
la variable Y indiquant si lemploy est intress par le paiement de jours de son compte-pargne
temps (oui = 1, non = 0).

Par ailleurs, la direction de l'entreprise a aimablement fourni les informations suivantes sur ses
salaris : l'entreprise compte 80 employs, 90 ouvriers, 140 hommes, 100 personnes travaillent dans
le secteur productif, et le salaire total annuel vaut 47 000.

On vous demande d'utiliser cette information auxiliaire, en ralisant diffrents calages :


par la mthode linaire ;
par la mthode raking ratio :
par la mthode logit LO=0.5 UP=2.2.

Comment estimez-vous le paramtre dintrt ?

Les donnes sont disponibles ci-joint au format SAS :

tp2_exercice1.sas7b
dat

45
Exercice 2
Exercice 2
Vous disposez dune base de sondage de 11 600 individus dcrits par la rgion, lge, le niveau
scolaire, la catgorie socio-professionnelle, etc. (cf. tableau ci-dessous).
Le but de lexercice est den slectionner un chantillon, puis de procder des estimations et des
redressements, en faisant comme si linformation dintrt avait t collecte sur lchantillon
seulement. Les variables dintrt mesurent limportance consacre aux activits sportives et
culturelles.
Ci-dessous le contenu de la base de donnes :
Nom Type Libell et modalits
IDENTIND C Identifiant
Tranche dge
1 : de 15 25 ans
2 : de 25 29 ans
3 : de 30 39 ans
TRAGE C
4 : de 40 49 ans
5 : de 50 64 ans
6 : de 65 69 ans
7 : plus de 70 ans
Niveau scolaire
NIVSCO2 C 1 : infrieur au baccalaurat
2 : suprieur au baccalaurat
Catgorie socio-professionnelle
1 : agriculteurs
2 : artisans, commerants, chefs dentreprises, professions librales
3 : cadres
CS C
4 : professions intermdiaires
5 : employs
6 : ouvriers
7 : retraits
REGION C Rgion
Zone demploi et damnagement du territoire
1 : Rgion parisienne
2 : Bassin parisien
3 : Nord
ZEAT C 4 : Est
5 : Ouest
6 : Sud-ouest
7 : Centre-est
8 : Mditerrane
CINEMA N Nombre de fois o lindividu est all au cinma au cours des 12 derniers mois
EXPO N Nombre dexpositions visites au cours des 12 derniers mois
SPORT N Nombre dheures de sport pratiques au cours de la dernire semaine
LECTURE N Nombre dheures de lecture au cours de la dernire semaine
TELE N Nombre dheures passes devant la tlvision au cours de la dernire semaine

Les donnes vous sont fournies au format SAS :

tp2_exercice2.sas7b
dat

46
1 / Donner la rpartition de la population par tranche dge et niveau scolaire.

2 / Slectionner un chantillon de taille 1 160 selon un sondage alatoire simple.


Pour rappel, la syntaxe de la procdure SURVEYSELECT de SAS est la suivante :
PROC SURVEYSELECT DATA = nom de la base de sondage lue en entre
STATS
METHOD = SRS pour un sondage alatoire simple sans remise
SEED = germe
SAMPSIZE = taille de lchantillon souhaite
OUT = nom de la table de sortie (lchantillon);
RUN;

3 / A partir de lchantillon, estimer la rpartition de la population par tranche dge et niveau scolaire.
valuer galement le nombre moyen dheure par semaine consacres la lecture, au sport, passes
devant la tlvision ainsi que le nombre moyen dexpositions visites en une anne et le nombre
moyen de sances de cinma en un an.

Pour rappel, la syntaxe de la procdure SURVEYMEANS de SAS est la suivante :


PROC SURVEYMEANS DATA = nom de la table-chantillon
N = Effectif de la population
MEAN STDERR CLM CV = Statistiques dites en sortie;
VAR listes de variable dintrt;
WEIGHT variable de pondration;
RUN;

4 / Caler lchantillon sur la vraie structure par tranche dge et niveau scolaire. Pourquoi ces
variables de calage sont-elles pertinentes ?

5/ R-estimer les grandeurs cites la question 3.

47
X. TP3 : CORRECTION DE LA NON-REPONSE

Le but de l tude de cas est de corriger la non-rponse (totale et partielle) pour une enqute conduite
auprs de 2 389 personnes interroges sur leur perception de leur tat de sant.
L'chantillon a t choisi par sondage alatoire simple sans remise dans une population de 2 millions
d'individus. Les informations disponibles sont les suivantes :
- l'identifiant de l'enqut (variable ident ),
- son poids de sondage initial ( poids ),
- son ge ( ge ),
- son sexe ( sexe ),
- son niveau de revenu ( revenu ),
- sa rgion d'habitat ( region ),
- son nombre de consultations chez un professionnel de la sant en un an ( visites ),
- sa consommation de tabac ( tabac ),
- sa perception de son tat de sant ( sante ),
- une indicatrice de la non-rponse totale ( nrt ),
- une indicatrice de la non-rponse partielle ( nrp ).
Les modalits des caractristiques qualitatives sont dfinies de la sorte :
Variable Modalits
Age 3-4 : Junior
5-6 : Jeune adulte
7-8 : Adulte
9-11: Senior
Sexe 1 : Homme
2 : Femme
Revenu 1-4 : Bas revenus
5-6 : Moyens revenus
7-8 : Bons revenus
9-11: Hauts revenus
Tabac 1 : Fume quotidiennement
2 : Ayant fum quotidiennement
3 : Fume occasionnellement
4 : Ayant fum occasionnellement
5 : Jamais fum
Sante 1-2 : Excellente
3 : Bonne
4-5 : Passable

La base de donnes est fournie au format SAS :

tp3.sas7bdat

1. Dresser un tat des lieux sur limportance des non-rponses.

2. Corriger la non-rponse totale. On commencera par dcrire le comportement de non-rponse


totale en fonction des caractristiques disponibles pour tous les individus.

3. Corriger la non-rponse partielle pour la variable dintrt en envisageant diverses mthodes


(imputation par la moyenne, imputation par la moyenne par classe, imputation par dduction,
imputation par hot-deck, imputation par hot-deck par classe, etc.).
XI. COMPLMENTS ET RVISIONS

Exercice 1 Algorithme de tirage bernoullien

On considre une population U de 1000 individus compose de trois sous-populations disjointes


U 1 ,U 2 ,U 3 de tailles respectives N1 = 600, N 2 = 300, N 3 = 100 . On va chantillonner dans cette
population au moyen de tirage bernoullien : cette mthode consiste choisir une probabilit
dinclusion commune , puis simuler sur la population une variable alatoire distribue selon une loi
uniforme sur [0,1[ et slectionner les individus pour lesquels la ralisation de cette variable est
infrieure .

1. On dcide dans un premier temps de tirer un chantillon dans U en utilisant le plan de


sondage suivant :
dans la sous-population U 1 , on ralise un tirage bernoullien, tel que chaque lment k a
la probabilit k = 0.1 d'tre slectionn,
dans la sous-population U 2 , on ralise un tirage bernoullien, tel que chaque lment k a
la probabilit k = 0.2 d'tre slectionn,
dans la sous-population U 3 , on ralise un tirage bernoullien, tel que chaque lment k a
la probabilit k = 0.8 d'tre slectionn,
l'chantillon complet est constitu de la runion des trois sous-chantillons ainsi obtenus.

Calculer l'esprance et la variance de la taille ns de l'chantillon.

2. On ralise maintenant un tirage bernoullien directement dans U, tel que chaque lment a la
probabilit d'tre slectionn.
a. Dterminer pour que l'esprance de la taille de l'chantillon, sous ce plan de
sondage, soit gale l'esprance de la taille de l'chantillon calcule la question
prcdente.
b. Calculer alors la variance de la taille de l'chantillon, et comparer cette variance
celle de la question prcdente.

Exercice 2 Tendance linaire et tirage systmatique


(daprs J-M. Grosbras, Mthodes statistiques des sondages, Economica, 1987)

On considre une population de taille N avec N = n k o n est la taille souhaite de lchantillon et k


un nombre entier. On suppose que pour tout individu k de la population, on a Yk= k pour k = 1 N.

1. On note respectivement Y et S Y2 la moyenne et la dispersion du caractre dintrt sur la


N +1 N ( N + 1)
population. Vrifier que Y = et S Y =
2
.
2 12
2. On ralise un sondage alatoire simple sans remise de taille n.
a. Quel est lestimateur classiqueY de la moyenne ?
b. Montrer que sa variance vaut : V Y =()
(k 1)( N + 1) .
12

49
3. On ralise prsent un tirage systmatique de taille n : on tire un nombre a au hasard entre 1
et k et on forme un chantillon de taille voulue avec les units a, a + k, a + 2k, , a + (n-1)k.

Soit Ysys la moyenne des units slectionnes dans lchantillon.

( )
Montrer que : E Ysys = Y et que ( )
V Ysys =
k 2 1
12
4. Comparer V (Y ) V (Y )
et sys et commenter

Exercice 3 Algorithme du tri alatoire

On veut estimer le poids moyen de 10 lphants dun cirque. Pour cela, on ralise un sondage
alatoire simple sans remise de taille 5 laide dun tri alatoire. On simule donc une variable
alatoire uniforme U ~ U[0,1] sur la population des lphants, puis on trie les ralisations obtenues
par ordre croissant (ou dcroissant) et on retient lchantillon correspondant aux 5 plus grandes
valeurs (ou plus petites). La simulation a t effectue partir de la fonction ALEA() sous Excel et a
donn les ralisations ci-dessous :
N de l'lphant Valeur gnre
1 0,84
2 0,12
3 0,36
4 0,60
5 0,68
6 0,11
7 0,87
8 0,44
9 0,21
10 0,77
1. Quel est lchantillon tir ?
2. On pse les lphants retenus et on obtient en tonnes les poids respectifs suivants : 3,65 ;
3,17 ; 4,18 ; 3,55 et 4,26.
3. Donnez un estimateur du poids moyen des lphants puis un intervalle de confiance 95% de
ce poids moyen.
4. Finalement, on ralise une pese exhaustive des lphants. On obtient un poids moyen de
3,45 tonnes. Que dire de lintervalle de confiance prcdent ? Do peut venir le problme ?

Exercice 4 Algorithme de slection-rejet

La mthode de slection-rejet permet dobtenir un chantillon de taille n en une seule lecture du


fichier. Lalgorithme est le suivant :
On initialise 0 les compteurs k et j renseignant respectivement le nombre dunits du fichier
dj examines et le nombre dunits dj slectionnes dans lchantillon. On se
positionne sur le premier individu du fichier.
Tant que j est strictement infrieur la taille dchantillon voulue, on a gnr un nombre
alatoire u selon une loi uniforme sur [0,1[ pour lindividu de rang k+1 sur lequel on est
positionn et on dcide :
n j
- Si on obtient u< , alors on slectionne lunit de rang k+1 . On incrmente donc
N k
j dune unit, puis on passe lindividu suivant en incrmentant k.
- Sinon, lunit k+1 nest pas tire et on passe lindividu suivant en incrmentant k.

50
1. Montrer que le plan est de taille fixe n et quil suffit effectivement donc dau plus N oprations
pour slectionner ces n units
2. Montrer que le plan est simple. En dduire que les probabilits dinclusion individuelles sont
n
bien gales : k = , k U .
N
3. Application : slectionner un chantillon de taille 4 dans une population de taille 10 selon cette
mthode en utilisant les ralisations suivantes dune variable alatoire U uniforme sur [0,1[ :

Individu
1 2 3 4 5 6 7 8 9 10
k
uk 0,375 0,620 0,518 0,0454 0,633 0,246 0,927 0,326 0,646 0,178

Exercice 5 Non-rponse dans les enqutes par quotas


(A-M. Dussaix, J-M. Grosbras, 1992, Exercices de sondage, Economica)

Lobjet de cet exercice est de montrer lexistence de biais pouvant dcouler de non-rponses dans les
enqutes par quotas. On considre une enqute o sont imposs des quotas relatifs une variable
qualitative donne. Pour fixer les ides, on supposera, par exemple, quil y a dans la population, H
variables dge ou de poids en proportion Nh/N pour h = 1 H. On demande aux enquteurs de
complter un chantillon reprsentatif, cest--dire tel que nh/n = Nh/N. A la fin de lenqute, la
moyenne Y de la variable dintrt est estime par la moyenne simple sur lchantillon y , ce qui peut
encore scrire :
H
n H
N 1
y = h y h = h y h o y h = y k .
h =1 n h =1 N nh kS h

Pour tudier linfluence de la non-rponse, on fait lhypothse quil existe dans la population un
partage en 2 catgories :

La 1re est celle des personnes accessibles et rpondant volontiers lenqute caractrise
par les effectifs N 1 et N h1 dans les tranches dge h, et les moyennes Y1 et Yh1 .

La 2me est celle des personnes inaccessibles ou refusant de rpondre


lenqute caractrise par les effectifs N 0 et N h 0 dans les tranches dge h, et les moyennes
Y0 et Yh 0 .

Naturellement, les quantits N 1 , N h1 , N 0 , N h 0 , Y1 , Yh1 , Y0 et Yh 0 sont inconnues.

1. Si on fait lhypothse que les nh rponses constituent un chantillon dun plan alatoire simple
sans remise prlev dans un ensemble deffectif N h1 , montrer que y est un estimateur biais
pour Y . On crira lexpression du biais en fonction de N , N h 0 et h = Yh1 Yh 0 .

2. Commentez brivement cette expression. Construire un exemple numrique illustrant une


situation o le biais est lev (on prendra H = 3).

Exercice 6 Nombre de titulaires de comptes CODEVI interroger


(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Une banque dsire tudier par sondage (interviews par enquteur) les caractristiques socio-
dmographiques (ge, catgorie sociale,) et les comportements financiers des titulaires de comptes
CODEVI. Leur rpartition en fonction des montants moyens annuels des comptes est la suivante :

51
Solde moyen annuel Nombre de comptes
De 0 100 15 000
De 100 900 15 000
Plus de 900 30 000
Ensemble 60 000

Pour chacun des trois groupes, on veut tudier la rpartition des titulaires par classe dge, catgorie
sociale, etc. Par exemple, on sintresse la proportion de titulaires ayant entre 25 et 35 ans. Quelle
taille dchantillon doit-on prvoir dans chaque strate sil sagit de dterminer les diffrentes
proportions avec une prcision de 2,5% au niveau de confiance 95% ?

Exercice 7 Tirage des UP avec remise Taille de mnages


(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

Pour estimer le nombre moyen Y de personnes par mnage dans un pays donn, on ralise un tirage
2 degrs :
1er degr : tirage alatoire avec remise de m = 4 villages parmi M = 400 proportionnellement
leur taille. La taille dun village est le nombre de mnages quil contient. Ainsi, chacun des
4 tirages indpendants, un village est slectionn avec une probabilit proportionnelle sa
taille.
2me degr : tirage alatoire simple de ni mnages parmi les Ni si le village i est tir.

Le nombre total de mnages dans le pays est N = 10 000. Les donnes sont reprsentes dans le
tableau ci-dessous ; Yi est le nombre moyen de personnes par mnage dans le village i daprs
lchantillon.
i 1 2 3 4
Ni 20 23 25 18
Yi 5.25 5.50 4.50 5

1. a. Quelle est la probabilit de tirage pi de chacun des 4 villages slectionns ? (on appelle
probabilit de tirage la probabilit qua le village dtre choisi lors de chacun des 4 tirages
indpendants raliss successivement dans les mmes conditions).
b. Calculer Pr(iS) en fonction de (1- pi). En dduire la probabilit dinclusion i =Pr(iS) en
fonction de pi . Examiner le cas o pi est petit.

2. Quelle est lexpression de Y (vraie valeur) et quel est son estimateur sans biais ?
3. Estimer la variance de cet estimateur. Quel intrt a-t-on utiliser un tirage avec remise au 1er
degr ?

Exercice 8 Raking-ratio
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

On sintresse la population des 10 000 tudiants inscrits en 1re anne dans une universit. On
connat le nombre total dtudiants dont les parents ont un diplme dtudes primaires, secondaires et
suprieures (respectivement 5000, 3000 et 2000). On effectue un sondage selon un plan alatoire
simple sans remise de 150 tudiants. On ventile ces 150 tudiants selon le diplme des parents et
leurs rsultats (chec ou russite) lexamen de 1re anne et on obtient le rsultat ci-dessous :
Niveau dtudes chec Russite
Primaire 45 15
Secondaire 25 25
Suprieure 10 30

52
1. Estimez le taux de russite des tudiants en utilisant lestimateur de Horvitz-Thompson et
donnez un estimateur de variance et un intervalle de confiance 95% de ce taux.
2. Expliquez pourquoi il est a priori intressant deffectuer un redressement, et pourquoi le
redressement doit diminuer la valeur de lestimation issue de 1.
3. Estimez le taux de russite des tudiants par lestimateur post-stratifi et donnez un
estimateur de variance et un intervalle de confiance 95% de ce taux.
4. Estimez le taux de russite par niveau dtudes des parents en utilisant une technique de
raking-ratio et sachant que dans la population totale tudiante, le taux de russite est en
ralit de 40%.

Exercice 9 Cas pratique dans une pisciculture


Un leveur de poissons souhaite connatre le poids moyen de ses poissons. Il dispose de 3 bassins
selon lge des animaux : n1 pour ceux de petite taille , n2 de taille moyenne et n3 de
grande taille . Le nombre total de poissons par bassin est respectivement de 1000, 900 et 950.
Notre pisciculteur appelle un statisticien sa rescousse pour estimer le poids moyen des poissons.
Arm de son puisette, le statisticien attrape 20 poissons dans le bassin n1, 15 dans le n2 et 10
dans le n3. Ensuite, il calcule le poids moyen sur les 3 chantillons relatifs aux 3 bassins. Il trouve :
0.152 Kilo pour le bassin N1, 0.255 Kilo pour le n2 et 0.305 Kilo pour le n3. Il calcule galement la
dispersion corrige des poids des poissons sur les 3 chantillons et trouve respectivement: (0.05)
Kilo, (0.02) Kilo et (0.01) Kilo pour les bassins N1, 2 et 3.
On admettra que le mode de tirage des chantillons de poissons dans chacun des trois bassins est
assimilable un sondage alatoire simple de taille fixe.
1)
a) Proposer un estimateur sans biais du poids moyen des poissons relativement un bassin.
b) Donner les 3 estimations des poids moyens relatifs aux 3 bassins puis les 3 intervalles de
confiance 95% correspondants.
c) Pour estimer le poids moyen relatif lensemble des 3 bassins, le statisticien a mis en uvre
lestimateur stratifi. Aprs avoir rappel la forme gnrale de cet estimateur et prcis les
strates adoptes par le statisticien, donner lestimation recherche et lintervalle de confiance
95% correspondant.
2)
a) Est-ce que lallocation dfinie par le statisticien correspond lallocation proportionnelle?
b) Compte tenu des mesures effectues sur les chantillons, expliquer (qualitativement)
pourquoi lallocation du statisticien semble tre lgitime.
c) A partir des rsultats obtenus sur les trois chantillons, calculer lallocation de Neyman pour
une taille totale de lchantillon de poissons de 45.
3) Le pisciculteur propose destimer le poids moyen des poissons sur lensemble des 3 bassins en
faisant la moyenne arithmtique des poids des poissons sur lensemble des 3 chantillons.
a) Calculer lestimation fournie par le pisciculteur.
b) Montrer que cet estimateur est en ralit biais (on exprimera ce biais thorique en fonction
des vrais poids moyens des poissons relatifs aux bassins, des vrais effectifs de poissons et
des tailles des chantillons de poissons relatifs aux bassins).
c) Donner une estimation de ce biais.
4) Le statisticien apprend par hasard, en discutant avec lun des employs, quun contrle de la taille
des poissons a t ralis rcemment. Ce contrle a t effectu dans chacun des bassins et de
faon quasi-exhaustive. Il rvle que la taille moyenne des poissons par bassin est de : 25 cm pour le
bassin n1, 40 cm pour n2 et 50 cm pour le n3.
a) Expliquer pourquoi la connaissance de cette nouvelle information est intressante par rapport
au phnomne tudi.
b) A partir de cette nouvelle information, proposer un nouvel estimateur du poids moyen des
poissons pour un bassin fix . Donner les 3 nouvelles estimations du poids moyen relatives
chacun des bassins. On donne pour cela les tailles moyennes des poissons mesures sur les
chantillons : 23 cm (bassin n1), 42 cm (n2), 51 cm (n3).
c) Proposer une nouvelle estimation du poids moyen pour lensemble des 3 bassins.

53

S-ar putea să vă placă și