NovTechEchantRedressement Chapitre3

Nouvelles techniques d'échantillonnage et
de redressement
Mohammed El Haj Tirari
Institut National de Statistique et d'Economie Appliquée
2019-2020
Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par la régression généralisée
Estimateur par calage
Techniques de redressement

Principe et propriétés de l'estimateur GREG
Introduction
On suppose qu'on dispose des informations suivantes sur J variables
auxiliaires X1 , . . . , Xj , . . . , XJ :
Pour tout k ∈ s, on dispose de
0
xk = (x1k . . . xjk . . . xJk )
où xjk est la valeur de la variable Xj pour l'individu k.

On dispose également des totaux
X 0
tx = xk = tX1 . . . tXj . . . tXJ
k∈U
où tXj = xjk .
P
k∈U
Objectif
Mettre à prot ces informations auxiliaires pour améliorer l'estimation de
ty .

Introduction
Supposons que la relation entre la variable d'intérêt Y et la variables

auxiliaires X1 , . . . , Xj , . . . , XJ peut être dénie par le modèle m :
0
yk = x k β + ε k
avec Em (εk ) = 0, Vm (εk ) = σk2 et pour k 6= l, Em (εk εl ) = 0.

β est un vecteur de paramètres inconnus.
Sous cette hypothèse, on a
X X 0
X 0 X
ty = yk = xk β + εk = xk β + εk
k∈U k∈U k∈U k∈U

Introduction
Si β est connu, un estimateur de ty peut être donné par :
X 0 X εk
ty =
b xk β +
πk
k∈U k∈S
Ce qui peut s'écrire

!0
X yk X X xk
ty
b = + xk − β
πk πk
k∈s k∈U k∈s
0
tyπ + tx − b
= b txπ β
En général β est inconnu, il faut donc l'estimer
=⇒ Méthode des moindres carrés généralisés

Estimation des coecients de la régression

Méthode des moindres carrés généralisés
0 0
Notons β = (β1 , . . . , βj , . . . , βJ ) et xk = (x1k , . . . , xjk , . . . , xJk )
on a
 2
J 2
X X X 0
Q= ck yk − βj xjk  = ck yk − xk β
k∈U j=1 k∈U
Ainsi
∂Q X 0

= 0 ⇐⇒ − 2ck xk yk − xk β = 0
∂β
k∈U
!−1
X 0 X 0
⇐⇒ β= ck xk xk ck xk yk
k∈U k∈U

Expression et propriétés de l'estimateur GREG
L'estimateur par la régression généralisée (GREG) est donné par

X 0 X εbk
tygreg =
b xk β
b+
πk
k∈U k∈S
où εbk = yk − xk β
b et
0
0
!−1 0
X x xk X xk yk
β
b= ck k ck
πk πk
k∈S k∈S

Expression et propriétés de l'estimateur GREG

L'estimateur GREG peut s'écrire sous plusieurs formes dont :
1
0
b tyπ + tx − b
tygreg = b txπ β b
où X xk
txπ =
b
πk
k∈S
2
X gk yk
tygreg =
b
πk
k∈S
où !−1
0 0
X x xk 0
gk = 1 + tx − b
txπ ck k ck xk
πk
k∈S

Remarques
L'estimateur GREG est approximativement sans biais par rapport au

plan de sondage, c'est-à-dire Ep btygreg ≈ ty .
Le rôle du modèle m est de justier la forme de l'estimateur GREG
(approche model-assisted).
L'estimateur GREG est approximativement sans biais même dans le
cas où le modèle m n'ajuste pas les données adéquatement.
Cependant, dans ce cas, la variance de l'estimateur GREG sera
probablement élevée.
L'estimateur GREG est calé sur le total tx :
txgreg = tx
b

Remarques
Si, pour tout k ∈ U ,

J
0
βj xjk = β xk alors β
b = β et b
X
yk = tygreg = ty
j=1
,→ l'estimateur tygreg
b fournit une bonne estimation de ty quand les
variables auxiliaires X1 , . . . , XJ sont fortement très corrélées à la
variable d'intérêt Y.
Cependant btygreg a l'inconvénient suivant :
si la variable d'intérêt Y est telle que var btyπ = 0 alors

var btygreg n'est pas nécessairement nulle.

Approximation et estimation de la variance de btygreg

Une approximation de la variance de btygreg peut être obtenue en
considérant la variance de
0
e tyπ + tx − b
tygreg = b txπ b
où !−1
X 0 X
b= ck xk xk ck xk yk
k∈U k∈U
Pour lequel on a
0 0
XX (yk − xk b) (yl − xl b)
var t̃ygreg = (πkl − πk πl )
πk πl
k∈U l∈U

Approximation et estimation de la variance de btygreg
Puisque
tygreg ≈ var t̃ygreg
var b
un estimateur de la variance de btygreg peut être donné par
X X πkl − πk πl (yk − x0 β)
b (yl − x0 β)
b
k l

vd
ar b
tygreg =
πkl πk πl
k∈S l∈S
où !−1
0
X xk xk X xk yk
β
b= ck ck
πk πk
k∈S k∈S

Principe et propriétés
Techniques de redressement

Introduction
On dispose d'un échantillon s tiré selon un certain plan de sondage p.
Si on s'intéresse au total ty d'une variable y , on dispose d'un estimateur

sans biais : l'estimateur de Horvitz-Thompson
X yk
tyπ =
b
πk
k∈s
où πk est la probabilité pour l'unité k d'appartenir à l'échantillon.

Introduction
L'estimateur de Horvitz-Thompson btyπ peut être vu comme un

estimateur pondéré
X 1
tyπ =
b dk yk avec dk =
πk
k∈s
L'individu k de l'échantillon "représente" 1

πk individus de la population.

On dit que l'on redresse l'échantillon s lorsque l'on modie le système de

pondérations associé à s an de respecter un certain nombre
d'informations auxiliaires.
On parle d'information auxiliaire lorsque l'on dispose d'une information

connue sur l'ensemble de la population.
Quelques exemples d'informations auxiliaires :

Répartition par sexe et par âge d'une population d'individus
Total des chires d'aaires des entreprises d'un secteur d'activité

On suppose que l'on dispose de J variables auxiliaires

X1 , . . . , Xj , . . . , XJ dont on connaît les informations suivantes :
les vecteurs 0
xk = (x1k . . . xjk . . . xJk )
pour tout k ∈ s, où xjk est la valeur de la variable Xj pour
l'individu k.
les totaux dans la population de ces variables
!0
X X X X
tx = xk = x1k . . . xjk . . . xJk
k∈U k∈U k∈U k∈U
Pour une variable catégorielle, cela veut dire que l'on connaît les
eectifs dans chacune des modalités (à chaque modalité correspond
une variable auxiliaire)

Avant calage, on a pour toute variable y l'estimateur sans biais du total :

X
tyπ =
b dk yk
k∈s
E(b
tyπ ) = ty
Et en particulier pour les variables de calage :
E(b
txπ ) = tx

On cherche de nouveaux poids wk vériant les propriétés suivantes :

Ils sont proches des poids de départ dk
Ils vérient les équations de calage
X X
wk xk = xk
k∈s k∈U

Plus formellement, on résoud le problème suivant :

X wk X X
M inwk dk G s.c. wk xk = xk
dk
k∈s k∈s k∈U
où G désigne une fonction de distance positive et convexe telle que

G(1) = 0.

On cherche à réduire la variance de l'estimation à l'aide du calage sur

les totaux connus. La variance est nulle pour les variables auxiliaires ; elle
sera faible pour les variables d'intérêt corrélées aux variables auxiliaires.
Pour respecter les totaux de variables auxiliaires, on accepte de biaiser

légèrement l'estimation. Ce biais est négligeable car on assure que les
poids calés restent proches des poids d'origine.

La solution de ce problème de minimisation est obtenue en introduisant

un vecteur de multiplicateur de Lagrange λ où le Lagrangien vaut :
!
X wk 0 X X
L= dk G −λ wk xk − xk
dk
k∈s k∈s k∈U
,→ On trouve donc 0
wk = dk F xk λ
où F est la fonction réciproque de la dérivée de la fonction distance

positive G


∂L 1 0 wk 0
= 0 ⇐⇒ dk G − λ xk = 0
∂wk dk dk

0 wk 0
⇐⇒ G = λ xk
dk

0 wk 0
⇐⇒ F G = F xk λ
dk
0
⇐⇒ wk = dk F x λ


Le vecteur λ est obtenu par la résolution du système
X 0 X
dk F xk λ xk = xk
k∈s k∈U
qui peut se faire en utilisant la méthode itérative de Newton :

Une suite de valeurs λ(i) est calculée en initialisant l'algorithme à
λ(0) = 0.
La convergence est obtenue lorsque :

w(i+1) (i)
wk
k
M ax − <ε
dk dk


Les fonctions du distance G usuelles
1 fonction linéaire
(x − 1)2
G(x) = ⇒ F (u) = 1 + u
2
2 fonction exponentielle (raking ratio)
G(x) = xLog(x) − x + 1 ⇒ F (u) = eu

3 fonction linéaire tronquée
(x − 1)2
G(x) = pour L < x < U ⇒ F (u) = 1 + u
2


Les fonctions du distance G usuelles
4 fonction logistique
Pour tout L < x < U ,

x−L U −x 1
G(x) = (x − L)Log + (U − x)Log
1−L U −1 A
où
U −L
A=
(1 − L)(U − 1)
d'où
L(U − 1) + U (1 − L)eAu
F (u) =
(U − 1) + (1 − L)eAu

Après calage, on a pour toute variable y l'estimateur calé :

X
tyw =
b wk yk
k∈s
L'estimation est exacte pour les totaux de variables auxiliaires :

X X
wk xk = xk
k∈s k∈U
Elle est approximativement sans biais pour les autres variables

d'intérêt :
tyw ) ' ty
E(b

NovTechEchantRedressement Chapitre3

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

NovTechEchantRedressement Chapitre3

Încărcat de

Drepturi de autor:

Formate disponibile

Nouvelles techniques d'échantillonnage et

Mohammed El Haj Tirari

Institut National de Statistique et d'Economie Appliquée

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par la régression généralisée

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

où xjk est la valeur de la variable Xj pour l'individu k.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Supposons que la relation entre la variable d'intérêt Y et la variables

avec Em (εk ) = 0, Vm (εk ) = σk2 et pour k 6= l, Em (εk εl ) = 0.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Ce qui peut s'écrire

En général β est inconnu, il faut donc l'estimer

=⇒ Méthode des moindres carrés généralisés

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimation des coecients de la régression

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Expression et propriétés de l'estimateur GREG

L'estimateur par la régression généralisée (GREG) est donné par

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Expression et propriétés de l'estimateur GREG

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

L'estimateur GREG est approximativement sans biais par rapport au

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Si, pour tout k ∈ U ,

variables auxiliaires X1 , . . . , XJ sont fortement très corrélées à la

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Approximation et estimation de la variance de btygreg

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Approximation et estimation de la variance de btygreg

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par calage

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

On dispose d'un échantillon s tiré selon un certain plan de sondage p.

Si on s'intéresse au total ty d'une variable y , on dispose d'un estimateur

où πk est la probabilité pour l'unité k d'appartenir à l'échantillon.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

L'estimateur de Horvitz-Thompson btyπ peut être vu comme un

L'individu k de l'échantillon "représente" 1

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

On dit que l'on redresse l'échantillon s lorsque l'on modie le système de

On parle d'information auxiliaire lorsque l'on dispose d'une information

Quelques exemples d'informations auxiliaires :

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

On suppose que l'on dispose de J variables auxiliaires

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par calage

Avant calage, on a pour toute variable y l'estimateur sans biais du total :

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par calage

On cherche de nouveaux poids wk vériant les propriétés suivantes :

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par calage

Plus formellement, on résoud le problème suivant :

où G désigne une fonction de distance positive et convexe telle que

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par calage

On cherche à réduire la variance de l'estimation à l'aide du calage sur

Pour respecter les totaux de variables auxiliaires, on accepte de biaiser

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

Estimateur par calage

La solution de ce problème de minimisation est obtenue en introduisant

où F est la fonction réciproque de la dérivée de la fonction distance

Estimation des coecients de la régression

On dit que l'on redresse l'échantillon s lorsque l'on modie le système de

On cherche de nouveaux poids wk vériant les propriétés suivantes :