Sunteți pe pagina 1din 27

Nouvelles techniques d'échantillonnage et

de redressement

Mohammed El Haj Tirari

Institut National de Statistique et d'Economie Appliquée

2019-2020

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Estimateur par calage

Techniques de redressement

Estimateur par la régression généralisée

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Introduction
On suppose qu'on dispose des informations suivantes sur J variables
auxiliaires X1 , . . . , Xj , . . . , XJ :
Pour tout k ∈ s, on dispose de
0
xk = (x1k . . . xjk . . . xJk )

où xjk est la valeur de la variable Xj pour l'individu k.


On dispose également des totaux
X 0
tx = xk = tX1 . . . tXj . . . tXJ
k∈U

où tXj = xjk .
P
k∈U
Objectif
Mettre à prot ces informations auxiliaires pour améliorer l'estimation de
ty .

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Introduction

Supposons que la relation entre la variable d'intérêt Y et la variables


auxiliaires X1 , . . . , Xj , . . . , XJ peut être dénie par le modèle m :
0
yk = x k β + ε k

avec Em (εk ) = 0, Vm (εk ) = σk2 et pour k 6= l, Em (εk εl ) = 0.


β est un vecteur de paramètres inconnus.
Sous cette hypothèse, on a
X X 0
 X 0 X
ty = yk = xk β + εk = xk β + εk
k∈U k∈U k∈U k∈U

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Introduction
Si β est connu, un estimateur de ty peut être donné par :
X 0 X εk
ty =
b xk β +
πk
k∈U k∈S

Ce qui peut s'écrire


!0
X yk X X xk
ty
b = + xk − β
πk πk
k∈s k∈U k∈s
 0
tyπ + tx − b
= b txπ β

En général β est inconnu, il faut donc l'estimer

=⇒ Méthode des moindres carrés généralisés

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Estimation des coecients de la régression


Méthode des moindres carrés généralisés
0 0
Notons β = (β1 , . . . , βj , . . . , βJ ) et xk = (x1k , . . . , xjk , . . . , xJk )
on a
 2
J  2
X X X 0
Q= ck yk − βj xjk  = ck yk − xk β
k∈U j=1 k∈U

Ainsi
∂Q X  0

= 0 ⇐⇒ − 2ck xk yk − xk β = 0
∂β
k∈U
!−1
X 0 X 0
⇐⇒ β= ck xk xk ck xk yk
k∈U k∈U

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Expression et propriétés de l'estimateur GREG

L'estimateur par la régression généralisée (GREG) est donné par


X 0 X εbk
tygreg =
b xk β
b+
πk
k∈U k∈S

où εbk = yk − xk β
b et
0

0
!−1 0
X x xk X xk yk
β
b= ck k ck
πk πk
k∈S k∈S

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Expression et propriétés de l'estimateur GREG


L'estimateur GREG peut s'écrire sous plusieurs formes dont :
1
 0
b tyπ + tx − b
tygreg = b txπ β b

où X xk
txπ =
b
πk
k∈S

2
X gk yk
tygreg =
b
πk
k∈S

où !−1
0 0
 X x xk 0
gk = 1 + tx − b
txπ ck k ck xk
πk
k∈S

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Remarques

L'estimateur GREG est approximativement  sans biais par rapport au


plan de sondage, c'est-à-dire Ep btygreg ≈ ty .
Le rôle du modèle m est de justier la forme de l'estimateur GREG
(approche model-assisted).
L'estimateur GREG est approximativement sans biais même dans le
cas où le modèle m n'ajuste pas les données adéquatement.
Cependant, dans ce cas, la variance de l'estimateur GREG sera
probablement élevée.
L'estimateur GREG est calé sur le total tx :
txgreg = tx
b

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Remarques

Si, pour tout k ∈ U ,


J
0
βj xjk = β xk alors β
b = β et b
X
yk = tygreg = ty
j=1

,→ l'estimateur tygreg
b fournit une bonne estimation de ty quand les

variables auxiliaires X1 , . . . , XJ sont fortement très corrélées à la

variable d'intérêt Y.
Cependant btygreg a l'inconvénient suivant : 
si la variable d'intérêt Y est telle que var btyπ = 0 alors
 
var btygreg n'est pas nécessairement nulle.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Approximation et estimation de la variance de btygreg


Une approximation de la variance de btygreg peut être obtenue en
considérant la variance de
 0
e tyπ + tx − b
tygreg = b txπ b

où !−1
X 0 X
b= ck xk xk ck xk yk
k∈U k∈U

Pour lequel on a
0 0
 XX (yk − xk b) (yl − xl b)
var t̃ygreg = (πkl − πk πl )
πk πl
k∈U l∈U

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés de l'estimateur GREG
Estimateur par calage

Approximation et estimation de la variance de btygreg

Puisque  
tygreg ≈ var t̃ygreg
var b
un estimateur de la variance de btygreg peut être donné par
X X πkl − πk πl (yk − x0 β)
b (yl − x0 β)
b
k l

vd
ar b
tygreg =
πkl πk πl
k∈S l∈S

où !−1
0
X xk xk X xk yk
β
b= ck ck
πk πk
k∈S k∈S

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Techniques de redressement

Estimateur par calage

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Introduction

On dispose d'un échantillon s tiré selon un certain plan de sondage p.

Si on s'intéresse au total ty d'une variable y , on dispose d'un estimateur


sans biais : l'estimateur de Horvitz-Thompson
X yk
tyπ =
b
πk
k∈s

où πk est la probabilité pour l'unité k d'appartenir à l'échantillon.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Introduction

L'estimateur de Horvitz-Thompson btyπ peut être vu comme un


estimateur pondéré
X 1
tyπ =
b dk yk avec dk =
πk
k∈s

L'individu k de l'échantillon "représente" 1


πk individus de la population.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

On dit que l'on redresse l'échantillon s lorsque l'on modie le système de


pondérations associé à s an de respecter un certain nombre
d'informations auxiliaires.

On parle d'information auxiliaire lorsque l'on dispose d'une information


connue sur l'ensemble de la population.

Quelques exemples d'informations auxiliaires :


Répartition par sexe et par âge d'une population d'individus
Total des chires d'aaires des entreprises d'un secteur d'activité

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

On suppose que l'on dispose de J variables auxiliaires


X1 , . . . , Xj , . . . , XJ dont on connaît les informations suivantes :
les vecteurs 0
xk = (x1k . . . xjk . . . xJk )
pour tout k ∈ s, où xjk est la valeur de la variable Xj pour
l'individu k.
les totaux dans la population de ces variables
!0
X X X X
tx = xk = x1k . . . xjk . . . xJk
k∈U k∈U k∈U k∈U

Pour une variable catégorielle, cela veut dire que l'on connaît les
eectifs dans chacune des modalités (à chaque modalité correspond
une variable auxiliaire)

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage

Avant calage, on a pour toute variable y l'estimateur sans biais du total :


X
tyπ =
b dk yk
k∈s

E(b
tyπ ) = ty
Et en particulier pour les variables de calage :
E(b
txπ ) = tx

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage

On cherche de nouveaux poids wk vériant les propriétés suivantes :


Ils sont proches des poids de départ dk
Ils vérient les équations de calage
X X
wk xk = xk
k∈s k∈U

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage

Plus formellement, on résoud le problème suivant :


 
X wk X X
M inwk dk G s.c. wk xk = xk
dk
k∈s k∈s k∈U

où G désigne une fonction de distance positive et convexe telle que


G(1) = 0.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage

On cherche à réduire la variance de l'estimation à l'aide du calage sur


les totaux connus. La variance est nulle pour les variables auxiliaires ; elle
sera faible pour les variables d'intérêt corrélées aux variables auxiliaires.

Pour respecter les totaux de variables auxiliaires, on accepte de biaiser


légèrement l'estimation. Ce biais est négligeable car on assure que les
poids calés restent proches des poids d'origine.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage

La solution de ce problème de minimisation est obtenue en introduisant


un vecteur de multiplicateur de Lagrange λ où le Lagrangien vaut :
  !
X wk 0 X X
L= dk G −λ wk xk − xk
dk
k∈s k∈s k∈U

,→ On trouve donc  0 
wk = dk F xk λ

où F est la fonction réciproque de la dérivée de la fonction distance


positive G

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage

 
∂L 1 0 wk 0
= 0 ⇐⇒ dk G − λ xk = 0
∂wk dk dk
 
0 wk 0
⇐⇒ G = λ xk
dk
  
0 wk  0 
⇐⇒ F G = F xk λ
dk
 0 
⇐⇒ wk = dk F x λ

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage


Le vecteur λ est obtenu par la résolution du système
X  0  X
dk F xk λ xk = xk
k∈s k∈U

qui peut se faire en utilisant la méthode itérative de Newton :


Une suite de valeurs λ(i) est calculée en initialisant l'algorithme à
λ(0) = 0.
La convergence est obtenue lorsque :

w(i+1) (i)
wk
k
M ax − <ε
dk dk

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage


Les fonctions du distance G usuelles

1 fonction linéaire

(x − 1)2
G(x) = ⇒ F (u) = 1 + u
2
2 fonction exponentielle (raking ratio)

G(x) = xLog(x) − x + 1 ⇒ F (u) = eu


3 fonction linéaire tronquée

(x − 1)2
G(x) = pour L < x < U ⇒ F (u) = 1 + u
2

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage


Les fonctions du distance G usuelles

4 fonction logistique
Pour tout L < x < U ,
 
x−L U −x 1
G(x) = (x − L)Log + (U − x)Log
1−L U −1 A


U −L
A=
(1 − L)(U − 1)
d'où
L(U − 1) + U (1 − L)eAu
F (u) =
(U − 1) + (1 − L)eAu

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement


Estimateur par la régression généralisée
Principe et propriétés
Estimateur par calage

Estimateur par calage

Après calage, on a pour toute variable y l'estimateur calé :


X
tyw =
b wk yk
k∈s

L'estimation est exacte pour les totaux de variables auxiliaires :


X X
wk xk = xk
k∈s k∈U

Elle est approximativement sans biais pour les autres variables


d'intérêt :
tyw ) ' ty
E(b

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement

S-ar putea să vă placă și