Estimation

.
. Théorie de l’estimation
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
michael.genin@univ-lille2.fr
Sources : G. Marot, A. Duhamel, G. Saporta.

Plan
1. Introduction à la théorie de l’estimation

Problématique
Définition d’un échantillon aléatoire
Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 1 / 73

Plan

Problématique
2. Estimation ponctuelle
Notion d’estimateur
Propriétés d’un estimateur
Estimation d’une moyenne, variance, proportion

Plan

Problématique
3. Estimation par intervalles de confiance

Définitions
Intervalle de confiance d’une moyenne (n < 30)
Intervalle de confiance d’une moyenne (n ⩾ 30)
Intervalle de confiance d’une proportion

Plan

Problématique

Définitions
4. Résumé

Introduction à la théorie de l’estimation
Point étudié

Problématique
4. Résumé

Introduction à la théorie de l’estimation
Notations préliminaires
Trois concepts différents à distinguer en théorie de l’estimation :

les paramètres de la population comme la moyenne µ dont la valeur est
inconnue et certaine
⇒ symbolisés par des lettres grecques
les résultats de l’échantillonnage comme la moyenne x̄ dont la valeur est
connue et certaine
⇒ symbolisés par des minuscules (cf. stat desc.)
les variables aléatoires des paramètres, comme la moyenne aléatoire X̄ dont
la valeur est incertaine puisqu’aléatoire mais dont la loi de proba est souvent
connue
⇒ symbolisés par des majuscules

Introduction à la théorie de l’estimation Problématique
Point étudié

Problématique
4. Résumé

Introduction à la théorie de l’estimation Problématique
Problématique
On s’intéresse à un caractère X au sein d’une population P (ex : Taille)

On modélise X par une v.a. (ex : à un français tiré au hasard, on associe sa taille)
Dans la population P, X suit une loi (distribution).
Résumer une loi → Moyenne (µ) et Variance (σ 2 ) dans la plupart des cas.
On cherche donc à connaı̂tre µ et σ 2 dans P.
Problème
Dans la plupart des cas, impossible de considérer P dans son ensemble
On utilise un échantillon de n individus de P
Hypothèse forte : On considère que l’échantillon est tiré au hasard (i.e. chaque
individu a la même probabilité d’être tiré).

Introduction à la théorie de l’estimation Définition d’un échantillon aléatoire
Point étudié

Problématique
4. Résumé

.
Définition
.
Soit X un caractère étudié sur une population P et E une expérience aléatoire qui
consiste à tirer un individu au hasard dans P.
On associe à E la v.a. X d’une certaine loi.
On réalise n fois la même expérience E , dans des conditions indépendantes.
n expériences −→ n v.a. Xi de même loi
L’ensemble {X1 , X2 , ..., Xn } de n v.a. i.i.d. de même loi que X est un échantillon
aléatoire.
.

Population
Caractère étudié : X
Moyenne : µ
Variance : σ 2
Echantillon Aléatoire de taille n

n variables aléatoires indépendantes de même loi que X
{X1 , X2 , . . . , Xn }
Echantillon 1
{x11 , x12 , . . . , x1n }
Réalisation de {X1 , X2 , . . . , Xn }
n réalisations indépendantes de X

Rappel : On cherche à connaı̂tre µ et σ 2 dans la population.
.
La théorie de l’estimation permet d’extrapoler (inférence statistique) les
caractéristiques d’un échantillon à la population.
En d’autres termes : l’estimation consiste à déterminer les caractéristiques (µ, σ 2 ,
...)
. inconnues de la population à partir des données d’un échantillon.
2 types d’estimation :
Estimation ponctuelle
Estimation par intervalle de confiance

Estimation ponctuelle
Point étudié
4. Résumé

Estimation ponctuelle Notion d’estimateur
Point étudié
4. Résumé

Notion d’estimateur - Exemple introductif

Population
Population
Caractère
Caractère étudié
étudié : X (X)
: Taille
Moyenne
Moyenne :: µµ
Variance :: σσ22
Variance

{X1 , X2 , . . . , Xn }
Xi : v.a. qui associe à un individu i sa taille
Echantillon 1
{x11 , x12 , . . . , x1n }
x1i : taille obs. de l’individu i

dans l’échantillon 1
.
. Objectif : estimer µ et σ 2

Considérons la moyenne et la variance calculées sur l’échantillon (moyenne et
variance empirique) :
1∑ 1∑
n n
x̄ = xi 2
sech = (xi − x̄)2
n n
i=1 i=1

Population
Population
Caractère
étudié : X (X)
: Taille
Moyenne
Moyenne :: µµ
Variance :: σσ22
Variance

{X1 , X2 , . . . , Xn }
Echantillon 1
{x11 , x12 , . . . , x1n }
Moyenne obs. : x̄1

1
Variance obs. : s2ech


1∑ 1∑
n n
x̄ = xi 2
n n
i=1 i=1
A chaque échantillon de taille n, les valeurs de x̄ et de s 2 sont susceptibles d’être

différentes.

Population
Population
Caractère
étudié : X (X)
: Taille
Moyenne
Moyenne :: µµ
Variance :: σσ22
Variance

{X1 , X2 , . . . , Xn }
Echantillon 1 Echantillon 2 Echantillon 3 ... Echantillon k

{x11 , x12 , . . . , x1n } {x21 , x22 , . . . , x2n } {x31 , x32 , . . . , x3n } {xk1 , xk2 , . . . , xkn }
Moyenne obs. : x̄1 Moyenne obs. : x̄2 Moyenne obs. : x̄3 Moyenne obs. : x̄k
1 2 3 k
Variance obs. : s2ech Variance obs. : s2ech Variance obs. : s2ech Variance obs. : s2ech


1∑ 1∑
n n
x̄ = xi 2
n n
i=1 i=1

différentes.
x̄ et de s 2 sont des réalisations des v.a. X̄ et Sech
2
1∑ 1∑
n n
X̄ = Xi 2
Sech = (Xi − X̄ )2
n n
i=1 i=1
et les Xi = {X1 , X2 , ..., Xn } un échantillon aléatoire.

Population
Population
Caractère
étudié : X (X)
: Taille
Moyenne
Moyenne :: µµ
Variance :: σσ22
Variance
Pn Echantillon Aléatoire de taille n

X̄ = n1 i=1 Xi
2 1
P n 2 n variables aléatoires indépendantes de même loi que X
Sech = Xi − X̄
n i=1 {X1 , X2 , . . . , Xn }

1 2 3 k


1∑ 1∑
n n
x̄ = xi 2
n n
i=1 i=1

différentes.
x̄ et de s 2 sont des réalisations des v.a. X̄ et Sech
2
1∑ 1∑
n n
X̄ = Xi 2
Sech = (Xi − X̄ )2
n n
i=1 i=1
et les Xi = {X1 , X2 , ..., Xn } un échantillon aléatoire.

Remarques
Lorsque n −→ ∞, X̄ et Sech2
se rapprochent vers µ et σ 2 .
X̄ et S 2 sont des estimateurs qui convergent vers µ et σ 2
Notion d’estimateur - Définition
.
Définition
.
Soit {X1 , X2 , ..., Xn } un échantillon aléatoire de taille n. Les Xi sont i.i.d. selon
une loi de probabilité de paramètre θ.
On appelle estimateur de θ toute v.a. fonction des Xi :
. T = f (X1 , X2 , ..., Xn )
Sur un échantillon tiré {x1 , x2 , ..., xn }, T fournit une réalisation qui est une
estimation ponctuelle de θ :
.
. θ̂ = f (x1 , x2 , ..., xn )
Exemple :
∑n
T = X̄ = n1 i=1 Xi (Estimateur)
∑n
µ̂ = x̄ = n1 i=1 xi (Estimation)

Estimation ponctuelle Propriétés d’un estimateur
Point étudié
4. Résumé

.
Convergence
.
Un estimateur est dit convergent si :
lim T = θ
. n→∞
.
Biais
.
Le biais d’un estimateur est défini par :
B(T ) = E [T − θ]
.Un estimateur est dit sans biais si B(T ) = 0 ⇔ E [T ] = θ
La variance de T , V [T ] permet de renseigner la précision de l’estimateur.

Plus elle est faible, plus l’estimateur sera précis.

.
Qualités d’un bon estimateur
.
Un estimateur efficace doit être de préférence :
Convergent
Sans biais
. De variance minimale
Remarques
Si deux estimateurs T1 et T2 d’un paramètre θ sont convergents et sans
biais, on choisira l’estimateur qui a la variance la plus faible
On peut préférer un estimateur biaisé d’une faible variance à un estimateur
non biaisé.

T1 T2
E[T1 ] = θ E[T2 ] = θ + B(T )

T1
T2
E[T1 ] = E[T2 ] = θ

Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Point étudié
4. Résumé

Estimation d’une moyenne

.
Théorème
.
La variable aléatoire X̄ définie par
1∑
n
X̄ = Xi
n
i=1
.est un estimateur convergent et sans biais de µ

Exercice : prouver que X̄ est un estimateur non biaisé de µ.


.
Théorème
.
1∑
n
X̄ = Xi
n
i=1

Exercice : prouver que X̄ est un estimateur non biaisé de µ.
[ n ] [ n ]
1∑ ∑ 1∑
n
1
E [X̄ ] = E Xi = E Xi = E [Xi ] = µ
n n n
i=1 i=1 i=1
La moyenne empirique calculée sur un échantillon est une bonne estimation de la

moyenne dans la population.
µ̂ = x̄

.
Théorème
.
1∑
n
X̄ = Xi
n
i=1

[ ] 2
Exercice : montrer que V X̄ = σn


.
Théorème
.
1∑
n
X̄ = Xi
n
i=1

[ ] 2
Exercice : montrer que V X̄ = σn
[ n ]
1∑ 1 ∑
n
σ2
V [X̄ ] = V Xi = 2 V [Xi ] =
n n | {z } n
i=1 i=1
=σ 2
.
A retenir
.
σ2
E [X̄ ] = µ V [X̄ ] =
. n
Estimation d’une variance

.
Théorème
.
2
La variable aléatoire Sech définie par
1∑
n
2
Sech = (Xi − µ)2 ,
n
i=1
2
.est un estimateur convergent et sans biais de σ uniquement si µ est connue.
2
Exercice : Montrer que Sech est un estimateur non biaisé de σ 2 uniquement si µ
est connue.


.
Théorème
.
2
1∑
n
2
Sech = (Xi − µ)2 ,
n
i=1
2
2
est connue.
Correction : 1 - Si µ est connue :
[ 2 ]
E Sech =
[ 2 ]
E Sech =


.
Théorème
.
2
1∑
n
2
Sech = (Xi − µ)2 ,
n
i=1
2
2
est connue.
[ n ]
[ 2 ] 1∑
E Sech =E (Xi − µ) =
2
n
i=1
[ 2 ]
E Sech =


.
Théorème
.
2
1∑
n
2
Sech = (Xi − µ)2 ,
n
i=1
2
2
est connue.
[ n ] [ n ]
[ 2 ] 1∑ 1 ∑ 2 2µ ∑ 1∑ 2
n n
E Sech =E (Xi − µ) = E
2
Xi − Xi + µ
n n n n
i=1 i=1 i=1 i=1
[ 2 ]
E Sech =


.
Théorème
.
2
1∑
n
2
Sech = (Xi − µ)2 ,
n
i=1
2
2
est connue.
[ n ] [ n ]
[ 2 ] 1∑ 1 ∑ 2 2µ ∑ 1∑ 2
n n
2
Xi − Xi + µ
n n n n
i=1 i=1 i=1 i=1
[ 2 ] 1 ∑
n
[ ] 2µ ∑
n
E Sech = E Xi2 − E [Xi ] +µ2 =
n n | {z }
i=1 i=1
=µ


.
Théorème
.
2
1∑
n
2
Sech = (Xi − µ)2 ,
n
i=1
2
2
est connue.
[ n ] [ n ]
[ 2 ] 1∑ 1 ∑ 2 2µ ∑ 1∑ 2
n n
2
Xi − Xi + µ
n n n n
i=1 i=1 i=1 i=1
[ 2 ] 1 ∑
n
[ ] 2µ ∑
n
1 ∑
n
[ ]
E Sech = E Xi2 − E [Xi ] +µ2 = E Xi2 − µ2
n n | {z } n
i=1 i=1 i=1
=µ


Correction : 1 - Si µ est connue (suite)
Or par définition :
σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
Donc


σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
Donc
E [X 2 ] = σ 2 + µ2
Finalement :


σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
Donc
E [X 2 ] = σ 2 + µ2
Finalement :
[ 2 ] 1∑ n
[ ]
E Sech = E Xi2 − µ2
n
i=1

σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
Donc
E [X 2 ] = σ 2 + µ2
Finalement :
[ 2 ] 1∑ n
[ ]
n
i=1
[ 2 ]
E Sech =
[ 2 ]
E Sech =

σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
Donc
E [X 2 ] = σ 2 + µ2
Finalement :
[ 2 ] 1∑ n
[ ]
n
i=1
[ 2 ] 1∑ n
( 2 )
E Sech = σ + µ2 − µ2
n
i=1
[ 2 ]
E Sech =σ 2 + µ2 − µ2 = σ 2
2
Donc si µ est connue alors Sech est un estimateur sans biais de σ 2 .

Solution beaucoup plus simple :
[ ]
[ 2 ] 1∑ 1∑ [ ] 1∑
n n n
E Sech =E (Xi − µ) =
2
E (Xi − µ) =
2
V [Xi ] = σ 2
n n n
i=1 i=1 i=1


Correction : 2 - Si µ est inconnue
On estime µ par son estimateur sans biais : X̄ . Donc :
1∑
n
2
Sech = (Xi − X̄ )2
n
i=1


1∑
n
2
Sech = (Xi − X̄ )2
n
i=1
[ 2 ]
E Sech =


1∑
n
2
Sech = (Xi − X̄ )2
n
i=1
[ ]
[ 2 ] 1∑
n
E Sech =E (Xi − X̄ ) =
2
n
i=1


1∑
n
2
Sech = (Xi − X̄ )2
n
i=1
[ ] [ n ]
[ 2 ] 1∑ 1∑ 2 1 ∑ [ 2] [ ]
n n
E Sech =E (Xi − X̄ ) = E
2
Xi − X̄ =
2
E Xi − E X̄ 2
n n n
i=1 i=1 i=1
Par définition :
{


1∑
n
2
Sech = (Xi − X̄ )2
n
i=1
[ ] [ n ]
[ 2 ] 1∑ 1∑ 2 1 ∑ [ 2] [ ]
n n
2
Xi − X̄ =
2
E Xi − E X̄ 2
n n n
i=1 i=1 i=1
Par définition :
{
σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2


1∑
n
2
Sech = (Xi − X̄ )2
n
i=1
[ ] [ n ]
[ 2 ] 1∑ 1∑ 2 1 ∑ [ 2] [ ]
n n
2
Xi − X̄ =
2
E Xi − E X̄ 2
n n n
i=1 i=1 i=1
Par définition :
{
σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
2
V [X̄ ] = σn = E [X̄ 2 ] − E [X̄ ]2 = E [X̄ 2 ] − µ2
Donc {


1∑
n
2
Sech = (Xi − X̄ )2
n
i=1
[ ] [ n ]
[ 2 ] 1∑ 1∑ 2 1 ∑ [ 2] [ ]
n n
2
Xi − X̄ =
2
E Xi − E X̄ 2
n n n
i=1 i=1 i=1
Par définition :
{
σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
2
V [X̄ ] = σn = E [X̄ 2 ] − E [X̄ ]2 = E [X̄ 2 ] − µ2
Donc {
E [X 2 ] = σ 2 + µ2


1∑
n
2
Sech = (Xi − X̄ )2
n
i=1
[ ] [ n ]
[ 2 ] 1∑ 1∑ 2 1 ∑ [ 2] [ ]
n n
2
Xi − X̄ =
2
E Xi − E X̄ 2
n n n
i=1 i=1 i=1
Par définition :
{
σ 2 = V [X ] = E [X 2 ] − E [X ]2 = E [X 2 ] − µ2
2
V [X̄ ] = σn = E [X̄ 2 ] − E [X̄ ]2 = E [X̄ 2 ] − µ2
Donc {
E [X 2 ] = σ 2 + µ2
2
E [X̄ 2 ] = σn + µ2

[ 2 ] 1∑ n
[ ] [ ]
E Sech = E Xi2 − E X̄ 2
n
i=1
[ 2 ]
E Sech =
[ 2 ]
E Sech =
[ 2 ]
E Sech =


[ 2 ] 1∑ n
[ ] [ ]
n
i=1
∑ ( 2 )
[ 2 ] 1 n ( 2 ) σ
E Sech = σ +µ −
2
+µ 2
n n
i=1
[ 2 ]
E Sech =
[ 2 ]
E Sech =


[ 2 ] 1∑ n
[ ] [ ]
n
i=1
∑ ( 2 )
[ 2 ] 1 n ( 2 ) σ
E Sech = σ +µ −
2
+µ 2
n n
i=1
[ 2 ] σ2
E Sech =σ 2 + µ2 − − µ2
n
[ 2 ]
E Sech =


[ 2 ] 1∑ n
[ ] [ ]
n
i=1
∑ ( 2 )
[ 2 ] 1 n ( 2 ) σ
E Sech = σ +µ −
2
+µ 2
n n
i=1
[ 2 ] σ2
E Sech =σ 2 + µ2 − − µ2
n
[ 2 ] n−1 2
E Sech = σ
n
.
Donc lorsque µ est inconnue mais estimée par X̄ , la quantité
1∑
n
2
Sech = (Xi − X̄ )2 ,
n
i=1
2
.est un estimateur biaisé de σ (sous-estimation).

En pratique, la moyenne µ est très souvent inconnue et estimée par X̄ . Dans ce
cas :
.
Théorème
.
La variable aléatoire S 2 définie par
1 ∑
n
S2 = (Xi − X̄ )2
n−1
i=1
2
.est un estimateur convergent et sans biais de σ
.
Remarques
.
Remarquons que
n
S2 S2 =
n − 1 ech
Si n est grand, les deux estimateurs donnent des résultats très proches.
.

Vocabulaire
Ecart-type de l’échantillon
v
u n
u1 ∑
sech =t (xi − x̄)2
n
i=1
Déviation standard (anglicisme)

v
u
u 1 ∑ n
s=t (xi − x̄)2
n−1
i=1

Estimation d’une proportion
Soit π une proportion d’un caractère dans une population que nous cherchons à
estimer.
(Exemple : proportion de femmes dans la population française).
Soit K une v.a. discrète distribuée selon une loi binomiale B(n, π).
(Exemple : K associe à un échantillon de taille n le nombre de femmes.
.
Théorème
.
La fréquence observée dans un échantillon de taille n constitue le meilleur
estimateur de π (Loi des grands nombres)
K
F =
n
.F est donc un estimateur convergent et sans biais.

Estimation par intervalles de confiance
Point étudié

Définitions
4. Résumé

Estimation par intervalles de confiance Définitions
Point étudié

Définitions
4. Résumé

Introduction
L’estimation ponctuelle d’un paramètre (moyenne, variance, proportion) peut
varier d’un échantillon à l’autre.
Population
Population
Caractère
étudié : X (X)
: Taille
Moyenne
Moyenne :: µµ
Variance :: σσ22
Variance
Pn Echantillon Aléatoire de taille n

X̄ = n1 i=1 Xi
2 1
P n 2 n variables aléatoires indépendantes de même loi que X
Sech = Xi − X̄
n i=1 {X1 , X2 , . . . , Xn }

1 2 3 k

Introduction
L’estimation ponctuelle d’un paramètre (moyenne, variance, proportion) peut
varier d’un échantillon à l’autre. On dit qu’elle ne prend pas en compte les
fluctuations d’échantillonnage.
Comment avoir confiance en cette estimation ponctuelle ?
Il est nécessaire de lui associer un intervalle qui contient, avec une certaine
probabilité, la vraie valeur du paramètre dans la population.
⇒ Estimation par intervalle de confiance

Définition
L’estimation par intervalle de confiance de θ consiste à associer à un échantillon

un intervalle aléatoire [θb1 , θb2 ] qui contient θ avec une certaine probabilité. Cet
intervalle est appelé intervalle de confiance de θ
On appelle risque d’erreur la probabilité α que l’intervalle de confiance ne

contienne pas la vraie valeur de θ.
On appelle niveau de confiance la probabilité 1 − α que l’intervalle de confiance
contienne la vraie valeur de θ.
P(θb1 < θ < θb2 ) = 1 − α
Soit T l’estimateur d’un paramètre θ. Posons θb1 = T − ϵ et θb2 = T + ϵ.
P(θ ∈ [θb1 , θb2 ]) = P(T − ϵ < θ < T + ϵ) = 1 − α

P(θ ∈ [θb1 , θb2 ]) = P(θ − ϵ < T < θ + ϵ) = 1 − α

Définition
Loi de l’estimateur T
α α
1−α
2 2
θ−" θ θ+"
P (θ − " < T < θ + ") = 1 − α

Définition
Pour déterminer cette probabilité, il est nécessaire de connaı̂tre la loi de

probabilité de l’estimateur T .
On l’appelle la distribution d’échantillonnage de T .
Dans le cas des estimateurs d’une moyenne (X̄ ) et d’une proportion (F ), le

théorème central-limite va nous permettre de déterminer les distributions
d’échantillonnage de X̄ et F .

Rappel
Théorème ”Central - Limite” (T.C.L.)
Théorème très important en statistique

Idée : convergence en loi de la somme de v.a. i.i.d. vers la loi normale.
Utile dans l’approximation d’une loi par une loi normale (Binomiale,
Poisson,...)
Utile, essentiel dans la théorie de l’estimation

Rappel
Théorème ”Central - Limite” (T.C.L.)
Contexte : Epreuves répétées caractérisées par une suite X1 , X2 , ..., Xn de v.a. i.i.d..
E [Xi ] = µ et V [Xi ] = σ 2 .
∑n
Soit Sn = i=1 Xi et Zn la variable centrée-réduite :
Sn − nµ
Zn = √
σ n
.
Théorème
.
∀x, la fonction de répartition Fn (x) = P(Zn ≤ x) est telle que
lim Fn(x) = Φ
n→∞
.avec Φ fonction de répartition de N (0, 1)

Distribution d’échantillonnage de X̄
.
Théorème (Grands échantillons)
.
Soit X une v.a. continue de moyenne µ et de variance σ 2 . En utilisant le T.C.L.,
on montre que :
( )
σ X̄ − µ
X̄ −→ N µ, √ ou encore √ −→ N (0, 1)
n→∞ n σ/ n n→∞
.Quelque soit la loi de X . En pratique, valable pour n ⩾ 30.

Si σ 2 est inconnue, on l’estime par s 2 :
( )
s
X̄ −→ N µ, √
n→∞ n

Distribution d’échantillonnage de X̄
.
Théorème (Petits échantillons)
.
On suppose que X ∼ N (µ, σ 2 ). Alors :
( )
σ
Si σ 2 est connue alors X̄ ∼ N µ, √
n
Si σ 2 est inconnue et estimée par s 2 alors :
X̄ − µ
√ ∼ Tn−1 d.d.l.
s/ n
.
En pratique, on considère un petit échantillon lorsque n < 30.

Distribution d’échantillonnage de F
.
Théorème
.
Soit π la proportion d’un caractère dans une population. D’après le T .C .L. on
montre que : ( √ )
π(1 − π)
F −→ N π,
n→∞ n
.
En pratique, cette approximation est valable lorsque :
n ⩾ 30 et min{nπ, n(1 − π)} > 5

Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n < 30)
Point étudié

Définitions
4. Résumé

IC d’un moyenne - Petits échantillons (n < 30)
On considère que X ∼ N (µ, σ)

.
Intervalle de confiance d’une moyenne
.
σ 2 connue (rare)
[ ]
ICµ = x̄ − z1−α/2 √σn ; x̄ + z1−α/2 √σn
1−α
σ 2 inconnue mais estimée par s 2

[ ]
ICµ = x̄ − t1−α/2;n−1 √sn ; x̄ + t1−α/2;n−1 √sn
1−α


Démonstration
On cherche (c c2 ) tel que P(c

µ1 , µ c2 ) = 1 − α (définition IC).
µ1 < µ < µ
On suppose σ connu donc X̄ ∼ N (µ, √σn ).
X̄ −µ
Posons X̄ ∗ = σ/
N (0, 1)
√ ∼ N (0, 1)
n
Posons z1− 2 tel que
α
P(X̄ ∗ < z1− α2 ) = 1 − α2 α

2
1−α
α
2
−z1−α/2 0 z1−α/2
Par symétrique de la courbe : P(−z1− α2 < X̄ ∗ < z1− α2 ) = 1 − α

X̄ − µ
√ < z1− α2 ) = 1 − α
P(−z1− α2 <
σ/ n
√ √
P(−X̄ − z1− α2 σ/ n < −µ < −X̄ + z1− α2 σ/ n) = 1 − α
√ √
P(X̄ − z1− α2 σ/ n < µ < X̄ − z1− α2 σ/ n) = 1 − α
| {z } | {z }
c1
µ c2
µ

Autre Démonstration
On cherche (c c2 ) tel que P(c

µ1 , µ c2 ) = 1 − α (définition IC).
µ1 < µ < µ
On suppose σ connu donc X̄ ∼ N (µ, √σn ).
On sait que P(c c2 ) = 1 − α = P(µ − ϵ < X̄ < µ + ϵ). Posons
µ1 < µ < µ
∗ X̄ −µ
X̄ = σ ∼ N (0, 1) Donc
( )
µ−ϵ−µ ∗ µ+ϵ−µ
P(µ − ϵ < X̄ < µ + ϵ) =P √ < X̄ < √ =1−α
σ/ n σ/ n
( )
−ϵ ϵ ϵ −ϵ
P(µ − ϵ < X̄ < µ + ϵ) =P √ < X̄ ∗ < √ = Φ( √ ) − Φ( √ )
σ/ n σ/ n σ/ n σ/ n
ϵ
P(µ − ϵ < X̄ < µ + ϵ) =2Φ( √ ) − 1 = 1 − α
σ/ n
Donc Φ( σ/ϵ√n ) = 1 − α2 . Posons z1− α2 /Φ(z1− α2 ) = 1 − α2 .

√
Donc σ/ϵ√n = z1− α2 ⇔ ϵ = z1− α2 σ/ n

Autre Démonstration
En remplaçant dans la définition d’un intervalle de confiance T par X̄ et θ par µ :

( )
σ σ
P X̄ − z1−α/2 √ < µ < X̄ − z1−α/2 √ =1−α
n n
Donc l’intervalle de confiance au niveau de confiance 1 − α d’une moyenne sur un

échantillon de taille n est donné par :
[ ]
1−α σ σ
ICµ = x̄ − z1−α/2 √n ; x̄ + z1−α/2 √n

Exemple
On suppose que le taux de cholestérol dans une population est distribué selon un
loi normale de paramètres inconnus µ et σ.
De cette population est extrait un échantillon de 20 personnes. La moyenne
empirique du taux de cholestérol est de x̄ = 1.8 et l’écart-type empirique
(déviation standard) est égal à s = 0.1.
Donner un intervalle de confiance de la moyenne du taux de cholestérol dans

la population au niveau de confiance 95%
Donner un interprétation des bornes de l’IC

Exemple
Nous sommes dans le cadre d’un petit échantillon n = 20 < 30
La distribution normale du taux de cholestérol dans la population est
supposée.
La variance dans la population σ 2 est inconnue mais estimée par s 2
[ ]
95% s s
ICµ = x̄ − t1−α/2;n−1 √ ; x̄ + t1−α/2;n−1 √
n n
t1−α/2;n−1 = t0.975;19 = 2.093
95%
ICµ = [1.75; 1.85]

Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n ⩾ 30)
Point étudié

Définitions
4. Résumé

IC d’un moyenne - Grands échantillons (n ⩾ 30)
.
Intervalle de confiance d’une moyenne
.
σ 2 connue (rare)
[ ]
1−α σ σ
ICµ = x̄ − z1−α/2 √ ; x̄ + z1−α/2 √
n n
σ 2 inconnue mais estimée par s 2

[ ]
ICµ = x̄ − z1−α/2 √sn ; x̄ + z1−α/2 √sn
1−α

Exemple
On désire estimer la taille moyenne (cm) des hommes en France. On sait que son
écart-type σ = 14.
On tire un échantillon de 100 français. La moyenne empirique de la taille sur

l’échantillon est x̄ = 175.
Calculer un intervalle de confiance la taille moyenne des français au seuil de

confiance :
90 %
95 %
99 %

Exemple
1. Seul de confiance 1 − α = 0.90

[ ]
90% σ σ
ICµ = x̄ − z1−α/2 n ; x̄ + z1−α/2 n
√ √
Déterminer z1−α/2 = z1−0.1/2 = z1−0.05 = z0.95
Table de la loi Normale centrée réduite : trouver z0.95 tel que
Φ(z0.95 ) = 0.95

N (0, 1)
5% 90% 5%
−z0.95 0 z0.95

On trouve que z0.95 ≈ 1.64. Donc l’intervalle de confiance a pour valeur :

[ ]
90% 14 14
ICµ = 175 − 1.64 √ ; 175 + 1.64 √
100 100
90%
ICµ = [172.7; 177.3]
La taille moyenne des français a 90% de chances de se trouver dans l’intervalle

[172.7; 177.3]

On cherche la valeur de z1−α/2 = z1−0.05/2 = z1−0.025 = z0.975
z0.975 ≈ 1.96
Donc l’intervalle de confiance a pour valeur :
[ ]
95% 14 14
ICµ = 175 − 1.96 √ ; 175 + 1.96 √
100 100
95%
ICµ = [172.3; 177.7]

[172.3; 177.7]

On cherche la valeur de z1−α/2 = z1−0.01/2 = z1−0.005 = z0.995
z0.995 ≈ 2.58
Donc l’intervalle de confiance a pour valeur :
[ ]
99% 14 14
ICµ = 175 − 2.58 √ ; 175 + 2.58 √
100 100
99%
ICµ = [171.4; 178.6]

[171.4; 178.6]

Remarque par rapport à l’exemple :
90%
ICµ = [172.7; 177.3]
95%
ICµ = [172.3; 177.7]
99%
ICµ = [171.4; 178.6]
Plus le seul de confiance est élevé, plus la taille de l’IC est importante.

Retour à l’exemple :
Avec un échantillon de 100 français, l’intervalle de confiance à 95% est de :

95%
ICµ = [172.3; 177.7]
Considérons que nous avons un échantillon de 1000 français, sur lequel la

moyenne empirique est la même (x̄ = 175).
95%
ICµ = [174.7; 175.3]
Plus la taille de l’échantillon est importante, plus la taille de l’IC se réduit.
→ la précision de l’estimation est fonction de la taille de l’échantillon.

Estimation par intervalles de confiance Intervalle de confiance d’une proportion
Point étudié

Définitions
4. Résumé

Soit π la proportion d’un caractère dans une population.

On note π̂ = k/n la proportion observée sur un échantillon de taille n.
.
.
Si n ⩾ 30 et min{nπ̂, n(1 − π̂)} > 5
[ √ √ ]
1−α π̂(1 − π̂) π̂(1 − π̂)
ICπ = π̂ − z1−α/2 n
; π̂ + z1−α/2
n
.

Exemple
Quelques jours avant une élection très importante opposant le candidat A et le

candidat B, on réalise un sondage sur 100 individus.
On obtient 54% d’intention de vote pour le candidat A contre 46% pour le

candidat B.
Calculer un intervalle de confiance à 95% de la proportion de personnes
favorables à A dans la population.
Que dire de cet intervalle ? De la taille de l’échantillon ?

Exemple
Soit π la proportion de votants pour le candidat A dans la population.
Soit π̂ la proportion de votants pour le candidat A dans l’échantillon de taille

100.π̂ = 0.54
n ⩾ 30, nπ̂ = 54 > 5, n(1 − π̂) = 46 > 5
[ √ √ ]
95% π̂(1 − π̂) π̂(1 − π̂)
ICπ = π̂ − z1−α/2 n
; π̂ + z1−α/2
n
z1−α/2 = z0.975 = 1.96
95%
ICπ = [0.4423; 0.6377]

Exemple
L’intervalle de confiance est relativement grand. On ne peut conclure quant au

fait que le candidat A gagne les élections.
La taille de l’échantillon n’est pas assez importante pour avoir une précision
permettant de se prononcer sur la victoire de A
Vers le nombre de sujets nécessaire...

Quelle serait la taille minimale de l’échantillon pour avoir un idée sûre à 95% du
résultat du vote ?


Exemple
[ √ ]
95% π̂(1 − π̂)
IC π = π̂ ± z1−α/2
n
π̂ = 0.54
Il faudrait une précision de l’IC ≤ 0.03 pour pouvoir tirer une conclusion.
√
π̂(1 − π̂)
z1−α/2 ≤ 0.03
n
( )2
π̂(1 − π̂) 0.03
≤
n z1−α/2
π̂(1 − π̂) 0.54 × 0.46
n≥ ( )2 = ( 0.03 )2 ≈ 1061
0.03
z1−α/2 1.96

Résumé
Point étudié
4. Résumé

Résumé
1−α
h i
ICµ = x̄ − z1−α/2 √σn ; x̄ + z1−α/2 √σn
connue
σ2
n ≥ 30
inconnue 1−α
h i
Moyenne mais estimée par ICµ = x̄ − z1−α/2 √sn ; x̄ + z1−α/2 √sn
d’une va. continue s2
X ∼ L(µ, σ 2 )
1−α
h i
ICµ = x̄ − z1−α/2 √σn ; x̄ + z1−α/2 √σn
n < 30 connue
On suppose que
X ∼ N (µ, σ)
σ2
inconnue
mais estimée par
s2 1−α
h i
ICµ = x̄ − t1−α/2;n−1 √sn ; x̄ + t1−α/2;n−1 √sn

n ≥ 30, min{nπ̂, n(1 − π̂)} > 5
q q
Proportion 1−α
π
ICπ = π̂ − z1−α/2 π̂(1−π̂)
n ; π̂ + z1−α/2 π̂(1−π̂)
n

Estimation

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Estimation

Încărcat de

Drepturi de autor:

Formate disponibile

.

Sources : G. Marot, A. Duhamel, G. Saporta.

1. Introduction à la théorie de l’estimation

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 1 / 73

1. Introduction à la théorie de l’estimation

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 1 / 73

1. Introduction à la théorie de l’estimation

3. Estimation par intervalles de confiance

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 1 / 73

1. Introduction à la théorie de l’estimation

3. Estimation par intervalles de confiance

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 1 / 73

1. Introduction à la théorie de l’estimation

3. Estimation par intervalles de confiance

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 2 / 73

Trois concepts diﬀérents à distinguer en théorie de l’estimation :

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 3 / 73

1. Introduction à la théorie de l’estimation

3. Estimation par intervalles de confiance

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 4 / 73

On s’intéresse à un caractère X au sein d’une population P (ex : Taille)

Dans la population P, X suit une loi (distribution).

On cherche donc à connaı̂tre µ et σ 2 dans P.

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 5 / 73

1. Introduction à la théorie de l’estimation

3. Estimation par intervalles de confiance

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 6 / 73

Définition d’un échantillon aléatoire

n expériences −→ n v.a. Xi de même loi

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 7 / 73

Définition d’un échantillon aléatoire

Echantillon Aléatoire de taille n

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 8 / 73

Définition d’un échantillon aléatoire

Rappel : On cherche à connaı̂tre µ et σ 2 dans la population.

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 9 / 73

1. Introduction à la théorie de l’estimation

3. Estimation par intervalles de confiance

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 10 / 73

1. Introduction à la théorie de l’estimation

3. Estimation par intervalles de confiance

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 11 / 73

Notion d’estimateur - Exemple introductif

Echantillon Aléatoire de taille n

x1i : taille obs. de l’individu i

Notion d’estimateur - Exemple introductif

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 13 / 73

Notion d’estimateur - Exemple introductif

Echantillon Aléatoire de taille n

Moyenne obs. : x̄1

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 14 / 73

Notion d’estimateur - Exemple introductif

A chaque échantillon de taille n, les valeurs de x̄ et de s 2 sont susceptibles d’être

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 15 / 73

Notion d’estimateur - Exemple introductif

Echantillon Aléatoire de taille n

Echantillon 1 Echantillon 2 Echantillon 3 ... Echantillon k

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 16 / 73

Notion d’estimateur - Exemple introductif

A chaque échantillon de taille n, les valeurs de x̄ et de s 2 sont susceptibles d’être

et les Xi = {X1 , X2 , ..., Xn } un échantillon aléatoire.

Michaël Genin (Université de Lille 2) Théorie de l’estimation Version - 30 octobre 2015 17 / 73

Notion d’estimateur - Exemple introductif

Pn Echantillon Aléatoire de taille n