Sunteți pe pagina 1din 9

Master 1

ESTIMATION

Mars 2009

INTRODUCTION

Dans son livre, Le jeu de la science et du hasard, Daniel Schwartz, cite cette anecdote d'un anglais qui dbarque Calais et qui
apercevant une femme rousse, conclut :Tiens, les franaises sont rousses....Nous rions de son erreur, mais bien souvent nous avons
du mal l'viter ; il cite lui mme le cas d'un ami mathmaticien, qui le rencontre Paris un samedi et lui dit :..Tu ne vas plus
la campagne le samedi ? ; plus loin il imagine un chirurgien, auteur d'une nouvelle technique opratoire qui crit aux 1000 premiers
patients qui en ont bn cie ; il reoit 100 rponses : 75 sont trs satisfaits, 25 non ; il value donc la proportion de succs 75%,
partir de cet chantillon. Cependant le doute le saisit : que sont devenus les 900 autres patients, qui n'ont pas rpondu ? Rponse : ils
sont morts des suites de l'opration....No comment.
On comprend donc le problme qui se pose : on est souvent amen dcrire une population partir d'un chantillon, soit parce
que tester la population entire est impossible, on ne peut interroger chaque lecteur sur ses intentions pour construire un sondage, soit
parce que le test peut dtruire l'chantillon ; on voit mal un fabriquant d'ampoules tester leur dure de vie en les laissant toutes allumes
jusqu' leur usure complte.
C'est l'objet de l'induction ; les statisticiens appellent infrence la dmarche qui consite passer du particulier, c'est- dire
de l'chantillon, au gnral, c'est- dire la population-mre. Les tests statistiques permettent de saisir les ffets des uctuations
d'chantillonnage et de rpondre la question fondamentale : que valent les informations issues d'un chantillon ? permettent-elles de
dcrire la population ?
Ainsi se pose de faon cruciale le choix de l'chantillon, et notamment la construction d'un chantillon reprsentatif de la population.
On ne peut pas tester la population franaise par les personnes dont le nom commence par un A;ou les tudiants d'un certain cours ni
en prenant ceux du premier rang ( quand il y en a..) ni ceux du dernier rang. Ces chantillons voqus sont dits biaiss, en ce sens
qu'ils diffrent systmatiquement de la population ; ils ne sont pas reprsentatifs. La seule faon satisfaisante du point de vue thorique,
pour viter le biais, est que l'appartenance d'un lment l'chantillon ne dpende en aucun cas d'une caractristique de cet lment
(premire lettre du nom, place dans l'amphithtre,..), mais provienne uniquement du hasard, d'un tirage alatoire, o chaque individu
a la mme probabilit d'tre choisi. Si l'on veut tester si la soupe est correctement sale, et si elle a t bien mlange, on aura la mme
conclusion en gotant dans la marmite, ou dans l'assiette de quelqu'un.
Dans de nombreux sondages, on utilise un chantillonnage plus sophistiqu que le tirage au sort : on procde par strates, en xant
l'avance le nombre d'individus qui devront avoir tel ge, sexe, catgorie socio-professionnelle, etc. Mais l'intrieur de chaque
sous-groupe, les individus retenus devront rsulter d'un tirage au sort.
La statistique est base sur le fait que les donnes observes sont des ralisations de variables alatoires ; ainsi les n valeurs observes dans une population constituent n ralisations indpendantes d'une variable alatoire X suivant une loi de probabilit P; ou une
ralisation du n-uplet (X1; X2; :::; Xn ) o les Xi sont des variables alatoires indpendantes et de mme loi, P ( i:i:d: indpendantes et
identiquement distribues). On note (x1; x2; :::; xn ) un chantillon de taille n ou par extension (X1; X2; :::; Xn ) :
Par exemple, si l'on dsire tester la dure de vie d'une ampoule dans une population de taille 10000; un chantillon de taille 10 sera
not (X1; X2; :::; X10 ) ; o X1 est la dure de vie de l'ampoule N 1; etc. Si l'exprience nous donne pour la premire ampoule une
dure de vie de 500 heures, alors x1 = 500: A partir de notre chantillon, nous pourrons calculer diverses caractristiques, comme la
moyenne de l'chantillon, et nous chercherons estimer la moyenne inconnue de la population.
Pour estimer un paramtre inconnu d'une population, on peut se xer deux types d'objectifs : soit rechercher une estimation sous la
forme d'un nombre et on parle alors d'estimation ponctuelle, soit rechercher un intervalle qui contienne le paramtre inconnu, avec un
risque d'erreur consenti, et on parle alors d'intervalle de con ance (fourchette).

II ECHANTILLONS
Nous supposerons dans la suite que l'on procde un chantillonnage alatoire, c'est- dire que tous les individus d'une population
de taille N ont t numrots et que l'on a tir au sort n ( n < N ) nombres parmi les entiers de 1 N; pour constituer un chantillon
alatoire de taille n: On peut effectuer le tirage de deux faons donnant lieu deux types d'chantillons.
1. Un chantillon est dit exhaustif (du latin puiser, au sens puiser toutes les possibilits), s'il est constitu sans remise et non
exhaustif s'il est constitu avec remise.
2. Dans le cas d'un tirage non exhaustif (avec remise), il y a indpendance entre les tirages.
3. Dans le cas d'chantillons exhaustifs constitus partir d'une population nie de taille N; il n'y a pas indpendance. On d nit alors
n
le taux de sondage T =
: Si le taux de sondage est suf samment petit ( T 0:05), on peut assimiler (comme dans la situation
N
d'un schma de Bernoulli) un chantillon exhaustif un ensemble de valeurs rsultant de tirages indpendants.
4. Convention : les rsultats noncs dans ce chapitre supposent par dfaut que les chantillons considrs sont soit non
n
exhaustifs soit exhaustifs avec un taux de sondage : T =
infrieur ou gal 5%:
N
Dans le cas contraire, pour des populations nies, de taille N; si n 0:05N; on devra utiliser un correctif qui sera prcis.
page 1

UFR14

ESTIMATION

III ESTIMATION PONCTUELLE

1. ESTIMATEUR
Supposons que lors d'un concours comportant 1000 candidats, on ait corrig 100 copies. Si notre chantillon de 100 copies a pour
moyenne 10:85; cette valeur numrique constitue une estimation "naturelle" de la moyenne inconnue de la population des copies.
D nition : considrons une population et un paramtre inconnu de cette population (par exemple sa moyenne). Un estimateur
est une fonction f qui chaque chantillon tir au hasard, (X1; X2; :::; Xn ) associe un nombre, f (x1; x2; :::; xn ) qui constitue une
estimation du paramtre : L'estimateur est not b ; c'est une variable alatoire qui dpend de l'chantillon.
c = X1 + X2 + ::: + X100 et m
b = 10:85 une
Dans notre exemple prcdent un estimateur de la moyenne m des notes est : M
100
estimation de cette moyenne. On aurait pu prendre comme estimateur la mdiane des Xi ( i variant de 1 100); ou encore tout
simplement la note de la premire copie tire au hasard. On comprend que ces diffrents estimateurs ne sont pas quivalents et l'on
va d nir diverses caractristiques d'un estimateur de faon choisir celui qui permettra d'obtenir une estimation la plus proche
possible du paramtre inconnu.
2. BIAIS
On appelle biais d'un estimateur b, la diffrence E b
et ngatif dans la cas contraire.
On notera que la variable alatoire b

; entre l'esprance de b et : Le biais est positif si b tend surestimer

qui reprsente l'erreur d'estimation s'crit : b

= b E b +E b
; le premier
| {z } | {z }
terme reprsentant les uctuations de b autour de son esprance (erreur alatoire) et le deuxime terme reprsentant le biais (erreur
systmatique). On cherchera des estimateurs sans biais, en gardant l'esprit l'importance d'autres critres comme la variance.

3. ESTIMATEUR SANS BIAIS


a. Un estimateur b est sans biais si E b = :

En clair, la moyenne des valeurs de l'estimateur dans tous les chantillons de mme taille est gale la valeur du paramtre dans
la population.
X1 + X2 + ::: + Xn
Exemple important : l'estimateur X =
qui un chantillon de taille n associe la moyenne de l'chantillon
n
est un estimateur sans biais de la moyenne m de la population.

b. Les grands chantillons : un estimateur b est asymptotiquement sans biais si lim E b = :


n!+1

Exemple : on considre que le temps d'attente X entre deux rames de mtro est une variable alatoire qui suit une loi uniforme sur un intervalle [a; b] ; les bornes a et b tant inconnues. Soient X1 ; X2 ::; Xn un chantillon de n valeurs mutuellement
indpendantes et Z = M in(X1 ; X2 ::; Xn ) un estimateur de a: On admet que E (Z) = na+b
n+1 : Z est-il biais ?

4. ESTIMATEUR EFFICACE
On notera qu'un estimateur sans biais n'est pas une garantie d'obtenir une estimation de satisfaisante ; si la variance de b est grande,
on peut se trouver assez malchanceux avec l'chantillon prlev et obtenir une estimation loigne de : Il est donc important que la
variance de b soit aussi faible que possible.
a. D nition : b est un estimateur ef cace de s'il est sans biais et s'il possde la variance la plus faible des estimateurs sans biais.
On parle de meilleur estimateur sans biais (BUE : best unbiased estimator).
b. Si b1 et b2 sont deux estimateurs sans biais, on dira que b1 est plus ef cace que b2 si V b1 < V b2 :

c. Estimateur linaire : on a vu que X = n1 X1+ n1 X2 + ::: + n1 Xn est un estimateur de la moyenne de la population ; cet estimateur
est linaire car c'est une combinaison linaire des observations de l'chantillon, du type : b = a1 X1+ a2 X2 + ::: + an Xn :

d. Estimateur BLU E ( best linear unbiased estimator) : un estimateur BLU E est un estimateur linaire sans biais de variance
minimale. On peut nanmoins trouver un estimateur non linaire plus ef cace qu'un estimateur BLUE.

5. ERREUR QUADRATIQUE MOYENNE


Un estimateur sans biais peut avoir une grande variance et pose alors un problme : si b1 est un estimateur sans biais de et si
b2 est un autre estimateur lgrement biais, mais avec V b2 < V b1 ; quel estimateur choisir ? On d nit la prcision d'un
estimateur en mesurant sa dispersion autour de la vraie valeur inconnue de :
a. D nition : l'erreur quadratique moyenne est d nie par : EQM = E
b. Relation entre erreur quadratique et biais :

UFR14

ESTIMATION

Master 1

E
E

=E
2

E b

+2E

h
2

=V b + E b

E b +E b

i
E b
E b
+E
h
i
car E b E b = 0 et E b
b

E b

est une constante.

En conclusion : l'erreur quadratique moyenne est la somme de la variance de b et du carr du biais :


2

=V b + E b

c. Remarque : pour un estimateur sans biais, l'erreur quadratique moyenne est la variance, car E b = :

6. ESTIMATEUR ET GRANDS ECHANTILLONS CONVERGENT


Un estimateur b est dit convergent (vers ) si b converge vers quand n tend vers l'in ni, c'est dire si la probabilit que b s'carte
de tend vers 0 quand n tend vers l'in ni : quel que soit " > 0; lim P b
= 0:
n!+1

L'ensemble des valeurs que peut prendre l'estimateur dans tous les chantillons de mme taille doit se ressrer autour de la valeur du
paramtre de la population, quand la taille de l'chantillon augmente. On notera que si b est un estimateur convergent, alors g b
constituera un estimateur convergent de g ( ) ; pour toute fonction g de R dans R continue.

7. Echantillonnage de la moyenne (sur un exemple)


a. Exemple :
Soit une population de 5 tudiants dont les notes un examen de statistique sont les suivantes : 1 ; 2 ; 5 ; 7 ; 10 (sur 10).
Considrons l'exprience alatoire qui consiste prlever un chantillon alatoire (sans remise) de taille n ( n = 2 ou 3 ou 4
dans les calculs qui suivent) et notons X n la variable alatoire, appele moyenne d'chantillon qui chaque chantillon de taille
n associe sa moyenne. Calculons ensuite l'esprance de X n . Cela suppose d'exhiber tous les chantillons, de calculer leurs
moyennes respectives et d'effectuer la moyenne de ces moyennes. On a calcul par ailleurs, la moyenne = 5 et la variance
2
= 10:8 de la population.
i. Echantillons de taille 2, sans remise :
1
Il y a A25 = 20 chantillons de taille 2 ayant tous la mme probabilit,
; d'tre choisis. Il y a 20 moyennes calculer, en
20
fait 10;car les chantillons (1; 2) et (2; 1) ; par exemple, ont la mme moyenne.
Echantillons et moyennes

(1; 2) (1; 5) (1; 7) (1; 10) (2; 5) (2; 7) (2; 10) (5; 7) (5; 10) (7; 10)
(2; 1) (5; 1) (7; 1) (10; 1) (5; 2) (7; 2) (10; 2) (7; 5) (10; 5) (10; 7) :
1:5
3
4
5:5
3:5
4:5
6
6
7:5
8:5
On peut alors donner la distribution d'chantillonage de la moyenne (modalits xi et effectifs ni ).
xi
ni

1:5
2

3
2

3:5
2

4
2

5:5
2

4:5
2

6
4

7:5
2

8:5
2

2 1:5 + 2 3 + 2 4 + 2 5:5 + 2 3:5 + 2 4:5 + 4 6 + 2 7:5 + 2 8:5


La moyenne des xi est : E X 2 =
= 5:
20
On note que 5 est la moyenne de la population.
ii. Echantillons de taille 3 (sans remise) :
Il y a A35 = 5 4 3 = 60 chantillons, on en exhibe 10, chacun en donnant 6 par permutation.
TAILLE

Ech.
xi

(1; 2; 5)
2:7

(1; 2; 7)
3:3

(1; 2; 10)
4:3

(1; 5; 7)
4:3

(1; 5; 10)
5:3

(1; 7; 10)
6

(2; 5; 7)
4:7

(2; 5; 10)
5:7

(2; 7; 10)
6:3

(5; 7; 10)
7:3

On trouve pour la moyenne des chantillons de taille 3 : E X 3 = 5


Bilan chantillons exhaustifs :
TAILLE

E X2
5

TAILLE

V X2
4:05

E X3
5

TAILLE

V X3
1:8

E X4
5

V X4
0:675

iii. Echantillons non exhaustifs de taille 2 :


Il y a 52 = 25 chantillons de ce type.
TAILLE

(1; 2)
(2; 1)
(1; 1)

(1; 5)
(5; 1)
(2; 2)

(1; 7)
(7; 1)
(5; 5)

(1; 10)
(10; 1)
(7; 7)

(2; 5)
(5; 2)
(10; 10)

(2; 7)
(7; 2)

(2; 10)
(10; 2)
page 3

(5; 7)
(7; 5)

(5; 10)
(10; 5)

(7; 10)
(10; 7)
|

E X
5

TAILLE

{z

V X
5:4

2 AVEC REMISE

UFR14

ESTIMATION

4
iv. Conclusion :

On a constat sur tous nos exemples que la moyenne des moyennes est gale celle de la population, mais que la variance des
moyennes est plus petite que celle de la population et qu'elle diminue avec la taille de l'chantillon.

IV DISTRIBUTION D'ECHANTILLONAGE DE LA MOYENNE


1. Notations
Soit une population de taille N (ou in nie) sur laquelle est d ni un caractre quantitatif not X ayant dans cette population pour
moyenne et pour cart-type . En prlevant au hasard un chantillon de taille n, nous crons une suite de n variables alatoires
indpendantes, de mme distribution que X; notes X1 ; X2 ; :::; Xn et prenant respectivement pour valeurs les valeurs prises par X
sur chacun des n individus de l'chantillon.
2. D nition
On d nit la variable alatoire note X n , appele moyenne d'chantillon et d nie par :
X1 + X2 + ::: + Xn
Xn =
n
Nous allons dterminer la moyenne, la variance et l'cart-type de la moyenne d'chantillon.
3. Esprance
Par linarit dePl'esprance, on a :
E (Xi ) ;mais E (Xi ) = et donc E X n = n1 n = :
E X n = n1
La moyenne d'chantillon est un estimateur sans biais de la moyenne de la population.
La moyenne de la variable alatoire X est toujours gale la moyenne de la population mre, celle d'o l'chantillon a t
prlev.
4. Variance et cart-type
X1 + X2 + ::: + Xn
1
= 2 V (X1 + X2 + ::: + Xn ), de plus les variables Xi tant indpendantes la variance est
V Xn = V
n
n
P
1
X n = p : On note que
additive et on a : V X n = n12
V (Xi ) = n1 2 car V (Xi ) = V (X) = 2 ; on en dduit :
n
l'cart-type de la variable X diminue quand la taille n de l'chantillon augmente, en clair plus la taille de l'chantillon est grande,
plus X n "se concentre" autour de la moyenne de la population.
5. A retenir :
Si l'on extrait d'une population d'esprance et d'cart-type
une variable alatoire de moyenne et d'cart-type p :
n

un chantillon de taille n; la moyenne de cet chantillon est

E Xn =

V Xn =

Xn = p

6. Flash-Back : TCL
Le thorme central limite permet d'af rmer que la distribution de la moyenne d'chantillon tend vers une loi normale au
fur et mesure que la taille n de l'chantillon augmente et ce sans aucune hypothse sur la loi parente (loi de la population).
Si la loi parente a pour moyenne et pour cart-type, la moyenne d'chantillon de taille n; note X n ; suit approximativement la loi N

;p

: L'approximation est juge satisfaisante lorsque la taille de l'chantillon est d'au moins 30:

Pratique : si l'on note Z =

Xn

; la probabilit P (a

b) a pour valeur approche F (b)

F (a) ;quand n est assez grand,

n
F dsignant la fonction de rpartition de la loi normale centre rduite.
7. Petits chantillons ( n < 30) : distribution de Student
Dans le cas de petits chantillons, nous devrons supposer que la loi de la population est normale, pour af rmer que la moyenne
d'chantillonage suit une loi normale. Mais il subsite un problme : l'estimation de par S n'est pas able, car elle varie trop d'un
chantillon l'autre ; le TCL ne s'applique pas et on doit utiliser la distribution de Student (W.S.Gosset, statisticien qui travaillait
dans la brasserie irlandaise Guiness).
Rappel :
Si l'chantillonnage s'effectue partir d'une population normale
La variance 2 est inconnue
La taille de l'chantillon est petite ( n < 30). alors :
X
T =
suit une loi de Student = n 1 ddl (degr de libert). cf exemple intervalle de con ance 3c.
S
p
n
4
UFR14

ESTIMATION

Master 1

8. Exercice
a. Une machine automatique produit des pices dont le poids moyen est de 5 g avec un cart-type de 0:25g. Le contrle de qualit
fait prlever 100 pices. Calculer la probabilit que la moyenne d'un chantillon de taille 100 soit infrieure ou gale 5:01g:
(rponse : 65:54%)
b. Dterminons un intervalle centr sur la moyenne tel qu'on puisse af rmer qu'avec une probabilit de 95% cet intervalle contient
le poids moyen.
Solution : l'intervalle que nous cherchons est d ni par : z0:025
Z
z0:025 ; avec P (Z z0:025 ) = 97:5; ce qui donne
X
X
: z0:025 = 1:96, 1:96
X + 1:96 p soit ici :
1:96 soit 1:96
1:96 soit X 1:96 p
n
n
p
p
n
n
0:25
0:25
soit l'intervalle : [4: 951 ; 5: 049] : On attribue cet intervalle le niveau de con ance de
5 + 1:96 p
5 1:96 p
100
100
95% de contenir la vraie valeur de ; ce qui signi e que pour 95% des chantillons de taille 100 prlevs dans cette population
la moyenne de la population se trouve dans l'intervalle calcul (on dit aussi 19 fois sur 20):
9. On a tabli prcdemment que : E X n =
(moyenne de la population).

et

1
Xn = p
; on en dduit que X n est un estimateur (ponctuel) sans biais de
n

10. Trois estimateurs connatre : Moyenne, Variance et proportion.


a. Moyenne :
Le problme est rgl : X n est un estimateur ponctuel sans biais de
l'chantillon).

et l'estimation sera note : b = X n (moyenne de

b. Variance et Ecart-type :
i. Estimateur sans biais
Si on note S 2 un estimateur sans biais de la variance, on attend de lui : E S 2 = 2 . On est tent de penser que la
1P
2
Xi X n ; pourrait tenir ce rle, mais cet estimateur est "biais" ; si l'on extrait de nombreux
variance d'chantillon,
n
chantillons d'une population de variance 2 , on constatera qu'en moyenne la variance d'chantillon sera infrieure la
vraie valeur 2 : On dmontre que la moyenne des variances de tous les chantillons de taille n n'est pas la variance de la
population.
1 P
1P
2P
1P
2
2
2
2
Xi X n =
(Xi
)
Xn
=
(Xi
) + Xn
(Xi
) Xn
On a :
n
n
n
n
P
1P
2
1P
2
2
2
2
soit en dveloppant :
(Xi
) + Xn
Xn
(Xi
)=
(Xi
)
Xn
; il reste
n
n
n
1P
1P
2
2
prendre l'esprance des deux membres, et utiliser la linarit : E
Xi X n
=
E (Xi
)
n
n
2
2
1P 2
n 1 2
2
E Xn
=
= 2
=
; on corrige ce biais en posant :
n
n
n
n
n
1P
1 P
n
n 1 2
2
2
S2 =
Xi X n =
Xi X n et on a alors : E S 2 =
= 2:
n 1 n
n 1
n 1
n
On doit retenir :
Un estimateur sans biais de la variance de la population est la variance d'un chantillon alatoire de taille n d nie par
:
1 X
2
S2 =
Xi X n
n 1
1P
n
2
2
2
xi X n dsigne la variance calcule
qui donne comme estimation de la variance : S 2 =
n o n =
n
n 1
r
n
sur l'chantillon ; on obtient comme estimation de l'cart-type : S =
n .
n 1
On note que S >

n:

ii. Calculatrice
La calculatrice statistique fournit partir de donnes d'un chantillon, l'cart-type de l'chantillon, not
tions n ) et l'estimation de l'cart-type de la population, note SX (avec nos notations s).
Rentrer dans une liste l'chantillon der
taille 3; (10 ; 20 ; 50)r; dans le menu Calcul 1variable on obtient :
3
3
SX ' 20:8167 ; on vri e que SX '
' 20:816 6:
X ' 16:9967
2
2

(avec nos nota-

= 16:9967 et

iii. Exercice corrig


Par un sondage effectu auprs d'un chantillon de 178 cadres suprieurs, on a obtenu un revenu annuel moyen de 41854 e,
avec un cart-type de 7684 e, l'objectif tant d'estimer le revenu annuel de tous les cadres suprieurs.
Estimer ponctuellement le salaire moyen et l'cart-type du salaire moyen des cadres de la population.
page 5
UFR14

ESTIMATION

Corrig :
On sait que le salaire moyen de l'chantillon est un estimateur sans biais du salaire moyen de la population, donc on estimera
le salaire moyen de la population par : E X = 41854 ; on prend comme estimateur de la variance de la population, S 2 ; la
r
r
n
n
178
2
2
variance d'chantillon d nie par : S =
7684 = 7705: 68
n =
n et donc pour l'cart-type : S =
n 1
n 1
177
e
c. Estimation d'une proportion
On s'intresse la proportion p des individus d'une population ayant une caractristique donne. On dmontre que p peut tre
estime par pb; la proportion d'individus ayant cette caractristique dans un chantillon de taille n; cet estimateur tant sans biais.
d. BILAN :

Paramtre estimer
Moyenne :
Variance :

Ecart-type
proportion : p

Estimateurs
X
1 P
n
2
2
S2 =
Xi X n =
; n cart-type calcul sur l'chantillon de taille n
n 1
n 1 n
r
n
S=
n
n 1
pb (proportion d'chantillon), avec E (b
p) = p

V INTERVALLE DE CONFIANCE

1. Introduction
2. Les estimations ponctuelles ne fournissent pas d'information sur la prcision des estimations, c'est- dire qu'elles ne tiennent pas
compte de l'erreur possible attribuable aux uctuations d'chantillonnage, or deux chantillons distincts donnent presque certainement des valeur diffrentes pour l'estimation.
Il s'agit toujours d'estimer un paramtre inconnu, mais au lieu de lui attribuer une valeur unique en faisant appel un estimateur
ponctuel, de construire un intervalle alatoire qui permette de recouvrir, avec une certaine abilit, la vraie valeur du paramtre
estim. Cet intervalle alatoire dpend de l'chantillon. Avant de prlever l'chantillon, on assigne l'intervalle alatoire une probabilit de contenir la vraie valeur de . On attribue souvent cette probabilit, dcide au pralable, la valeur de 95%: Une fois
l'chantillon prlev, on obtient un intervalle xe (non alatoire) auquel on attribue le niveau de con ance de 95%; de contenir la
vraie valeur de :
a. Niveau de con ance
Si P (a
b) = 1
; cette probabilit note (1
) souvent exprime en pourcentage s'appelle le niveau de con ance
de l'intervalle. Ce niveau est dcid au pralable et peut tre aussi lev (proche de 100%) que l'on veut. On choisit souvent
= 5%;ce qui donne un niveau de con ance de 95%:
b. Le seuil de risque
La probabilit ; exprime en pourcentage, est appele le niveau de risque. reprsente la probabilit de se tromper en af rmant
que l'intervalle de con ance contient le paramtre : dsigne la probabilit pour que l'intervalle que l'on dtermine ne contienne
pas la vraie valeur du paramtre.
c. Le choix
La dtermination d'un intervalle de con ance nous place devant un choix dif cile : soit refuser un risque lev, mais alors obtenir
un intervalle "grossier" et de peu d'intrt, soit accepter un risque lev et obtenir un encadrement assez prcis. On peut dire
qu'avec un niveau de con ance de 100%;l'intervalle [0; 20] contiendra votre note de partiel....mais l'intrt d'un tel rsultat est
faible....
d. Exemple :
Soit X la variable alatoire correspondant la valeur hebdomadaire des achats de la mnagre de 50 ans...
Supposons que l'intervalle de con ance 95% soit ]455:10 ; 495:40[ et que l'intervalle de con ance 99% soit ]448:73 ; 501:77[
; cela signi e que 95% des chantillons de taille n donneront une valeur dans l'intervalle ]455; 10 ; 495:40[ et que 99% d'entre
eux une valeur dans l'intervalle ]448:73 ; 501:77[ .
On notera videmment que plus le niveau de con ance exig est grand, plus l'amplitude de l'intervalle est grande.
3. Intervalle de con ance d'une moyenne
a. Ecart-type de la population connu
Pour n 30 ;

=2

I= x

tant calcul avec la loi normale : P

Rappel : P

=2

=2

= 2F z

=2

=2

=2 p

;x + z

=2

=1

=2 p

n
; Z suivant la loi N (0; 1) ;

1 , F dsignant la fonction de rpartition de la loi normale centre rduite.


6
UFR14

ESTIMATION

Master 1
On retiendra que pour
rduite).

= 0:05; z

=2

= 1:96 (vri er dans la table de la fonction de rpartition de la loi normale centre

b. Ecart-type de la population inconnu


i. On commence par faire une
r estimation ponctuelle S de l'cart-type
n
dans l'chantillon : S =
n et on fait le mme travail :
n 1
I= X

S
;X + z
n

=2 p

de la population, en utilisant

l'cart-type calcul

S
n

=2 p

S
n
Remarque : p = p
n
n 1
ii. Exemple : reprenons le salaire des cadres (9biii) et cherchons une estimation du salaire moyen par un intervalle de con ance
95%.
Le thorme central limite nous dit que si n 30; la variable X a une distribution approximativement normale avec comme
S
paramtre la moyenne m de la population et comme cart-type estim p = 577: 56; que nous avons dj calcul.
n
Sn
Sn
m X + 1:96 p
= 0:95:
On a donc : P X 1:96 p
n
n
Sn
On appelle marge d'erreur la demi amplitude de l'intervalle : 1:96 p = 1:96 577: 56 = 1132: 02; ce qui donne un intervalle
n
de con ance :
41854 1132: 02 m 41854 1132: 02 soit : 40721: 98 m 42986: 02
Pour 95% des chantillons de taille 178, le revenu annuel moyen est au plus 1132.02 e du revenu annuel moyen de tous les
cadres.
L'intervalle calcul nous donne raison 19 fois sur 20.
c. Petit chantillon ( n < 30) prlevs dans une population normale
S
S
i. I = X t =2; p ; X + t =2; p
n
n
ii. Exemple : on a test 25 enfants de 3 6 ans prlevs au hasard dans une population et on a relev le temps X de raction
(en centime de seconde) certains stimuli. on suppose que ce temps obit une loi normale. Dterminer un intervalle de
con ance 98%:
S
19:09
On donne la moyenne d'chantillon X = 100:48 et l'cart-type d'chantillon, S = 19:09; ce qui donne p =
= 3:
5
n
82 centimes de seconde. =2 = 0:01 et = 24 ; la table donne t =2; = t0:01;24 ' 2:49; soit un intervalle de con ance :
S
S
I = X t =2; p ; X + t =2; p
= [100:48 2:49 3: 82 ; 100:48 + 2:49 3: 82] = [90: 97 ; 109: 99] .
n
n
d. Fluctuation d'chantillonnage d'une proportion
i. Introduction et notations
On prlve au hasard un chantillon de grande taille d'une population dont les lments possdent dans une proportion p un
caractre qualitatif. Sur cet chantillon de taille n;on observe une proportion que nous noterons pb d'lments possdant ce
caractre ; pb est une estimation ponctuel de p et nous notons Pb l'estimateur de p:
ii. Rgle
Si

nb
p 5
n (1 pb) 5

la distribution de Pb est approximativement normale, sa moyenne est pb et son cart-type


"

iii. Intervalle de con ance : I = pb

=2

pb (1 pb)
; bp + z
n

=2

pb (1 pb)
n

pb (1 pb)
:
n

e. Exemple :
Un processus de fabrication produit en moyenne une proportion de 2:5% de transistors dfectueux. Quelle est la probabilit pour
que sur 200 transistors contrls, au moins 8 soit dfectueux ?
Corrig :
np = 200 0:025 = 5 5 et n (1 p) = r
200 0:975 = 195
5 ; on en dduit que la distribution de Pb est approximativement
r
0:025 (1 0:025)
pb (1 pb)
' 0 :0 110 ; on cherche la probabilit d'en avoir
normale ;avec E Pb = 0:025 et (p) =
=
200
n
page 7
UFR14

ESTIMATION

au moins 8 sur 200; soit une proportion suprieur ou gale 4% .


0:04 0:025
Calculons la probabilit : P Pb 0:04 = P Z
=1
0:0 110

F (1: 36) ' 1

0:9131 ' 0:0 869

f. Exercices :
i. Sur 100000 naissances, on observe 51300 garons. Dterminer un intervalle de con ance au seuil de 5% du taux de masculinit.
Rponse : [0:5032; 0:5228] :
ii. A la suite d'un sondage alatoire, portant sur 1000 lecteurs, une proportion de 31% de d'intentions de vote s'est dgage en
faveur du candidat X .Donner un intervalle de con ance 95% du pourcentage des intentions de vote pour ce candidat dans
l'ensemble de la population.
Rponse : [0:281; 0:339]

VI LEARNING BY DOING
1. Reprendre l'exercice du salaire des cadres et donner un intervalle de con ance au seuil de 99%. Commenter.
2. Reprendre le mme exercice avec un chantillon de taille 10000. Commenter.
3. "Pas facile de transmettre des valeurs ses enfants"
Il ressort d'un sondage ralis auprs de 1009 parents au Qubec, que 772 d'entre eux jugent dif cile de transmettre des valeurs
durables leurs enfants.
1. a. Estimer ponctuellement la proportion de parents trouvant dif cile de transmettre des valeurs durables leurs enfants.
b. Donner une estimation de cette proportion par un intervalle de con ance 95%.
Dans la pratique, on retient :
Paramtre estimer
Moyenne : m
Variance :
proportion : p

Estimation calcule sur l'chantillon


X
n
2
Sn2 =
; n cart-type de l'chantillon de taille n
n 1 n
pb (proportion dans l'chantillon)

L'estimateur de la moyenne est sans biais et convergent : E X = m et V X =


Pour l'cart type on a introduit un correctif car

2
n

n'est pas sans biais.

! 0 si n tend vers +1:

VIIRESUME : Intervalle de con ance


VII.1 PROPRIETES
I Il est centr sur la valeur de l'estimateur ponctuel calcul sur l'chantillon.
I Il a une amplitude qui tient compte de l'erreur d'chantillonage. Ses bornes sont : estimation
dpendant des uctuations de l'estimateur.

erreur d'chantillonage, cette erreur

I Il a un niveau de con ance, appel seuil de con ance. Ce seuil, not 1


; est x au dpart ; il reprsente la probabilit que
l'intervalle encadre le paramtre.
plus le seuil est grand, plus la probabilit que l'intervalle contienne le paramtre estim est grande.
On prend souvent 1
= 0:95 (niveau de con ance 95%) : un intervalle de con ance au seuil 95%, signi e que si l'on prlve un
grand nombre d'chantillon de mme taille, 95% des intervalles de con ance calculs contiennent la vraie valeur du paramtre.
VII.2 PRATIQUE
1. MOYENNE
a. Ecart-type de la population connu
Pour n 30 ;
X
avec : P

=2

On retiendra que pour


b. Ecart-type

=2

=1

=2 p

; X +z

=2 p

; Z suivant la loi N (0; 1) ;

= 0:05; t = 1:96 (vri er dans la table de la fonction de rpartition de la loi normale centre rduite).

de la population inconnu

UFR14

ESTIMATION

Master 1

On commence par faire


r une estimation ponctuelle Sn de l'cart-type
n
l'chantillon : S =
n et on fait le mme travail avec S :
n 1
I= X

S
;X + z
n

=2 p

de la population, en utilisant

l'cart-type calcul sur

Sn
=2 p

S
n
Remarque : p = p
n
n 1
c. n < 30, population normale et cart-type

de la population inconnu

I= X

=2;

S
p ;X + t
n

=2;

S
p
n

2. PROPORTION
Pour une population telle que :

nb
p 5
,
n (1 pb) 5
"
r
I = pb

=2

pb (1 pb)
; pb + z
n

page 9

=2

pb (1 pb)
n

UFR14

S-ar putea să vă placă și