Cours de Statistiques Inférentielles

COURS
DE
STATISTIQUES
INFERENTIELLES.
Rédigé par : M. MOUGNOL Patrice Clément
Economiste (Techniques Quantitativistes).
Université de Yaoundé 2 Soa – Cameroun.

SOMMAIRE
DESIGNATION PAGE
INTRODUCTION 3
I. RAPPELS D’ELEMENTS D’INDUCTION STATISTIQUE 5
I.1. Echantillon d’une variable aléatoire 5
I.2. Loi du Khi-Deux 6
I.3. Loi de Fischer Snedecor 7
I.4. Loi de Student. 7
II. ESTIMATIONS STATISTIQUES 10
II.1. Définitions 11
II.2. Propriétés relatives aux échantillons de petites tailles 11
II.3. Propriétés relatives aux échantillons de grandes tailles 13
II.4. Estimation par la méthode du maximum de vraisemblance 14
II.5. Estimation par intervalles 16
III. TESTS D’HYPOTHESE 19
III.1. Définitions 19
III.2. Evaluation du test 21
III.3. Types d’erreurs de décision 22
III.4. Courbe caractéristique d’efficacité, puissance d’un test 24
III.5. Tests entre hypothèses simples : méthode de NEYMAN et
PEARSON 26
BIBLIOGRAPHIE 28
Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.
2
INTRODUCTION
La statistique descriptive selon Wikipédia est la branche des
statistiques qui regroupe les nombreuses techniques utilisées pour décrire un
ensemble relativement important de données.
D’autres1 la considèrent comme un tout et son enseignement est profondément

marqué par cette unité. Du domaine de la statistique descriptive à celui de la théorie
des sondages en passant par le calcul des probabilités, cette science combine les
multiples techniques qui débouchent sur d’innombrables applications théoriques ou
concrètes.
L’objet de la statistique descriptive est de décrire, c'est-à-dire de résumer ou de

représenter, par des statistiques, les données disponibles quand elles sont
nombreuses.
En effet, toute description d’un phénomène nécessite d’observer ou de connaitre

certaines choses sur ce phénomène.
 Les observations disponibles sont toujours constituées d’ensemble

d’observations synchrones. Par exemple : une température, une pression, et
une mesure de densité à un instant donné dans une cuve précise. Ces trois
variables synchrones peuvent être observées plusieurs fois (à plusieurs dates)
à plusieurs lieux (dans plusieurs cuves)
 Les connaissances disponibles quant à elles sont constituées de formules qui
relient certaines variables. Par exemple la loi des gaz parfaits. 𝑷𝑽 = 𝒏𝑹𝑻
La diversité des multiples prolongements de la statistique semble la rendre

omniprésente et apparemment hybride puisqu’elle est tantôt la science du certain et
tantôt celle de l’aléatoire. In fine, c’est bien de la totalité des techniques d’analyse
statistiques que l’économie doit disposer pour assumer pleinement les tâches
théoriques ou pratiques qui peuvent l’attendre.
1
JM GANKOU et R. NANTCHOUANG
3
La statistique descriptive est une méthode de description et non une théorie. Elle
permet de décrire et non d’expliquer. On parle de statistiques uni variées pour
lesquelles un ensemble de variables (couleur des yeux) peuvent être observées dans
une population (ensemble d’individus) et, de statistiques bi variées lorsque deux
variables statistiques (x et y) sont définies sur un ensemble Ω. L’intérêt de cette étude
est de savoir si on peut expliquer y par x.
On peut distinguer deux sortes de statistiques :
 D’une part la statistique descriptive lorsqu’il s’agit d’organiser et de résumer des

observations. On ne fait pas de comparaison et on s’intéresse à un seul groupe,
échantillon ou population. Et,
 De statistiques inférentielles (ou inductives) qui visent deux buts :
- Déduire les propriétés d’une population à partir de l’étude d’un
échantillon. C’est par exemple le principe des sondages. Il est important
que l’échantillonnage soit fait au hasard. On met un accent particulier
sur la notion de variabilité, principe inhérent à tout phénomène
biologique.
- Comparer deux ou plusieurs populations ou échantillons ; si une
différence existe, on se demandera si cette différence est due à la
variabilité (hasard) ou à un facteur différenciant les groupes étudiés.
Dans le souci d’avoir les informations sur les individus que constituent la population
d’un pays par exemple, les administrateurs ont ressenti la nécessité de connaitre les
caractéristiques qui leurs sont propres. C’est ainsi que la statistique connue
auparavant comme « arithmétique d’Etat » est née et trouve sa justification actuelle.
De nos jours, le champ d’application de la statistique a largement dépassé ce stade,
mais son objet est resté fondamentalement le même : décrire par rapport à un
ensemble de caractéristiques, une population ou un échantillon précis. Il s’agira de
construire des groupes (population, échantillon) homogènes à partir des valeurs
observées de critères, puis de dénombrer chacun de ces groupes. Nous faisons
allusion ici à une méthodologie élaborée à travers des modèles statistiques qui, par
une formalisation, permettra de préciser les concepts, leur notation, les calculs
possibles et leurs propriétés.
4
I. RAPPEL D’ELEMENTS D’INDUCTION STATISTIQUE
L’objectif de l’inférence statistique est de déterminer une procédure qui à partir

des seules observations dont dispose l’économètre ou le statisticien, permet de passer
de l’espace d’échantillon à celui des structures ou univers.
Ainsi, l’inférence statistique se définit comme l’étude :
i. Des conclusions tirées pour une structure donnée à partir de l’analyse

des échantillons extraits,
ii. Du degré d’exactitude de ces conclusions
En fait, l’on étudie ces conclusions dans le but d’en fournir une formulation appropriée.
De ce fait, la démarche analytique implique :
 L’évaluation des procédures d’approximation de la valeur inconnue des

paramètres, lesquels sont appelés « procédures d’estimation »
 Des règles de décision pour test d’hypothèses.
L’observation des structures dans leur globalité est souvent couteuse. On cherchera
ainsi à étudier des sous-ensembles des unités les composant c'est-à-dire des
échantillons aux fins de caractériser ces structures. On aura aussi à définir et à étudier
les échantillons d’une variable aléatoire pour laquelle il est nécessaire de connaitre la
loi de probabilité.
I.1. Echantillon d’une variable aléatoire.

1 2
1 − (𝑋−𝜇)
Pour 𝑋~𝒩(𝜇, 𝜎 2 ), 𝑙𝑎 𝑑𝑒𝑛𝑠𝑖𝑡é 𝑓(𝑥) = 𝑒 2𝜎2
𝜎√2𝜋
Echantillon de taille n :
Soit donnée une population comprenant un nombre fini noté n d’éléments que l’on
étudie relativement à un caractère mesurable réel X. La spécification de la proportion
𝐹(𝑥), 𝑥 𝜖ℝ des éléments pour lesquels 𝑋 < 𝑥. Cette spécification permet de déterminer
sans ambiguïté la population à étudier.
5
On définit une expérience 𝜀 consistant au choix au hasard d’un élément de l’ensemble.
En procédant à une suite indépendante de n expériences, l’on définit une suite

indépendante de variables aléatoires(𝑋1, ,𝑋2, ….., 𝑋𝑛 ) chacune ayant la même
distribution que X. C’est cette suite qui est appelée échantillon de taille n et on note,
𝑥1, ,𝑥2 , ….., 𝑥𝑛 , la réalisation de cet échantillon. (𝑋1,,𝑋2, ….., 𝑋𝑛 ) définit un vecteur de
variables aléatoires. La réalisation n’est pas aléatoire.
Pour n donné comme taille de l’échantillon de la population X, la densité de probabilité

𝑃𝜃 .
 Si 𝜎 2 connu et fini, on a : 𝐸(𝑋) = 𝜇

 Si 𝜎 2 inconnu et la taille (n) est grande, alors on procède à l’estimation
𝑛 ≥ 30 → Approximation normale de la distribution d’échantillonnage de la moyenne
𝑛 < 30, → 𝑙 ′ 𝑎𝑝𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑡𝑖𝑜𝑛 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡
1
Si on veut caractériser la variance qui est inconnue, alors elle s’écrit 𝜎̂ 2 = 𝑛 ∑(𝑥𝑖 − 𝜇)2
qui est l’estimateur du maximum de vraisemblance et qui suppose 𝑋̅ estimé.
̂2
𝑛𝜎 ∑(𝑥𝑖 −𝑥̅ )2 2
La variable associée sera définie par = ~𝒳𝑛−1
𝜎2 𝜎2
I.2. Loi du Khi-Deux :
a) Définitions : Soit (𝑥1, ,𝑥2 , ….., 𝑥𝑛 ,) un ensemble de variables aléatoires suivant

chacune une distribution normale centrée réduite. La variable associée notée
U= 𝑋12 + 𝑋22 + ⋯ … . . +𝑋𝑛2 définit une variable du Khi-Deux, laquelle suit

une loi de Khi-Deux à n degrés de liberté (ndl). Les moments de cette
distribution à savoir : la moyenne et la variance sont :
b) Caractéristiques :
2
𝐸 ( 𝒳𝑛 ) = ∫𝑅∗ 𝑈𝑓(𝑈)𝑑𝑢 = 𝑛
+
2
Et, 𝑉𝑎𝑟(𝒳𝑛2 ) = ∫𝑅∗ (𝑈 − 𝐸(𝑈)) 𝑓(𝑈)𝑑𝑈 = 2𝑛
+
6
La somme de variable de 𝒳 2 définit une variable de 𝒳 2 , et le degré de liberté
de cette somme est égal à la somme des degrés de libertés respectifs
𝒳𝑛2 −𝑛
Pour Paul LEVY, lorsque 𝑛 → ∞, alors ~𝒩(0,1) et, l’approximation
√2𝑛
de Fisher pour 𝑛 → ∞, nous permet d’écrire que : √2𝒳𝑛2 − √2𝑛 − 1~

𝒩(0,1)
I.3. la loi de Fischer Snedecor :
a)- Définition : Soient 𝑄1 𝑒𝑡 𝑄2 deux variables aléatoires indépendantes telles que

𝑄1 𝑠𝑢𝑖𝑡 𝒳 2 (𝑣1 ) 𝑒𝑡 𝑄2 𝑠𝑢𝑖𝑡 𝒳 2 (𝑣2 ) alors la variable aléatoire
𝑄 /𝑣
𝐹 = 𝑄1 /𝑣1 suit une loi de Fischer-Snedecor à
2 2
(𝑣1 , 𝑣2 ) 𝑑𝑒𝑔𝑟é𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡é, 𝑛𝑜𝑡é𝑒 𝐹(𝑣1 , 𝑣2 )
b)- Caractéristiques :
La fonction de la loi 𝐹(𝑣1 , 𝑣2 ) est :
𝑣 +𝑣 𝑣1
Γ( 1 2 2 ) 𝑣 𝑥 2
−1
f(x) = 𝑣 𝑣 ( 1 )𝑣1 /2 𝑣1+𝑣2 𝑠𝑖 𝑥 > 0 (0 𝑠𝑖𝑛𝑜𝑛)
Γ( 21 )Γ( 22 ) 𝑣2 𝑣
(1+𝑣1 𝑥) 2
2
Espérance mathématique :
𝑣1
Son espérance n’existe que si 𝑣2 ≥ 3 𝑒𝑡 𝑣𝑎𝑢𝑡 , . Sa variance n’existe que si
𝑣2 −2
2𝑣22 (𝑣1 +𝑣2 −2)

𝑣2 ≥ 5 𝑒𝑡 𝑣𝑎𝑢𝑡
𝑣1 (𝑣2 −2)2 (𝑣2 −4)
1
𝑆𝑖 𝐹 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑑𝑒 𝐹𝑖𝑠𝑐ℎ𝑒𝑟 𝐹(𝑣1 , 𝑣2 ) 𝑎𝑙𝑜𝑟𝑠, 𝐹 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑑𝑒 𝐹𝑖𝑠𝑐ℎ𝑒𝑟 𝐹(𝑣2 , 𝑣1 ).
𝑆𝑖 𝑇 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 à 𝑣 𝑑𝑒𝑔𝑟é𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡é 𝑎𝑙𝑜𝑟𝑠 𝑇 2 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑑𝑒 𝐹𝑖𝑠𝑐ℎ𝑒𝑟 𝐹(1, 𝑣).
7
Soient 𝑍 𝑒𝑡 𝑄 deux variables aléatoires indépendantes telles que 𝑍 suit 𝒩(0,1) et
𝑄 suit 𝒳 2 (𝑣). Alors la variable aléatoire.
𝑍
𝑇= suit une appelée 𝒍𝒐𝒊 𝒅𝒆 𝑺𝒕𝒖𝒅𝒆𝒏𝒕 à 𝒗 𝒅é𝒈𝒓é𝒔 𝒅𝒆 𝒍𝒊𝒃𝒆𝒓𝒕é, 𝒏𝒐𝒕é𝒆 𝑺𝒕(𝒗).
√𝑄/𝑣
 La densité de la loi de Student à v degrés de liberté est :

𝑣+1
1 Γ( ) 1
𝑓(𝑥) = 2
𝑣 2 𝑣+1
√𝜋𝑣 Γ( ) (1 + 𝑥 ) 2
2 𝑣
 L’espérance n’est pas définie pour 𝑣 = 1 𝑒𝑡 𝑣𝑎𝑢𝑡 0 𝑠𝑖 𝑣 ≥ 2. Sa variance
𝑣
n’existe pas pour 𝑣 ≥ 2 et 𝑣𝑎𝑢𝑡 𝑝𝑜𝑢𝑟 𝑣 ≥ 3
𝑣−2
 La loi de Student converge en loi vers la loi normale centrée réduite
Remarque : pour 𝑣 = 1, la loi de Student s’appelle loi de Cauchy, ou loi de

Lorentz.
I.4. Loi de Student.
a)- Définition : Soient 𝑍 𝑒𝑡 𝑄 deux variables aléatoires indépendantes telles que

𝑍 suit 𝒩(0,1) et 𝑄 suit 𝒳 2 (𝑣). Alors la variable aléatoire.
𝑍
𝑇= suit une appelée 𝒍𝒐𝒊 𝒅𝒆 𝑺𝒕𝒖𝒅𝒆𝒏𝒕 à 𝒗 𝒅é𝒈𝒓é𝒔 𝒅𝒆 𝒍𝒊𝒃𝒆𝒓𝒕é, 𝒏𝒐𝒕é𝒆 𝑺𝒕(𝒗).
√𝑄/𝑣
 La densité de la loi de Student à v degrés de liberté est :

𝑣+1
1 Γ( ) 1
𝑓(𝑥) = 2
𝑣 2 𝑣+1
√𝜋𝑣 Γ( ) (1 + 𝑥 ) 2
2 𝑣
b)- caractéristiques :
L’espérance n’est pas définie pour 𝑣 = 1 𝑒𝑡 𝑣𝑎𝑢𝑡 0 𝑠𝑖 𝑣 ≥ 2. Sa variance n’existe
𝑣
pas pour 𝑣 ≥ 2 et 𝑣𝑎𝑢𝑡 𝑝𝑜𝑢𝑟 𝑣 ≥ 3
𝑣−2
La loi de Student converge en loi vers la loi normale centrée réduite
8
Remarque : pour 𝑣 = 1, la loi de Student s’appelle loi de Cauchy, ou loi de Lorentz.
Contrairement à la loi normale centrée réduite, la loi de Student dépend du nombre de
degré de liberté. En outre, c’est une loi exacte c’est-à-dire une loi non asymptotique.
Cette loi est utilisée dans la théorie des tests et d’estimation dans l’analyse des petits
échantillons.
9
II. ESTIMATIONS STATISTIQUES
En général, l’estimation est soit ponctuelle, soit par intervalle.

- L’estimation ponctuelle permet d’obtenir un seul nombre pour le paramètre
∑ 𝑥𝑖
̅
inconnu d’estimation. Exemple : 𝑋 = .
𝑛
- Dans l’estimation par intervalle, l’on associe à l’échantillon un intervalle
aléatoire dans le but de prendre en compte, le degré de précision de l’estimation
ponctuelle réalisée. Ainsi, l’on pourra avoir : 𝑋̅ ± 𝜀, avec 𝜀 considéré comme le
terme d’erreur probable ou marge d’erreur.
Notons qu’en fait, le nombre déterminé ponctuellement doit correspondre à la valeur

que l’on croit la meilleure possible pour le paramètre inconnu d’une population.
Par meilleur, l’on veut dire une estimation qui satisfait à des propriétés dites optimales
à savoir :
o L’absence des biais,

o L’efficacité, (dans le cas des échantillons de petites tailles)
o L’estimation asymptotiquement sans biais et convergent
Des estimateurs possédant de telles propriétés sont obtenues par application de

certaines méthodes d’estimation parmi lesquelles :
 La méthode du maximum de vraisemblance,

 La méthode des moments,
 La méthode des moindres carrés
 La méthode BLUE (Best Linear Unbiased Estimator) ou meilleur estimateur
sans biais.
10
II.1. Définition :
 ESTIMATEUR : si 𝜃, est la paramètre d’estimation, on a : 𝜃̂ = 𝒰(𝑋1 , 𝑋2 , … . , 𝑋𝑛 )

qui se conçoit comme une variable aléatoire dont la distribution peut se
caractériser par
La moyenne : 𝐸( 𝜃̂) et
La variance : 𝑉𝑎𝑟 ( ̅𝜃̂) = 𝐸 [ (𝜃̂) − 𝐸( ̅𝜃̂)] 2
 ERREUR D’ECHANTILLONNAGE : c’est l’erreur commise du fait que l’on base

la détermination de la valeur inconnue de 𝜃̅ sur les informations fournies par
l’échantillon. Cette erreur est définie par la quantité 𝜃̂ − 𝜃 qui est la déviation
de l’échantillon de la valeur réelle.
 BIAIS : c’est la quantité 𝐸( 𝜃̂) − 𝜃. La moyenne de la distribution
d’échantillonnage de l’estimateur peut ou non coïncider avec la valeur réelle.
Lorsqu’il n’y a pas de coïncidence, l’on parle de biais, lequel biais est défini par
la quantité susmentionnée.
 ERREUR QUADRATIQUE MOYENNE (EQM) : elle est donnée par
l’expression : 𝐸𝑄𝑀(𝜃̂) = 𝑣𝑎𝑟𝜃̂ + 𝐵𝑖𝑎𝑖𝑠 2 .
Si l’on s’intéresse à la dispersion par rapport à la valeur réelle, dans ce cas on a :
𝐸𝑄𝑀(𝜃̂) = 𝐸(𝜃̂) − 𝜃)2
TAF : démontrer que
𝐸(𝜃̂ − 𝜃)2 = 𝑣𝑎𝑟𝜃̂ + 𝑏𝑖𝑎𝑖𝑠 2
II.2. Propriétés relatives aux échantillons de petites tailles :
 ESTIMATEUR NON BIAISE : un estimateur est sans biais si sa valeur espérée
est égale à la valeur inconnue du paramètre. 𝐸(𝜃̂) = 𝜃. On parle ici d’un

∑ 𝑋𝑖
̅
estimateur centré. Prenons l’exemple suivant : 𝑋 = , vérifions s’il est sans
𝑛
biais.
11
∑𝑋 1
En effet, 𝐸 (𝑋̅) = 𝐸 ( 𝑖 ) = ∑ 𝐸(𝑥𝑖 ). Or, les 𝑥𝑖 sont les variables aléatoires
𝑛 𝑛
1 1
̅) =
de même loi que X de la sorte que, 𝐸(𝑋 ∑ 𝜇 = 𝑛𝜇 = 𝜇, (𝑐𝑞𝑓𝑑)
𝑛 𝑛
∑(𝑋𝑖 −𝑋̅)
TAF : Vérifions aussi que 𝑆 2 = est un estimateur sans biais, c’est-à-dire
𝑛−1
𝐸(𝑆 2 ) = 𝜎 2 ?
∑(𝑋𝑖 −𝑋̅) (𝑛−1)

Solution : On part du fait que 𝑆 2 = et que la variable 𝑆 2 ~𝒳𝑛2 car la
𝑛−1 𝜎2
moyenne de la population est connue au départ et pour n degré de liberté (dl)
(𝑛−1) (𝑛−1) 𝑛
𝐸[ 𝑆 2 ] = 𝑛. Soit en principe 𝐸(𝑆 2 ) = 𝑛, ⟹ 𝐸(𝑆 2 ) = 𝜎2 ≠ 𝜎2
𝜎2 𝜎2 𝑛−1
Donc, 𝑆 2 n’est pas un estimateur centré de la variance de population.
 ESTIMATEUR EFFICACE :
D’un point de vue d’une grandeur relative, un estimateur est dit efficace s’il est parmi
les estimateurs sans biais, celui qui a la plus petite variance.
On parle aussi de risque lors des comparaisons d’estimateurs. On peut comparer aussi
bien des estimateurs sans biais que des estimateurs avec biais. On note :
𝑅(𝜃̂, 𝜃 ) le risque= 𝐸𝑄𝑀 = 𝑣𝑎𝑟(𝜃̂) + 𝑏𝑖𝑎𝑖𝑠 2
Si l’on définit deux estimateurs 𝜃̂1 𝑒𝑡 𝜃̂2 sous la base du risque, on dira
que 𝜃̂1 𝑒𝑠𝑡 𝑝𝑟é𝑓é𝑟é à 𝜃̂2 𝑠𝑖 𝑙 ′ 𝑜𝑛𝑎: 𝑅(𝜃̂1 , 𝜃) ≤ 𝑅(𝜃̂2 , 𝜃), ∀𝜃
 ESTIMATEUR OPTIMAL
On appelle estimateur optimal de 𝜃, l’estimateur 𝜃̂ qui est préférable à tout autre au

sens de la variance (la variance la plus faible). Pour deux estimateurs donnés 𝜃̂ 𝑒𝑡 𝜃̃,
on a
12
𝜃̂ 𝑒𝑠𝑡 𝑝𝑟é𝑓é𝑟é à 𝜃̃ au sens de la variance si l’on vérifie que 𝑉𝑎𝑟(𝜃̂) ≤ 𝑉𝑎𝑟(𝜃̃ ), ∀𝜃. Un
tel estimateur n’est pas nécessairement efficace. Mais si un estimateur sans biais est
optimal, alors il est unique et est efficace.
 ESTIMATEUR BLUE :
C’est un estimateur qui vérifie les conditions suivantes :
i. 𝜃̂ est une fonction linéaire des observations sur la variable dépendante.

ii. 𝜃̂ est sans biais,
iii. 𝑉𝑎𝑟(𝜃̂) ≤ 𝑉𝑎𝑟(𝜃̃).
II.3. Propriétés relatives aux échantillons de grandes tailles :
 Estimateur asymptotiquement sans biais :
L’estimateur asymptotiquement sans biais est un estimateur pour lequel on vérifie que,
pour 𝑛 → ∞, 𝑎𝑙𝑜𝑟𝑠 𝑙𝑖𝑚[𝐸(𝜃̂) − 𝜃] → 0. C'est-à-dire dont le biais s’annule à la limite.
∑(𝑋𝑖 −𝑋̅) 2 𝑛 𝑛
𝑆2 = ⟹ 𝐸(𝑆 2 ) = 𝜎 2 𝑙𝑜𝑟𝑠𝑞𝑢𝑒 𝑛 ⟶ ∞, 𝑒𝑡 ⟶ 1 ⟹.
𝑛−1 𝑛−1 𝑛−1
On parle d’estimateur asymptotiquement sans biais
 Estimateur asymptotiquement efficace :
L’estimateur asymptotiquement efficace est un estimateur pour lequel on définit

l’inégalité de Cramer Rao par :
𝐿𝐼𝐶𝑅
𝑙𝑜𝑟𝑠𝑞𝑢𝑒 𝑛 ⟶ ∞, 𝑎𝑙𝑜𝑟𝑠 = 1.
𝑉𝑎𝑟
13
 Estimateur convergent :
𝜃̂ est un estimateur convergent de 𝜃 s’il converge en probabilité vers 𝜃 on vérifie

l’inégalité suivant laquelle lim [|𝜃̂ − 𝜃| ≤ 𝛼] = 1
𝑛→∞
La condition nécessaire mais non suffisante est donnée par lim 𝐸𝑄𝑀(𝜃̂) = 0.
𝑛→∞
II.4. Estimation par la méthode du maximum de vraisemblance :
a. L’estimateur du maximum de vraisemblance : l’idée de base dans cette

méthode est de choisir comme estimation d’un paramètre 𝜃, une fonction
𝑈(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) qui réalise un maximum stricte de la vraisemblance. En d’autres
termes, 𝜃̂ = 𝑈(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) définit la valeur de 𝜃 pour laquelle l’on vérifie
l’inégalité : 𝐿(𝑥, 𝑈(𝑋)) ≥ 𝐿(𝑥, 𝜃), ∀𝜃.
Remarques :
- La vraisemblance L n’est pas toujours continument dérivable.
𝑒 −(𝑥−𝜃)
Exemple : considérons donnée une variable et 𝑓(𝑥, 𝜃) = { , 𝑥 ≥ 𝜃.
0, 𝑠𝑖𝑛𝑜𝑛.
𝐿(𝑥, 𝜃) = ∏𝑛𝑖=1(𝑓(𝑥𝑖 ), 𝜃) = 𝑒 𝑛𝜃−∑ 𝑥𝑖
Prenons le logarithme de L noté log 𝐿(𝑥, 𝜃) = 𝑛𝜃 − ∑ 𝑥𝑖
𝜕𝑙𝑜𝑔𝐿 𝜕2 𝑙𝑜𝑔𝐿
La dérivée première = 𝑛, 𝑒𝑡 𝑙𝑎 𝑑é𝑟𝑖𝑣é𝑒 𝑠𝑒𝑐𝑜𝑛𝑑𝑒 = 0.
𝜕𝜃 𝜕𝜃2
- L’estimateur du maximum de vraisemblance lorsqu’il existe n’est pas

nécessairement sans biais (c'est-à-dire centré). Dans ce cas, se serait
l’estimateur de la variance d’une loi normale et la moyenne étant inconnue.
∑(𝑥 −𝑥̅ )2 ̂2
𝑛𝜃
𝜃̂ 2 = 𝑖 . La variable associée 2
~𝒳(𝑛−1) .
𝑛 𝜃2
14
̂2
𝑛𝜃 𝑛−1
Aussi, on détermine : 𝐸 (
𝜃2
) = 𝑛 − 1 ⟹ 𝐸(𝜃̂ 2 ) = 𝑛 𝜃̂ 2 ≠ 𝜃̂ 2 ⟹ on a un
estimateur qui est biaisé. (Cas de petits échantillons)
Pour 𝜇 inconnu, 𝜃̂ 2 l’estimateur du maximum de vraisemblance de la variance d’une

loi normale 𝒩(𝜇, 𝜃 2 ) est un estimateur biaisé.
- Il n’y a pas de raison à ce que l’estimateur du maximum de vraisemblance soit

unique. Il n’est pas nécessairement unique. Cependant, dans la majorité des
cas, la détermination de l’estimateur du maximum de vraisemblance revient à
chercher les zéros de la vraisemblance. Dans ce cas, on doit vérifier les
conditions suivantes.
o Le domaine de variation de la variable considérée est indépendant du
paramètre 𝜃.
o La vraisemblance L doit être continument dérivable par rapport à
𝜃 ∀𝜃, ∀𝑋. Dans ce cas, 𝜃 est obtenu comme solution du système
suivant :
𝜕𝑙𝑜𝑔𝐿 𝜕𝑙𝑜𝑔𝑓(𝑥𝑖 ,𝜃)
=∑
𝜕𝜃 𝜕𝜃
{𝜕2 log 𝐿
̂
≤ 0, 𝜃 = 𝜃.
𝜕𝜃 2
Exemple :
On suppose que X est une variable de Poisson de paramètre inconnu 𝜃
𝑒 −𝜃 𝜃𝑥
𝑓(𝑥, 𝜃) = , 𝑥 ≥ 𝑂, 𝜃 ≥ 0.
𝑥!
I)- Déterminons la vraisemblance :
𝑒 −𝑛𝜃 𝜃∑ 𝑥𝑖
𝐿(𝑥, 𝜃) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 , 𝜃) = ∏𝑛 𝑥𝑖 !
2)- Procédant à la transformation logarithmique, on a :
𝑙𝑜𝑔𝐿 = −𝑛𝜃 + ∑ 𝑥𝑖 𝑙𝑜𝑔𝜃 − 𝑙𝑜𝑔 ∏ 𝑥𝑖 !
3)- les conditions du premier ordre :
15
𝜕𝑙𝑜𝑔𝐿 ∑ 𝑥𝑖 1
= 0 ⟹ −𝑛 + ̂ = 0, 𝑙 ′ 𝑜𝑛 𝑡𝑖𝑟𝑒 𝑞𝑢𝑒 𝜃̂ = ∑ 𝑥𝑖 = 𝑥̅ .
𝜕𝜃2 𝜃 𝑛
4)- Condition du second ordre :
𝜕2 log 𝐿 ∑ 𝑥𝑖 𝑛
𝜕𝜃2
=
𝜃2
( 𝜃 = 𝜃̂) = − 𝑥̅ < 0.
b. L’inégalité de Cramer Rao redéfinie :
𝜕𝑙𝑜𝑔𝐿 𝜕𝑙𝑜𝑔𝑓(𝑥𝑖 ,𝜃)

Partant de l’égalité, =∑ , l’inégalité de Cramer Rao s’exprime
𝜕𝜃 𝜕𝜃
comme suit :
1 1
𝑉𝑎𝑟𝜃̂𝑖 ≥ =
𝜕𝑙𝑜𝑔𝑓(𝑥𝑖 , 𝜃) 2 𝜕𝑙𝑜𝑔𝑓(𝑥𝑖 , 𝜃)
𝐸( ) −𝐸( )
𝜕𝜃 𝜕𝜃 2
c. Propriétés des estimateurs du maximum de vraisemblance.
Les estimateurs du maximum de vraisemblance ne sont pas toujours sans biais.

Cependant, ils sont convergents et d’autres parts, ils sont invariants par toute
transformation bijective, c‘est-à-dire, 𝑠𝑖 𝜃̂ 𝑒𝑠𝑡 𝑢𝑛 𝑒𝑠𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑚. 𝑣.,
𝑎𝑙𝑜𝑟𝑠 𝑔(𝜃̂)𝑑𝑜𝑖𝑡 ê𝑡𝑟𝑒 𝑙 ′ 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑚𝑎𝑥𝑖𝑚𝑢𝑚 𝑑𝑒 𝑣𝑟𝑎𝑖𝑠𝑒𝑚𝑏𝑙𝑎𝑛𝑐𝑒 (𝐸𝑀𝑉) 𝑑𝑒 𝑔(𝜃).
II.5. Estimation par intervalle :
On note Ι cet intervalle et 𝐼 = 𝒰(𝑋1 , 𝑋2 , … … . , 𝑋𝑛 ) ± 𝜀, 𝜀 n’est pas

toujours connu. L’intervalle définit peut ou non contenir la valeur réelle du paramètre
envisagé. Ainsi, associe-t-on une certaine probabilité à l’existence de cet intervalle.
Une telle probabilité est appelée fiabilité ou confiance. On note 𝛾(𝑔𝑎𝑚𝑚𝑎) cette
confiance, 𝛾 = 1 − 𝛼, 𝑒𝑡 𝛼 définit comme la probabilité pour que l’intervalle ne
contienne pas la valeur réelle.
16
Généralement, l’on se fixe un niveau de confiance, lequel permet d’évaluer la marge
d’erreur et cela étant donné la distribution d’échantillonnage de la statistique
considérée.
Définition : on appelle intervalle de confiance (IC) de niveau 1 − 𝛼, l’intervalle qui a

approximativement, la probabilité de contenir la valeur réelle du paramètre.
𝑆𝑖 𝐼 = [𝑈1 , 𝑈2 ], 𝑎𝑙𝑜𝑟𝑠 𝑃[𝑈1 ≤ 𝜃 ≤ 𝑈2 ] ≃ 1 − 𝛼.
La construction de ces intervalles peut être illustrée à l’aide des deux exemples
suivants :
Exemple 1 : IC de la moyenne d’une loi normale : 𝒩(𝜇, 𝜎 2 )
∑𝑥
Soit la statistique 𝑋̅ = 𝑛 𝑖 . On suppose 𝜎 2 connu et fini donc, la statistique suit une loi
𝜎2
normale. Donc, 𝒳~𝒩 (𝜇, ). En effet, il nous faut une fonction pivotante d’abord pour
𝑛
la recherche de l’intervalle de confiance, indépendante de tout paramètre inconnu :

c'est-à-dire une fonction des observations tout en étant indépendante des paramètres
inconnus. Dans le cas présent, une pivotante appropriée est la variable normale
(𝑋̅ −𝜇)√𝑛
centrée réduite c'est-à-dire ~ 𝒩(0, 1). Cette fonction pivotante est telle que
𝜎
𝛼
pour 𝛼 donné, il existe deux fractiles d’ordre 2 . La confiance dans ce cas s’exprime de
la manière suivante : 𝑍𝛼/2 𝑜𝑢 𝑍0 . La suite s’exprime alors comme suit :
(𝑋̅−𝜇)√𝑛
𝑃 [−𝑍𝛼/2 ≤ ≤ 𝑍𝛼/2 ] ≃ 1 − 𝛼 , soit par réarrangement :
𝜎
𝜎 𝜎
𝑃 [𝑋̅ − 𝑍𝛼/2 ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼/2 ] ≃ 1 − 𝛼, et l’intervalle de confiance est
√𝑛 √𝑛
𝜎 𝜎
𝐼𝐶 = 𝑋̅ ± 𝑍𝛼/2 , et le terme d’erreur 𝜀 = 𝑍𝛼/2 .
√𝑛 √𝑛
17
Exemple 2 : IC de la variance d’une loi normale 𝒩(𝜇, 𝜎 2 )
1
Soit la moyenne : ∑ 𝑥𝑖 = 𝑋̅ . 𝑒𝑡 la variance inconnue ; alors, l’estimateur ponctuel
𝑛
1 (𝑛−1)𝑆 2 (𝑛−1)𝑆 2
centré 𝑆 2 = 𝑛 ∑(𝑥𝑖 − 𝑋̅)2 et 2
~ 𝒳(𝑛−1) . La pivotale appropriée ici est si
𝜎2 𝜎2
𝛼 se distribue équitablement.
𝛼 𝛼
𝛼1 = 𝛼2 =
2 2
𝑋12 𝑋22
(𝑛−1)𝑆 2
La confiance s’exprime par : 𝑃 [𝒳12 ≤ ≤ 𝒳22 ] = 1 − 𝛼. Le réarrangement
𝜎2
(𝑛−1)𝑆 2 (𝑛−1)𝑆 2
conduit à : 𝑃 [ ≤ 𝜎2 ≤ ] = 1 − 𝛼.
𝒳12 𝒳22
18
III. TESTS D’HYPOTHESES
On note que, des tests d’hypothèses impliquent la vérification des hypothèses

faites sur une population donnée et cela à partir des informations contenues dans
l’échantillon. L’information doit être synthétisée pour son utilisation. Ainsi, fait-on
recours aux statistiques déterminées dans les méthodes d’approximation.
Les hypothèses peuvent être émises par rapport aux paramètres de population. Le
test est dans ce cas dit « test paramétrique ».
Lorsque les hypothèses sont émises par rapport à la forme des distributions de
population, l’analyse porte sur des « tests non paramétriques ».
On considère ici le cas des tests paramétriques
III.1. Définitions générales :
Définition 1 : Hypothèses nulles, hypothèses alternatives.
En théorie de test, l’hypothèse nulle ou hypothèse de base est l’hypothèse qui

exprime la conjecture principale, c'est-à-dire celle qui permet de mieux caractériser la
distribution considérée. En d’autres termes, l’hypothèse nulle est celle en laquelle l’on
a le plus confiance compte tenu de toutes les informations formalisées ou intuitives du
problème. On note cette hypothèse 𝐻0 :
La démarche analytique des tests suppose que l’on teste 𝐻0 par rapport à une
alternative. Ceci nous amène à spécifier une hypothèse alternative que l’on notera 𝐻1 :
Exemple :
Supposons qu’une entreprise qui reçoit d’un fournisseur un lot de pièces qui doivent
respecter des normes définies. Suivant qu’une pièce satisfait ou non aux normes, elle
pourra être classée sans ambiguïté en pièces « bonnes » ou pièces « défectueuses ».
Sachant tout le soin apporté par le fournisseur, le client ne peut pas raisonner que
toutes les pièces soient bonnes. Ainsi, est-il disposé à accepter le lot si 𝜋, la proportion
de pièces défectueuses n’excède pas un seuil de tolérance noté 𝜋0 .
Dans ce cas, les hypothèses possibles sont les suivantes :
19
𝐻0 : 𝜋 = 𝜋0 → 𝑑é𝑐𝑖𝑠𝑖𝑜𝑛 0(𝐷0 ) : accepter le lot
𝐻1 : 𝜋 > 𝜋0 → 𝑑é𝑐𝑖𝑠𝑖𝑜𝑛 1(𝐷1 ) : refuser le lot
𝐻1 : est l’hypothèse contraire de 𝐻0 . Cependant, elles ne doivent pas être traitées de

façon symétrique. 𝐻0 est l’hypothèse dont le rejet à tort à de conséquences plus
fâcheuses.
Définition 2 : Hypothèses simples – Hypothèses composites (ou multiples)
Une hypothèse H est dite simple si elle porte sur un seul élément 𝜃 de l’ensemble de
tous les paramètres de la population ou alors elle caractérise la distribution donnée en
termes d’un seul nombre, sinon l’hypothèse est dite composite ou multiple.
Exemple :
𝐻0 : 𝜇 = 𝜇0 et 𝐻1 : 𝜋 = 𝜋1 expriment des hypothèses simples,
𝜋 ≤ 𝜋0
Alors que : { 𝜇 > 𝜇0 expriment des hypothèses multiples.
𝜇 ≠ 𝜇0
Telles qu’exprimées, les hypothèses simples impliquent un degré élevé de

connaissance de la distribution. Dans la réalité, ce n’est pas le cas ; sinon il n’aurait
pas été nécessaire de définir une hypothèse pour caractériser la population. Du point
de vue analytique elle est commode.
Définition 3 : Tests d’hypothèses
On appelle tests d’hypothèses, la procédure menant à l’acceptation ou au rejet de la

conjecture principale.
20
III.2. Evaluation du test :
La procédure générale d’une évaluation du test est décrite en trois étapes ;
i. On considère le contenu de l’hypothèse nulle vraie jusqu’à preuve du contraire

c'est-à-dire jusqu’à ce que des informations additionnelles ou complémentaires
permettent d’émettre un avis contraire.
ii. Aussi, définit-on un échantillon aléatoire afin d’établir la preuve. De manière

générale, des règles préétablies permettent d’analyser les informations fournies
par l’échantillon. Exemple de règles préétablies : cela peut être un intervalle de
confiance, une statistique.
iii. Une décision est prise au vue des indications des règles étudiées.
Implicitement, l’évaluation d’un test revient à subdiviser l’espace
d’échantillonnage en deux régions notées 𝐶 𝑒𝑡 𝐶 ′ telles que :
Si (𝑥1 , 𝑥2 , … . , 𝑥𝑛 ), la réalisation des échantillons appartient à C alors rejeter 𝐻0
Si (𝑥1 , 𝑥2 , … . , 𝑥𝑛 ) la réalisation des échantillons appartient à 𝐶 ′ , alors ne pas rejeter 𝐻0
𝐶 = 𝑟é𝑔𝑖𝑜𝑛 𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 𝑒𝑡 𝐶 ′ = 𝑟é𝑔𝑖𝑜𝑛 𝑑 ′ 𝑎𝑐𝑐𝑒𝑝𝑡𝑎𝑡𝑖𝑜𝑛:
𝐶 𝑒𝑡 𝐶 ′ é𝑡𝑎𝑛𝑡 𝑑𝑒𝑠 𝑟é𝑔𝑖𝑜𝑛𝑠 𝑐𝑜𝑚𝑝𝑙é𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒𝑠
Exemple :
Reconsidérons l’exemple précédent dans son énoncé et y ajoute les

informations suivantes : le client est prêt à accepter le lot si la proportion 𝜋 des pièces
1
bonnes est égale à ½. Il rejettera le lot si 𝜋 < .
2
Pour un échantillon de taille n=10, on veut déterminer la région critique selon que :
𝐻0 : 𝜋 = 1/2 → Accepter le lot
𝐻1 : 𝜋 < 1/2 → Refuser le lot
21
La distribution se rapprochant de celle de Bernoulli, on a : si X est la variable analysée,
alors 𝑓(𝑥, 𝜋) = 𝜋 2 (1 − 𝜋)1−𝑥 x prenant les valeurs 1 et 0 selon que la pièce est bonne
ou défectueuse.
Soit ∑ 𝑥𝑖 = 𝑌 , 𝑙𝑒 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑖è𝑐𝑒𝑠 𝑏𝑜𝑛𝑛𝑒𝑠. Une région critique serait :
𝐶 = [𝑦𝑖 ; 𝑦 = ∑ 𝑥𝑖 ], 𝑖 = 0, 1, 2
III.3. Types d’erreurs de décision :
Dans l’évaluation d’un test, il peut s’avérer que l’on rejette une hypothèse nulle qui est
vraie ou au contraire ne pas la rejeter alors qu’elle est fausse. En théorie des tests,
ces deux erreurs sont analysées en termes de risque de décision.
 Le risque de première espèce noté 𝛼,

 Le risque de seconde espèce noté 𝛽.
La relation entre ces deux risques se schématise comme il suit :
Hypothèse retenue (décision)
𝐻0 𝐻1
Hypothèse
𝐻0 Décision correcte Risque 1ère espèce : 𝛼
vraie
𝐻1 Risque 2ème espèce : 𝛽 Décision correcte
Avec 𝛼 = 𝑃[(𝑥1 , 𝑥2 , … . , 𝑥𝑛 )𝜖𝐶; 𝐻0 ] et
𝛽 = 𝑃[(𝑥1 , 𝑥2 , … . , 𝑥𝑛 )𝜖𝐶; 𝐻1 ] (Acceptation à tort)
Niveau approprié de 𝛼 et 𝛽.
𝛼 et 𝛽 étant des probabilités qui doivent prendre des valeurs comprises entre 0 et 1.
D’autres parts, étant relatifs aux mêmes tests, doivent être définis simultanément. On
𝛼 = 0, 𝛽 = 0
a donc deux extrêmes. {
𝛼 = 1, 𝛽 = 1.
Le premier cas extrême implique une évidence parfaite alors que le second implique
l’erreur totale. Le premier est presque impossible et cela du fait que l’on base la
décision sur l’aléa.
22
Le deuxième cas également aussi presqu’impossible dans la mesure où dans
l’échantillonnage, l’on tient compte de la distribution de la variable considérée. Il existe
un ensemble de couple (𝛼, 𝛽) réalisable en éliminant ces deux cas extrêmes qui
peuvent être représentés par le graphique ci-dessous :
Ensemble de couples réalistes :

(1, 1) Convexe,
1
Symétrique,
𝐷′
Contient les points (0,1) et (1,0),
𝐷
Fermé.
1/2
𝐷′′
(0, 0) 1/2 1
𝛼
 La courbe D’’ exprime la courbe des décisions injustifiées,

 La courbe D’ exprime la courbes des décisions soutenues
 La courbe D exprime la courbe des décisions qu’on prendrait sur la base d’un
lancer d’une pièce de monnaie c'est-à-dire l’ensemble des décisions
aléatoires.
 En l’absence d’informations, D’ tendra vers D.
Dans la pratique, on se fixe un niveau pour 𝛼 minimisant celui de 𝛽 par rapport à celui
de 𝛼. On considère 𝛼 = 5% 𝑒𝑡 𝛼 = 1%.
23
III.4. Courbe caractéristique d’efficacité, puissance d’un test :
Définitions :
 Puissance d’un test :
On appelle puissance d’un test, la probabilité de prendre une décision correcte, c'est-
à-dire de correctement rejeter 𝐻0 : 𝑃[(𝑥1 , 𝑥2 , … . , 𝑥𝑛 )𝜖𝐶; 𝐻1 ] = ∏(𝐶, 𝜃) on note
𝜋(𝑐, 𝜃1 )𝑒𝑡 𝜋(𝑐, 𝐻1 ) qui est probabilité de rejeter correctement 𝐻0 .
Il existe une relation de complémentarité entre la puissance du test et l’erreur de type

2 tel que 𝛽 = 𝑃[(𝑥1 , 𝑥2 , … . , 𝑥𝑛 )𝜖𝐶′; 𝐻1 ], erreur de 2ème espèce. Elle s’évalue par
rapport à 𝐻1 d’où 𝜋 ′ (𝑐, 𝐻1 ) = 1 − 𝛽.
 Courbe d’efficacité :
𝐻𝑜: 𝜇 = 𝜇0 𝑒𝑡
Supposons {
𝐻1 : 𝜇 > 𝜇0
Pour ce test, une région critique possible est : 𝐶 = {(𝑥1 , 𝑥2 , … . , 𝑥𝑛 ); 𝑥̅ ≥ 𝑐}
𝛽 étant la probabilité d’être dans la région d’acceptation,
𝛽 = 𝑃[𝑥̅ < 𝑐; 𝐻1 ] = 𝑃[𝑥̅ < 𝑐; 𝐻1 : 𝜇 > 𝜇0 ]

𝑐 𝑒𝑠𝑡 𝑢𝑛𝑒 𝑣𝑎𝑙𝑒𝑢𝑟 𝑑𝑜𝑛𝑛é𝑒 𝑝𝑎𝑟 𝑙 ′ é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑒𝑡 𝑠𝑜𝑢𝑠 ℎ𝑦𝑝𝑜𝑡ℎè𝑠𝑒.
𝑂𝑛 𝑝𝑒𝑢𝑡 𝑎𝑐𝑞𝑢é𝑟𝑖𝑟 𝑒𝑛𝑠𝑢𝑖𝑡𝑒 𝑙𝑎 𝑣𝑎𝑙𝑒𝑢𝑟 𝑑𝑒 𝜇
(𝑐−𝜇)√𝑛
Soit en unité centré réduite (UCR) 𝛽 = 𝑃 [𝑧 < ]. La puissance du test en fonction
𝑆
du paramètre envisagé. Dans le cas 𝐻1 est composite, 𝛽 varie avec le paramètre étudié
et Il en est de même de la puissance du test. On définit ainsi une fonction de puissance
notée ℎ(𝜃) dont la courbe représentative est appelée courbe d’efficacité.
24
Exemple :
Un expert prétend qu’en introduisant un nouveau type de machine dans un procédé
de fabrication, il peut diminuer dans une proportion importante le temps requis pour la
production.
La direction de l’usine estime en raison des frais nécessaires à l’amortissement, qu’elle
ne pourrait retenir le procédé à moins que le temps de production puisse être
normalement réduit à un taux moyen d’au moins 8% avec un écart type de 0,32%. En
outre, lors de quatre expériences, le temps de production a pu être réduit de 8,4%. On
veut définir la fonction de puissance.
𝐻𝑜: 𝜇 = 𝜇0 = 0,08
Solution : {
𝐻1 : 𝜇 > 0,08
La région critique possible 𝐶 = {(𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 ); 𝑥̅ > 0,084}
𝛼 = 𝑃[𝑥̅ > 0,084; 𝐻0 : 𝜇 = 0,08]
Soit en UCR
(0,084 − 0,08)√4
𝛼 = 𝑃 [𝑍 > ] = 𝑃[𝑍 > 2,5] = 1 − 𝑃[𝑍 < 2,5] = 1 − 0,9938 = 0,0062
0,0032
Par définition, 𝛽 = 𝑃[𝑥̅ ≤ 0,084 𝐻1 : 𝜇 > 0,08]
(0,08−𝜇)√4
En UCR, 𝛽 = [𝑍 ≤ ] . Soit ℎ(𝜇) la probabilité d’être la région critique,
0,0032
alors
(0,084−𝜇)√4 (0,084−𝜇)√4
ℎ(𝜇) = 𝑃 [𝑍 > ] = 1 − 𝑃 [𝑍 ≤ ] = 1 − 𝛽.
0,0032 0,0032
25
III.5. Tests entre hypothèses simples ; méthode de NEYMAN et
PEARSON.
On suppose donné X, une variable réelle dont la distribution suit une loi de
densité de probabilité 𝑓(𝑥, 𝜃) avec 𝜃 inconnu. Pour le paramètre inconnu, on suppose
les deux hypothèses suivantes, lesquelles doivent être comprises entre
𝐻0 : 𝜃 = 𝜃0 ; 𝐻1 : 𝜃 = 𝜃1 .
Déterminons la région critique dans laquelle il est le plus probable de rejeter

l’hypothèse nulle. Cette région est reconnue par application de la théorie de Newman
et Pearson. On cherche à déterminer la meilleure région critique.
Formulation : il existe une certaine région critique
𝐿(𝑥;𝜃0 )
𝐶𝛼 = {(𝑥1 , 𝑥2 , … . , 𝑥𝑛 ); ≤ 𝑘𝛼 },
𝐿(𝑥;𝜃1 )
avec 𝑘 = 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝑘 ≥ 0).
Cette région est telle que, la probabilité déterminée pour
𝛼 = 𝑃[(𝑥1 , 𝑥2 , … . , 𝑥𝑛 )𝜖𝐶𝛼 ]
Exemple : 𝑋~𝒩(𝜇; 𝜎 2 ), 𝑎𝑣𝑒𝑐 𝜎 2 = 1
𝐻0 : 𝜇 = 𝜇0
On veut pour le test suivant { , déterminer la meilleure région critique,
𝐻1 : 𝜇 = 𝜇1
c'est-à-dire, le test le plus puissant admettant C comme région critique.
−1 2 −1𝑛 −1 2
1
En effet, 𝑓(𝑥; 𝜃) = 𝑒 2 (𝑥−𝜇) ⟹ 𝐿(𝑥; 𝜃) = (2𝜋) 2 𝑒 2 (𝑥−𝜇)
√2𝜋
−1𝑛 −1
∑ (𝑥𝑖 −𝜇0 )2
Pour, 𝐿(𝑥; 𝜇0 ) = (2𝜋) 2 𝑒2 et
−1𝑛 −1
∑ (𝑥𝑖 −𝜇1 )2
𝐿(𝑥; 𝜇1 ) = (2𝜋) 2 𝑒2
1
𝐿(𝑥;𝜇0 ) [∑ (𝑥𝑖 −𝜇1 )2 −∑ (𝑥𝑖 −𝜇0 )2 ]
Alors le rapport de vraisemblance nous donne :
)
= 𝑒2 ,
𝐿(𝑥; 𝜇1
par transformation logarithmique, on obtient :
26
𝐿(𝑥;𝜇0 ) 1
𝑙𝑜𝑔 = [∑ (𝑥𝑖 − 𝜇1 )2 − ∑ (𝑥𝑖 − 𝜇0 )2 ] ≤ 𝑙𝑜𝑔𝑘𝛼
𝐿(𝑥; 𝜇1 ) 2
𝑛
(𝜇0 − 𝜇1 ) ∑ 𝑥𝑖 ≤ 𝑙𝑜𝑔𝑘𝛼 + (𝜇02 − 𝜇12 ) (1)
2
1er cas : Si (𝜇0 < 𝜇1 ), 𝑎𝑙𝑜𝑟𝑠 (𝜇0 − 𝜇1 ) > 0. en divisant tous termes par (𝜇0 − 𝜇1 ), on
𝑛 𝑛
𝑙𝑜𝑔𝑘𝛼 + (𝜇02 −𝜇12 ) 𝑙𝑜𝑔𝑘𝛼 + (𝜇02 −𝜇12 )
2 2
obtient : ∑ 𝑥𝑖 ≤ Considérons 𝑐= et soit
(𝜇0 −𝜇1 ) (𝜇0 −𝜇1 )
alternativement de (1), l’on définira la région critique en terme de la moyenne

échantillonnale d’où :
𝑙𝑜𝑔𝑘 1 2
∑ 𝑥𝑖 + (𝜇0 −𝜇12 ) ∑ 𝑥𝑖
𝑛 2
≤ (𝜇0 −𝜇1 )
, 𝑠𝑜𝑖𝑡 ≤ 𝑐.
𝑛 𝑛
2ème cas : Si au contraire, on a : 𝐻1 : 𝜇 = 𝜇1 , 𝑎𝑣𝑒𝑐 (𝜇0 > 𝜇1 ), 𝑎𝑙𝑜𝑟𝑠 (𝜇0 − 𝜇1 ) < 0.

Multiplions par -1 et changeons le sens de l’inégalité on obtient :
𝑙𝑜𝑔𝑘 1
−(𝜇0 − 𝜇1 ) ∑ 𝑥𝑖 ≥ − [ + (𝜇02 − 𝜇12 )] comme plus haut, en divisant par
𝑛 2
𝑙𝑜𝑔𝑘 1 2
∑ 𝑥𝑖 𝑛
+2(𝜇0 −𝜇12 )
−𝑛(𝜇0 − 𝜇1 ), on obtient finalement : ≥ (𝜇0 −𝜇1 )
.
𝑛
FIN.
27
BIBLIOGRAPHIE
1. Graffith, W.E.R. Carter Hills and Georges Judes (1992) : Learning and
Practicing économétrie, John Wileyand Sons.
2. Giraud René et Nicole Chaix (1989) P.U.F. : Econométrie
3. Stéphane Musard et Françoise Seyte, LMD, (mai 2014), Inférence statistique et
probabilités 1ère édition, De Boeck.
28

Cours de Statistiques Inférentielles

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cours de Statistiques Inférentielles

Încărcat de

Drepturi de autor:

Formate disponibile

COURS

Rédigé par : M. MOUGNOL Patrice Clément

Economiste (Techniques Quantitativistes).

Université de Yaoundé 2 Soa – Cameroun.

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

D’autres1 la considèrent comme un tout et son enseignement est profondément

L’objet de la statistique descriptive est de décrire, c'est-à-dire de résumer ou de

En effet, toute description d’un phénomène nécessite d’observer ou de connaitre

 Les observations disponibles sont toujours constituées d’ensemble

La diversité des multiples prolongements de la statistique semble la rendre

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

On peut distinguer deux sortes de statistiques :

 D’une part la statistique descriptive lorsqu’il s’agit d’organiser et de résumer des

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

L’objectif de l’inférence statistique est de déterminer une procédure qui à partir

Ainsi, l’inférence statistique se définit comme l’étude :

i. Des conclusions tirées pour une structure donnée à partir de l’analyse

 L’évaluation des procédures d’approximation de la valeur inconnue des

I.1. Echantillon d’une variable aléatoire.

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

En procédant à une suite indépendante de n expériences, l’on définit une suite

Pour n donné comme taille de l’échantillon de la population X, la densité de probabilité

 Si 𝜎 2 connu et fini, on a : 𝐸(𝑋) = 𝜇

𝑛 ≥ 30 → Approximation normale de la distribution d’échantillonnage de la moyenne

𝑛 < 30, → 𝑙 ′ 𝑎𝑝𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑡𝑖𝑜𝑛 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡

qui est l’estimateur du maximum de vraisemblance et qui suppose 𝑋̅ estimé.

I.2. Loi du Khi-Deux :

a) Définitions : Soit (𝑥1, ,𝑥2 , ….., 𝑥𝑛 ,) un ensemble de variables aléatoires suivant

U= 𝑋12 + 𝑋22 + ⋯ … . . +𝑋𝑛2 définit une variable du Khi-Deux, laquelle suit

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

de cette somme est égal à la somme des degrés de libertés respectifs

de Fisher pour 𝑛 → ∞, nous permet d’écrire que : √2𝒳𝑛2 − √2𝑛 − 1~

I.3. la loi de Fischer Snedecor :

a)- Définition : Soient 𝑄1 𝑒𝑡 𝑄2 deux variables aléatoires indépendantes telles que

(𝑣1 , 𝑣2 ) 𝑑𝑒𝑔𝑟é𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡é, 𝑛𝑜𝑡é𝑒 𝐹(𝑣1 , 𝑣2 )

2𝑣22 (𝑣1 +𝑣2 −2)

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

 La densité de la loi de Student à v degrés de liberté est :

Remarque : pour 𝑣 = 1, la loi de Student s’appelle loi de Cauchy, ou loi de

I.4. Loi de Student.

a)- Définition : Soient 𝑍 𝑒𝑡 𝑄 deux variables aléatoires indépendantes telles que

 La densité de la loi de Student à v degrés de liberté est :

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

En général, l’estimation est soit ponctuelle, soit par intervalle.

Notons qu’en fait, le nombre déterminé ponctuellement doit correspondre à la valeur

o L’absence des biais,

Des estimateurs possédant de telles propriétés sont obtenues par application de

 La méthode du maximum de vraisemblance,

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

 ESTIMATEUR : si 𝜃, est la paramètre d’estimation, on a : 𝜃̂ = 𝒰(𝑋1 , 𝑋2 , … . , 𝑋𝑛 )

La variance : 𝑉𝑎𝑟 ( ̅𝜃̂) = 𝐸 [ (𝜃̂) − 𝐸( ̅𝜃̂)] 2

 ERREUR D’ECHANTILLONNAGE : c’est l’erreur commise du fait que l’on base

l’expression : 𝐸𝑄𝑀(𝜃̂) = 𝑣𝑎𝑟𝜃̂ + 𝐵𝑖𝑎𝑖𝑠 2 .

Si l’on s’intéresse à la dispersion par rapport à la valeur réelle, dans ce cas on a :

𝐸𝑄𝑀(𝜃̂) = 𝐸(𝜃̂) − 𝜃)2

TAF : démontrer que

𝐸(𝜃̂ − 𝜃)2 = 𝑣𝑎𝑟𝜃̂ + 𝑏𝑖𝑎𝑖𝑠 2

II.2. Propriétés relatives aux échantillons de petites tailles :

 ESTIMATEUR NON BIAISE : un estimateur est sans biais si sa valeur espérée

est égale à la valeur inconnue du paramètre. 𝐸(𝜃̂) = 𝜃. On parle ici d’un

Cours de statistiques inférentielles rédigé par Patrice Clément MOUGNOL.

∑(𝑋𝑖 −𝑋̅) (𝑛−1)

Donc, 𝑆 2 n’est pas un estimateur centré de la variance de population.