Documente Academic
Documente Profesional
Documente Cultură
Statistique inférentielle
C. IHSSANE
03/12/2011 1
Introduction:
Analyse de la variance
03/12/2011 2
Statistique inférentielle
Ech.i Ech.1
n=20 Ech.2 n=20
Ech.3
n=20 n=20
[ x i, s i ] [ x 1, s1]
[ x 3, s 3] [ x 2, s 2]
Les valeurs des moyennes trouvées sont donc différentes. Et elles sont considérées
comme des valeurs d’une variable aléatoire qui est la moyenne X i
Cette série des valeurs des moyenne s’appelle distribution d’échantillonnage de la moyenne.
Et si j’insiste
lourdement ? Loi de distribution de X
Pas mal…
mais que se serait-il passé si
j’avais pris un autre échantillon ?
m
Moins bien…. x 2 x 1
Et un autre ?
Théorème fondamental:
Si X est une v.a. de moyenne m et d’écart-type s, alors la v.a. moyenne, notée
Pourquoi les observations de x sont-elles concentrées autour
X , obtenue sur un échantillon de taille n tend vers une loi normale N μ,s n
de la moyenne inconnue m ?
Estimation et intervalle de confiance
La variance :
1 1 nσ²
σ² x = Var(x i )
= Var( x i )
= var(x i )
=
n n² n²
σ²
σ² x =
n
D’ou
s x s n
l’inférence statistique consiste à
1. Estimation ponctuelle
1.1. Moyenne
Notation:
La moyenne vrai est notée µ
La moyenne estimée est notée m̂ ou x
1
Estimation de la moyenne µ à partir d’un nombre mˆ x x i
réduit de mesures est: n i
1.2. Variance
Notation:
La variance vrai est notée σ²
La variance estimée est notée sˆ 2 ou s²
1
Estimation de la variance σ² à partir d’un nombre
réduit de mesures est:
sˆ s ²
2
n 1 i
( x i x )²
2. Estimation par intervalle
L’estimation ponctuelle d’un seul paramètre ne présente pas grand intérêt - n’apporte pas beaucoup
d’informations- , autrement dit l’outil d’estimation présente une relative fragilité.
Pour sécuriser une estimation ponctuelle, on va introduire un autre outil fondamental puissant :
intervalle de confiance.
Intervalle dans le quel, on a des bonnes raisons de croire qu’il contient la vrai valeur du paramètre
estimée.
Soit e le paramètre inconnu et ê son estimation, déterminer un intervalle revient à chercher les
En suite, on définit un degré de confiance ou niveau de confiance noté (1-α) tel que la probabilité
[e1, e2] est par définition appelé intervalle de confiance au niveau de confiance 1-α
α est le risque de se tromper (1%, 5%)
2.1. Intervalle de confiance de la moyenne (IC)
La moyenne n’est donc qu’une estimation de la valeur vrai et, si on faisait une autre série
de mesures, on n’obtiendra pas tout à fait la même moyenne. Il y a donc un risque que le
résultat final soit différent de µ.
k IC
t n1,1 / 2
[ x t n1,1 / 2 s x ; x t n1,1 / 2 s x ]
Ou t est la variable de Student correspond à n-1 degré de liberté et 1-α/2.
Exemple: Si le risque d’erreur α=5% alors 1-α/2= 97,5
Pour calculer l’intervalle de confiance de la moyenne, on doit calculer à partir de la série des
mesures de l’échantillon:
-La moyenne x
-L’écart-type s
-l’écart-type de la moyenne sx
-La quantile t de Student (n-1 degré de liberté et α le risque d’erreur)??!!
Statistique inférentielle Estimation et intervalle de confiance
La valeur de t de Student peut être déterminée à partir de la table de Student ou ne se trouvent que quelques
valeurs conventionnelles du niveau de confiance, comme 95%, 97,5%, 99%, ect.
Pratiquement, on peut obtenir n’importe quelle valeur de le quantile t facilement, en précisant le nombre de
degré de liberté et la probabilité, et ceci à l’aide de la fonction LOI. STUDENT. INVERSE(Probabilité,
degré de liberté) de l’Excel.
Remarque:
Bien que le niveau de confiance est 1- α = 95%,
on note que la probabilité 1- α/2=97,5% pour
indiquer l’IC est bilatéral et que le risque α est
réparti de chaque coté de la fonction de densité.
[ x z1 / 2 s x ; x z1 / 2 s x ]
Ou z est la variable de la loi normale réduite correspond à un niveau de confiance de (1-α)
Pour un niveau de confiance de (1- α) bilatéral , le fractile z est lu dans la table de la loi normale
pour une probabilité de 1- α/2.
2.2. Intervalle de confiance de la variance
[ SCE x ; SCE x ]
/ 2
2
12 / 2
χ²α/2 et χ²1-α/2 sont les quantiles du khi-deux (χ²) à n-1 degré de liberté pour des
probabilité 1-α/2 et α/2.
Ces deux quantiles peuvent être obtenus à l’aide de la fonction:
KHIDEUX. INVERSE (probabilité, degré de liberté)
Remarque:
Les limites de confiance de la variance ne sont pas symétriques par rapport à la variance de l’échantillon.
2.3. Intervalle de confiance d’une proportion
Soit une population constituée d’un lot de 5000 ampoules. On a deux situations (opposée):
1-Ampoule défectueuse (ED),
2-Ampoule non défectueuse (END).
On souhaite connaitre avec précision la proportion p des ampoules défectueuses
Quelle est la loi qui régit dans ces conditions? Loi binomiale
Est-ce qu’il est possible de faire les éprouves sur toute Pas toujours
la population (lot entier)? possible
p1, p2, p3, …pi sont aussi des valeurs de la variable P (p=x/n)
[ p z1 / 2 s ; p z1 / 2 s ]
Statistique inférentielle Estimation et intervalle de confiance
Alors,
Alors,l’intervalle
l’intervallede
deconfiance
confianced’une
d’uneproportion
proportionppd’un
d’unéchantillon
échantillonest
est lelesuivant:
suivant:
Prob ([( p
Prob z1 / 2 Sp p z1 / 2)=1-α
Sp ] )=1-α
[ p z1 / 2 s p z1 / 2 s ]
Exemple 3:
Soit un échantillon de 100 ampoules prise de manière aléatoire dans une production.
Parmi elles, 6 sont défectueuses. Donner l’intervalle de confiance à 95 % de la proportion
d’ampoules défectueuses.
Solution:
Calculons la proportion p et q
P=6/100=0,06 et q=1-0,06= 0,94
La condition de normalité: np=6>5 et nq=94>5 et puisque La proportion π de la population mère est
inconnue.
0,06×0,94
Sp= =0,0237
100
Et l’intervalle de confiance à un niveau de confiance de 95%
[0,06−0,0237x1,96 ; 0,06 + 0,0237x1,96] = [0,06 −0,05; 0,06 + 0,05]=[0,01;0,11]
Soit en pourcentage: [1% ; 11%]
Un laboratoire d’analyses médicales utilise une technique analytique pour quantifier le taux
Pour un échantillon donné, donner l’intervalle de confiance (au seuil de confiance de 95%)
2) On fait 7 mesures dont les résultats sont les suivants (en mg/dL)
3) On reprend les 7 mesures de (2) mais on considère que l’on ne connaît pas σ.
Solution:
On mesure la quantité de zinc perdue par des aiguilles galvanisées lorsque l’on trempe
celles-ci dans une solution d’acide hydrochlorique. Pour cela, on pèse les aiguilles avant et
après les avoir trempées, c'est-à-dire avant et après que les aiguilles aient réagit avec
l’acide.
- Peut-on considérer que la teneur en pesticide d'un lait bio est identique à celle d'un
lait classique du commerce?
- Peut-on considérer que quatre variétés des haricots verts produisent des haricots de
même finesse?
- Est-ce que les deux teneurs moyennes en huile de deux variétés de Tournesol sont de
même ordres?
La prise de décision pour donner une réponse à chaque question par OUI ou NON
n’est pas évidente.
Ces types de questions peuvent être résolues par un test d'hypothèses statistiques, qui
est un processus décisionnel.
Un test d’ hypothèse statistique ou test de signification est une supposition au sujet d'un
Le but d’un test d’ hypothèse statistique est de vérifier, à partir des données d’un ou
populations.
Les tests d’hypothèses ou les tests statistiques sont des techniques statistiques
développées pour faciliter la prise de décision. (Max feinberg)
Principe:
L'hypothèse nulle, symbolisée par H0, est une hypothèse statistique qui indique qu'il n'y a
aucune différence entre un paramètre et une valeur spécifique, ou qu'il n'y a pas de
L'hypothèse alternative, symbolisée par H1, est une hypothèse statistique qui indique
l’existence d'une différence entre un paramètre et une valeur spécifique, ou affirme qu'il y
H1: les deux moyennes ne sont pas du même ordre de grandeur ou sont significativement
différentes. Différents situations se présentent :
1. l’analyste va accepter l’égalité des deux moyennes, alors que les deux méthodes
sont effectivement équivalentes.
Conclusion correcte
2. l’analyste va rejeter l’égalité des deux moyennes, alors que les deux méthodes
sont effectivement différentes.
Conclusion correcte
3. l’analyste peut accepter l’égalité des deux moyennes, alors que les deux méthodes
sont effectivement différentes.
Conclusion fausse
4. l’analyste peut rejeter l’égalité des deux moyennes, alors que les deux méthodes
sont effectivement équivalentes.
Conclusion fausse
On peut résumer les situations précédentes par le tableau suivant:
Décision fausse
Conclure qu’elles sont Décision correcte
Risque d’erreur du 1ier
différentes Pas de risque
espèce (α)
Décision fausse
Conclure qu’elles sont Décision correcte
équivalentes Risque d’erreur du 2ieme
Pas de risque
espèce (β)
Définitions:
Lorsqu'on rejette H0, on prend le risque de le faire alors que cette hypothèse est vraie : c'est le
risque de 1ier espèce . Concrètement, dans notre exemple, le risque du 1ier espèce est le risque
que l'on prend en décidant que les deux moyennes sont différentes alors qu'elles sont
réellement égales.
Le maximum du risque de 1ier espèce est appelé "niveau du test ou niveau de signification" ou
encore "seuil de signification " noté α
Dans la pratique, c'est l'utilisateur, le plus souvent, qui fixe ce seuil.
Traduction probabiliste :
Le risque est une probabilité conditionnelle : α = P(rejet de Ho)
Étapes du test
Tous les tests statistiques suivent la même démarche qui est résumée par les six étapes suivants:
2. Définir une hypothèse alternative H1 qui dira que le test est unilatéral ou bilatéral.
5. Lire dans la table de référence la valeur statistique critique Scrt pour le nombre de
mesure utilisé et le niveau de signification accepté., en tenant compte du fait que
le test est unilatéral ou bilatéral.
Après avoir déclaré l'hypothèse H0 (et aussi H1: μ1 ≠μ2), on fixe le niveau de signification
α = 0,05.
A partir des données expérimentales, on calcule les deux moyennes et des deux
méthodes. Elles sont les estimations respectivement des vrais moyennes des deux
méthodes μ1 et μ2.
Ensuite, on définit la loi que la statistique suit, dans notre cas, puisque les deux variables
suivent la loi normale alors la différence suit aussi la loi normale, en
conséquence; le critère observé suit une loi normale centrée et réduite.
D’une manière générale, les critères statistiques observés sont la plupart du temps
construits de façon à obtenir une nouvelle variable aléatoire qui suit une loi de probabilité
statistique déjà connu, comme la loi de Student ou la loi de Fisher.
Règle de décision 1:
Connaissant la loi de probabilité (N.C.R.) suivie par la statistique Sobs sous l’hypothèse H0,
il est possible d’établir une valeur seuil (valeur critique), notée Sseuil de la statistique pour
le niveau de signification du test (α=0,05).
La région critique correspond à l’ensemble des valeurs telles que Sobs > Sseuil est tel que :
• Si la valeur de la statistique S calculée Sobs est supérieure à la valeur seuil Sseuil alors l’hypothèse H0
est rejetée au risque d’erreur α et l’hypothèse H1 est acceptée.
• Si la valeur de la statistique S calculée Sobs est inférieure ou égale à la valeur seuil Sseuil alors
l’hypothèse H0 n’est pas rejetée.
Exemple 1
Connaissant la loi de probabilité suivie par la statistique Sobs sous l’hypothèse H0, il est
possible d’établir une valeur de probabilité qui correspond à la valeur de la statistique Sobs
telle que P (S ≥ Sobs). Cette probabilité est appelée la probabilité critique αobs .
• Si αobs ≥ 0,05, l’hypothèse H0 est acceptée car le risque d’erreur de rejeter H0 alors
qu’elle est vraie est trop important.
• Si αobs < 0,05, l’hypothèse H0 est rejetée car le risque d’erreur de rejeter H0 alors
qu’elle est vrai est très faible.
Exemple 2
Le test de conformité d’une moyenne par rapport à une valeur fixe (valeur de référence
définie à l’avance par le laboratoire).
Exemple 1: Au cours de la validation d’une méthode en vue de vérifier que cette méthode est
juste, on doit obtenir un résultat conforme à la valeur de référence d’un matériau de
référence de teneur connue.
Exemple 2: En analyse de routine, en contrôle la conformité d’un lot par rapport à une norme
ou une spécification.
1- Démarche statistique
Pour des petites valeurs de n la statistique suit la loi de Student à n-1 ddl
3- prise de décision
Si
Ou
Alors, réaliser le test de conformité d’une moyenne revient à vérifier si la valeur 0 est bien
comprise dans l’intervalle de confiance de
4- Exemple
On a observé les teneurs, ci-dessous, en nitrates (mg/l) des eaux de sources de régions
différentes, ces teneurs ne doivent pas dépasser un seuil ou une norme de 25 mg/l.
H0: m=25 mg/l et H1: m ≤ 25 mg/l
2- statistique du test
Sous H0, la statistique du test de comparaison de deux moyennes suit la loi de Student à
n2 +n1 -2 ddl, elle est définit par la formule suivante:
3- prise de décision
On rejette H0, pour un test bilatéral à = n1+n2 – 2 ddl et un niveau de signification α, quand:
2- statistique du test
Sous H0, la statistique du test de comparaison de deux variance suit la loi de Fisher -
Snedecor à 1=n1 -1 et 2=n2 -1 ddl, elle est définit par la formule suivante:
S²max étant la plus grande des deux variances estimées et S²min est la plus petite.
3- prise de décision
.
On utilise le test de Cochran qui consiste à comparer la statisyique de Cochran de ces
variances avec celui lu sur la table correspondante à un risque α.
2
S
ma x
C ca l k
S
2
i
i 1
Le critère de Cochran ne teste que la plus forte valeur d’un ensemble de variances (ou ses écart types
associés) et est donc un test unilatéral de valeur aberrante. Le test de Cochran correspond à vérifier
l’inégalité suivante :
C Ccal table( , n , m )
n: nombre de répétitions
m: nombre de groupe
On propose une méthode graphique basée sur la droite de henry, décrite dans la
norme ISO 5479 .
Cette technique simple permet de:
Vérifier visuellement si une valeur est aberrante,
Vérifier visuellement si l’ensemble des données suivent la loi normale.
06/12/2011 Pr B. IHSSANE 52
Démarche pratique pour la vérification de la normalité
d’une distribution
06/12/2011 Pr B. IHSSANE 53
Exemple d’application de la vérification de la normalité
d’une distribution
4,0
3,0
V.C.R (U)
2,0 U obs
1,0
0,0
-1,0
-2,0
-3,0
18 19 20 21 22 23 24
Par ce moyen graphique, il est possible de repérer le point extrême qui déforment la
figure et qu’on peut alors la suspecter d’être un point aberrantes.
D’prés la figure, on remarque que le point correspond à la mesure n°10 est anormale
06/12/2011 Pr B. IHSSANE 54
Exemple d’application de la vérification de la normalité
d’une distribution
4,0
2,0 U obs
1,0
0,0
-1,0
-2,0
-3,0
18 18,5 19 19,5 20 20,5 21 21,5
La nouvelle droite de Henry montre que les deux séries de points sont alors presque
confondues. Ce résultats confirme que la valeur de la mesure n°10 biaise le calcule.
50
fréquence
40
30
20
10
0
18,85 19,36 19,88 20,39 20,90
Centre de classe
06/12/2011 Pr B. IHSSANE 56