Documente Academic
Documente Profesional
Documente Cultură
Loi de Bernouilli
Modle : urne avec des Boules Rouges (X = 1, en proportion v) et des Boules Blanches (X = 0, en proportion 1 - v) ; on tire une boule. Alors :
Loi de Poisson
La loi de Poisson est une limite de la loi binomiale quand n est grand, v est faible et n v = l fini (en pratique n > 50 et v < 0.1)
l pHK = kL = e-l k! k
Esprance mathmatique
Loi de Bernouilli : EHX L = v Loi binomiale : EHXL = n v Loi de Poisson : EHXL = l
Thorme de Bayes
Soit un vnement B dont la ralisation dpend de l'une des causes Ai alors :
i i pHAi BL = L pHBA L pHA k pHA L pHB A L k k
www.thierry-verdel.com
2. La Loi Normale
Distribution uniforme sur @a, bD
pHxL =
1 b-a
et PHxL =
x-a b-a
Relations fondamentales
EHX + Y L = EHXL + EHY L VarHXL = EHX 2 L - HEHXLL2 VarHa X + bL = a2 VarHXL EHX Y L = EHXL . EHY L + CovHX Y L VarHX + Y L = VarHXL + VarHY L + 2 CovHX Y L VarHX - Y L = VarHXL + VarHY L - 2 CovHX Y L Si X et Y sont indpendants alors : EHX Y L = EHXL.EHY L VarHX + Y L = VarHXL + VarHY L
; EHXL =
a 2
; VarHXL =
a2 12.
Variable de Bernouilli
PH0L = 1 - v ; PH1L = v ; EHXL = v ; VarHXL = v H1 - vL.
Variable de Poisson
pHkL = !-l
lk k!
; EHXL = l ; VarHXL = l
Loi normale X
pHX = xL =
1 s 2p
1 Hx-mL2 2 s2
EHXL = m et VarHXL = s2
pH T = t L =
1 2p
t2 2
EHT L = 0 et VarHT L = 1.
www.thierry-verdel.com
Ingalit de Bienaym-Tchebichef
Ingalit de Bienaym-Tchebichef
Soit X une variable alatoire de moyenne m et d'cart-type s, ceci prs quelconque alors : Prob 8 X - m > a< <
s2 a2
www.thierry-verdel.com
3. Le Contrle Statistique
Thierry Verdel, Ecole des Mines de Nancy, www.thierry-verdel.com
EHM L = m et VarHM L = s2 n Mn X s s n
Contrle statistique
Considrant l'exemple d'une machine qui fabrique des pices dont la taille suit une loi de probabilit de moyenne m0 et d'cart-type s et dont l'intervalle de tolrance est @a, bD centr sur m0 . Dans ce cas, comme le montre la figure ci-dessous : - a est le risque de procder un rglage alors que la machine n'est pas drgle. C'est aussi le risque du fournisseur (probabilit que le client lui refuse un bon lot). - b est le risque de ne pas rgler la machine alors que son drglage est inadmissible. C'est aussi le risque du client (probabilit d'accepter un mauvais lot). s !!! n s !!! n
a2 m1 a
b m0 b
a2 Mn
www.thierry-verdel.com
4. L'Estimation Statistique
Infrence statistique
C'est porter un jugement sur une population partir d'chantillons
Estimateur
Tn HX1 , X2 , ..., Xn L est un estimateur de q si : EHTn L q et VarHTn L 0 quand n . L'estimateur est dit sans biais quand VarHTn = 0L quelque soit n. Soit une population quelconque de moyenne inconnue note m. Si on note m la moyenne d'un chantillon issu de cette population alors m* = m est une estimation sans biais de la moyenne de la population.
Soit U1 , U2 , ..., Un , n variables alatoires indpendantes qui suivent des lois normales rduites. Alors la variable c2 = U1 2 + U2 2 + ... + Un 2 suit une loi du khi deux n degrs de livert. n Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne et de mme variance s2 et si M est l'ala dfini comme la moyenne des Xi , alors la variable suivante :
n Hn-1L s i=1 2 = s2 = suit une loi du khi deux n - 1 degrs de libert ( c2 ). n-1 s s s2 n 2 *2 HX i -M L2
Loi de Student
Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne m et de mme variance s2 et si M est l'ala M -m dfini comme la moyenne des Xi , alors la variable suit une loi de Student n - 1 degrs de libert. !!! s* n
Intervalle de confiance d'une moyenne si on connait l'cart-type de la population (n tant la taille de l'chantillon prlev)
M -m s s = N @0, 1D m - ua2 < m < m + ua2 , ua2 lu dans la table de la loi normale centre rduite. !!! !!! !!! s n n n M s s -m = T @n - 1D m - ta2 < m < m + ta2 , ta2 lu dans la table de Student de degr Hn - 1L. !!! !!! !!! * s n * * n n n n n 2 S = c2 @n - 1D S < s2 < S , c2 et c2 lus dans la table du c2 Hn - 1L degrs de libert. 2 2 1 s2 2 2 2 c2 c1
www.thierry-verdel.com
Intervalle de confiance d'une moyenne si on ne connait pas l'cart-type de la population (n tant la taille de l'chantillon prlev)
Intervalle de confiance de la variance d'une population (n tant la taille de l'chantillon prlev et s son cart-type)
5. Comparaisons Statistiques
Test d'hypothse (Neyman et Pearson)
Etat ralis : H0 Jugement correct H0 Jugement port : H1 a = Prob 8H1 H0 < Jugement incorrect b = Prob 8H0 H1 < Jugement incorrect Jugement correct H1
a : erreur de premire espce (considrer dfavorable ce qui est favorable). b : erreur de deuxime espce (considrer favorable ce qui ne l'est pas). L'intervalle d'acceptation de l'hypothse H0 est l'intervalle tel que pour a donn, b soit minimal. b est aussi la puissance du test.
Comparaison de la moyenne d'une population normale (de variance connue) une valeur donne
l'intervalle @-ua2 , ua2 D lu dans la table de la loi normale centre rduite pour un risque a donn. Si u @-ua2 , ua2 D, on peut rejeter l'hypothse au risque a.
n s n 0 H0 : m = m0 !!! = N @0, 1D . A partir d'un chantillon, on mesure la valeur de u = et on la compare 0 !!! M -m s m-m HX -M L 0
Comparaison de la moyenne d'une population normale (de variance inconnue) une valeur donne
donn. Si t @-ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
s D n-1 D s n m-m s M -m n
l'intervalle @ c2 , c2 D obtenu dans la table de la loi du c2 Hn - 1L degrs de libert pour un risque a donn. Si 1 2 n s2 @ c2 , c2 D, on peut rejeter l'hypothse au risque a 1 2 s 2
0
nS ns i i=1 H0 : s = s0 2 = = c2 Hn - 1L. A partir d'un chantillon, on calcule la valeur , que l'on compare s 2 s 2 s 2 2
t = 0 et on la compare l'intervalle @-ta2 , ta2 D lu dans la table de la loi de Student de degr Hn - 1L pour un risque a * !!!
D Soit D = Y - X, H0 : EHDL = 0 !!!! = T Hn - 1L, loi de Student de degr Hn - 1L. A partir d'un chantillon, on !!!!! s n-1 1 1 H0 : s1 2 = s2 2 = s2 Hn1 - = F@n1 - 1, n2 - 1D, loi de Snedecor Hn1 - 1, n2 - 1L degrs de libert. n S 2 1L 2 1 1 2 = n 2 2 . n + 1 2 n S 2 +n S 2 d mesure la valeur de t = et on la compare l'intervalle @-ta2 , ta2 D lu dans la table de la loi de Student de degr !!!!!!!!!
0 H0 : m = m0 = T Hn - 1L loi de Student de degr Hn - 1L. A partir d'un chantillon, on mesure la valeur de * !!!
partir de la table de loi de Sndcor pour un risque a donn. Si f @- f1 Ha2L , f2 Ha2L D on peut rejeter l'hypothse au risque a. Si f @- f1 Ha2L , f2 Ha2L D, on ne peut pas rejeter l'hypothse d'galit des variances et pour la suite, on retient une variance commune gale s*
www.thierry-verdel.com
Comparaison sur chantillons des moyennes de 2 populations normales (le test d'galit des variances tant dj ralis)
1 1 s * $%%%%%%%%%%%%%%%% % + %%%%%% n1 n2 m1 - m2 M -M
on mesure la valeur de t = et on la compare l'intervalle @-ta2 , ta2 D lu dans la table de la loi de Student de degr Hn1 + n2 - 2L pour un risque a donn. Si t @-ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
1 1 s* $%%%%%%%%%%%%%%%%%% + %%%% n1 n2
1 H0 : m1 = m2 = m 2 = T Hn1 + n2 - 2L, loi de Student de degr Hn1 + n2 - 2L. A partir d'un chantillon,
www.thierry-verdel.com
6. Faits et modles
Estimation d'une proportion
1 Soit Fn = l'ala moyenne de n variables de Bernouilli. On peut crire : n n vH1-vL EHFn L = v et s2 HFn L = n 0 n n a2 n X +...+X
Il s'en suit que Fn est un estimateur sans biais de v. Par ailleurs, si n est assez grand, on peut approximer la loi de Fn par une loi normale et remplacer v par son estimation fn . Cela conduit l'intervalle de confiance d'une proportion v au risque a: fn H1- f L fn H1- fn L f - u "################# < v < f + u "################# n
n a2 n
est approximativement une ralisation dune variable normale rduite, si lhypothse est vraie. Il suffit de placer la valeur obtenue dans l'intervalle correspondant au risque choisi.
Dans l'hypothse o les carts entre effectifs thoriques et effectifs observs ne sont dus qu'aux alas de l'chantillonnage (que les donnes sont effectivement issues de la loi teste), l'expression suivante est une ralisation d'une loi du c2 q degrs de libert avec q = nb de classes - 1 Hsi theo = obsL - p Hnb de paramtres estims dans la loi de raccordementL.
On ne peut pas rejeter la lgitimit du raccordement test si la valeur numrique de l'expression prcdente se situe dans l'intervalle donn par la loi du c2 correspondante pour un risque a fix l'avance. Dans le cas contraire on rejetera le modle avec un risque de rejet tort infrieur ou gal a. En gnral on mettra tout le risque droite (on cherche rejeter des distances trop grandes), mais dans certains cas, une distance obtenue trop petite pourra faire douter de la lgalit des observations.
www.thierry-verdel.com
7. Rgression linaire
Droite de rgression
y = a x + b (observation de la vraie droite inconnue : y = a x + b) avec :
i i=1 a = Hx -xLi2 ; n i=1 i n Hx -xL H y -L y @n Hx -xL H y - LD2 y I1-r2 M H yi -L2 y
b = - a x ; y
i=1 i r 2 = i ; n 2 n 2
Loi de A et B
1 VarHY L = a2 VarHXL + ei 2 = r 2 VarHY L + H1 - r 2 L VarHY L n i=1 Hxi -xL2 s* i=1 Hxi -xL2
B- b x B = N Ab, s $%%%%%%%%%%%%%%%% L %%%%%%%%%N% E = T @n - 2D utilis pour tester toute hypothse sur b J -x 2 + %%%%%%%% 1 n Hx n
A partir desquels on pourra dterminer les intervalles de confiance par passage une loi de Student de degrs Hn - 2L.
1 1 2 estime alors s*2 = -2L 2 Hn -2L+Hn 2
On compare d'abord les variances, puis les pentes et les ordonnes l'origine. A l'hypothse que s1 = s2 = s, la quantit s1 *2 f = appartient une loi de Sndcor de degrs Hn1 - 2, n2 - 2L , ce qui permet de tester l'galit des variances. On s *2 A l'hypothse que a1 = a2 = a, la variable T = 1 2 est une loi de Student Hn1 + n2 - 4L degrs de libert, ce qui permet de tester lgalit des pentes.
1 1 s* $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% + % % n1 n2 %%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% i=1 Hx1 i -x1 L2 i'=1 Hx2 i' -x2 L2 B -B A -A 1 2 A l'hypothse que b1 = b2 = b, la variable T = est une loi de Student x2 2 x 2 1 1 s * &'''''''''''''''''''''''''''''''' 1 + '''''''''''''''' ' + + '''''''''''''''''''''''''''''''' ''''''''''''''''2 n1 n2 n 1 Hx -x L2 n2 Hx -x ''''''' i=1 1 i 1 i'=1 2 i' 2 L
Hn1 + n2 - 4L degrs de libert, ce qui permet de tester lgalit des ordonnes lorigine.
www.thierry-verdel.com
8. Exprimentation statistique
Analyse de la variance un facteur
Le modle de base de lanalyse de la variance scrit yi j = m + a j + i j . Il contient comme hypothses que : - les a j sont des quantits inconnues, mais certaines, qui mesurent linfluence du facteur A. - les i j reprsentent les fluctuations alatoires correspondant aux erreurs de mesure ou linfluence des facteurs non contls. On suppose quil ny a pas derreur systmatique, ou quelle est contenue dans m, donc que EHi j L = 0. Et qu'ils : - sont indpendants : sHi j , i' j' L = 0 pour Hi, jL Hi', j 'L, - suivent des lois normales. On calcule alors :
n j j SCT = p i=1 H yi j - L2 = p i=1 yi j 2 - n 2 y y j=1 j=1 n
- ont mme variance : s2 Hi j L = s2 , (hypothse la plus restrictive : erreurs non multiplicatives, voir test de Bartlett) SCA = p n j H - L2 = pj=1 n j 2 - n 2 yj y yj y j=1 SCR = SCT - SCA.
et par diffrence :
On constitue ensuite le tableau suivant : Variation SC Degrs de libert Facteur Totale SCA SCT p-1 n- p n-1 Rsiduelle SCR
f calcul F Sndcor
SCAH p-1L pL SCRHn-
Fa
www.thierry-verdel.com
y11 r yi1r y1 j 1 yi j 1
Plan factoriel :
Bj
y1 j r
yi j k yi j r yp j r yi q 1 yi q r yp q 1 yp q r
Bq
y1 q 1 y1 q r
Modle additif (additivit des facteurs et des erreurs) : yi j k = m + a i + b j + i j k . Modle avec interaction (interaction des facteurs et additivit des erreurs) : yi j k = m + ai + b j + gi j + i j k 1 Appelons la moyenne dune colonne du tableau des mesures : = r j k yi j k . yi yi q
1 Appelons la moyenne dune ligne du tableau : = r i k yi j k . yj yj p 1 Appelons j la moyenne dune case du tableau : j = k yi j k . yi yi r
Appelons enfin la moyenne gnrale des mesures : = 1r i j k yi j k . y y p q Qu'on peut noter symboliquement : SCT = SCA + SCB + SCAB + SCR.
L'quation d'analyse de la variance s'crit : y yi y yj y yi y yi y yj y yi i j k H yi j k - L2 = q r i H - L2 + p r j H - L2 + r i j @Hj - L - H - L - H - LD2 + i j k H yi j k - jL2 On calcule SCA, SCB, SCAB et SCR par les formules suivantes : SCA = q r 2 - p q r 2 , y y SCB = p r j j2 - p q r 2 , y y
i i
Puis SCR sobtient par diffrence : On dresse enfin le tableau : SC DL SCA SCB p-1 q-1
SCAB = r i j j2 - p q r 2 - SCA - SCB, yi y SCT = i j k yi j k 2 - p q r 2 . y SCR = SCT - SCA - SCB - SCAB. f calcul
SCAH p-1L f A = Hr-1L SCR p q SCBHq-1L fB = Hr-1L SCR p q
F Sndcor FA FB F AB
A partir duquel on peut faire les tests d'influence des facteurs et d'interaction entre facteurs.
www.thierry-verdel.com
B j y1 j yi j Bq y1 q yi q
Lquation danalyse de la variance scrit alors : y y y y y H y - L2 = q r H - L2 + p r H - L2 soit, avec les notations habituelles : +r i j @H yi j - L - H - L - H - LD2 y yi y yj y
i j i j i i j j
Il est impossible de tester linteraction, puisquon ne dispose plus de SCR permettant, par division, dliminer s2 et d obtenir une loi de Snedecor. Il est donc ncessaire, dans ce cas de faire lhypothse (impossible vrifier) quil ny a pas d interaction. On doit donc adopter le modle additif : yi j = m + a i + b j + i j . Le test d'influence du facteur A (par exemple) est conduit partir du fait que, sous l'hypothse que A n'a pas d'influence : f A = suit une loi de Snedecor H p - 1L et Hp - 1L Hq - 1L degrs de libert. SCAB
H p-1L Hq-1L SCA H p-1L
www.thierry-verdel.com