Sunteți pe pagina 1din 12

1.

Probabilits et Variables Alatoires


Si les vnements lmentaires sont quiprobables
cardinaHAL " A EHnL, pHAL = n

Thorme des probabilits totales


Si les vnements sont incompatibles alors pHA BL = pHAL + pHBL pHX AL = pHAL
pHX AL

Axiome des probabilits conditionnelles

pHA BL = pHAL + pHBL - pHA BL

Thorme des probabilits composes


Si les vnements sont indpendants alors pHA BL = pHAL pHBL pHX = 1L = v ; pHX = 0L = 1 - v pHA BL = pHAL pHB AL

Loi de Bernouilli

Modle : urne avec des Boules Rouges (X = 1, en proportion v) et des Boules Blanches (X = 0, en proportion 1 - v) ; on tire une boule. Alors :

Loi binomiale (tirage non exhaustif)


Modle : urne contenant n Boules dont des Boules Rouges en proportion v et des Boules Blanches (en proportion 1 - v) ; quelle est la probabilit de tirer k Boules Rouges ?
k pHK = kL = Cn vk H1 - vLn-k

Loi hypergomtrique (tirage exhaustif)


Modle : urne contenant N Boules dont R Boules Rouges et N - R Boules Blanches ; quelle est la probabilit de tirer k Boules Rouges parmi n Boules tires ?
R N -R pHK = kL = Cn N C k C n-k

Loi de Poisson
La loi de Poisson est une limite de la loi binomiale quand n est grand, v est faible et n v = l fini (en pratique n > 50 et v < 0.1)
l pHK = kL = e-l k! k

Esprance mathmatique
Loi de Bernouilli : EHX L = v Loi binomiale : EHXL = n v Loi de Poisson : EHXL = l

Loi hypergomtrique : EHXL = n v

Thorme de Bayes
Soit un vnement B dont la ralisation dpend de l'une des causes Ai alors :
i i pHAi BL = L pHBA L pHA k pHA L pHB A L k k

www.thierry-verdel.com

2. La Loi Normale
Distribution uniforme sur @a, bD
pHxL =
1 b-a

et PHxL =

x-a b-a

Distributions marginales de deux alas X et Y


+ + p1 HxL dx = x - p Hx, yL y et p2 HyL dy = y - pHx, yL x

Indpendance de deux alas


X et Y sont indpendants si et seulement si pHx, yL = p1 HxL. p2 H yL

Moment d'ordre k et moment centr d'ordre k


+ + EXk = - xk pHxL x HEHX - mLLk = - Hx - mLk pHxL x

Variance ou moment centr d'ordre 2


+ s2 = VarHXL = E@HX - mL2 D = - Hx - mL2 pHxL x.

Variable centre rduite


T=
X-m s

avec m = EHXL et s2 = VarHXL EHT L = 0 et VarHT L = 1

Relations fondamentales
EHX + Y L = EHXL + EHY L VarHXL = EHX 2 L - HEHXLL2 VarHa X + bL = a2 VarHXL EHX Y L = EHXL . EHY L + CovHX Y L VarHX + Y L = VarHXL + VarHY L + 2 CovHX Y L VarHX - Y L = VarHXL + VarHY L - 2 CovHX Y L Si X et Y sont indpendants alors : EHX Y L = EHXL.EHY L VarHX + Y L = VarHXL + VarHY L

Variable continue sur @0, aD


pHxL =
1 a

; EHXL =

a 2

; VarHXL =

a2 12.

Variable de Bernouilli
PH0L = 1 - v ; PH1L = v ; EHXL = v ; VarHXL = v H1 - vL.

Variable de Poisson
pHkL = !-l
lk k!

; EHXL = l ; VarHXL = l

Loi normale X
pHX = xL =
1 s 2p

1 Hx-mL2 2 s2

EHXL = m et VarHXL = s2

Loi normale rduite T


T =
X -m s

pH T = t L =

1 2p

t2 2

EHT L = 0 et VarHT L = 1.
www.thierry-verdel.com

Ingalit de Bienaym-Tchebichef

Ingalit de Bienaym-Tchebichef
Soit X une variable alatoire de moyenne m et d'cart-type s, ceci prs quelconque alors : Prob 8 X - m > a< <
s2 a2

Thorme central limite


Si X1 , X2 , ..., Xn sont n variables alatoires indpendantes quelconques, leurs variances tant de mme ordre de grandeur alors : X1 + X2 + ... + Xn tend vers une loi normale

www.thierry-verdel.com

3. Le Contrle Statistique
Thierry Verdel, Ecole des Mines de Nancy, www.thierry-verdel.com

Loi de la moyenne d'un chantillon


Soient Xi variables alatoires indpendantes telles que EHXi L = m et VarHXi L = s2 M =
X1 +X2 +...+Xn n

EHM L = m et VarHM L = s2 n Mn X s s n

Loi de la population ( gauche) et loi d'un chantillon ( droite)

Contrle statistique
Considrant l'exemple d'une machine qui fabrique des pices dont la taille suit une loi de probabilit de moyenne m0 et d'cart-type s et dont l'intervalle de tolrance est @a, bD centr sur m0 . Dans ce cas, comme le montre la figure ci-dessous : - a est le risque de procder un rglage alors que la machine n'est pas drgle. C'est aussi le risque du fournisseur (probabilit que le client lui refuse un bon lot). - b est le risque de ne pas rgler la machine alors que son drglage est inadmissible. C'est aussi le risque du client (probabilit d'accepter un mauvais lot). s !!! n s !!! n

a2 m1 a

b m0 b

a2 Mn

www.thierry-verdel.com

4. L'Estimation Statistique
Infrence statistique
C'est porter un jugement sur une population partir d'chantillons

Estimateur

Estimation (ponctuelle) d'une moyenne

Tn HX1 , X2 , ..., Xn L est un estimateur de q si : EHTn L q et VarHTn L 0 quand n . L'estimateur est dit sans biais quand VarHTn = 0L quelque soit n. Soit une population quelconque de moyenne inconnue note m. Si on note m la moyenne d'un chantillon issu de cette population alors m* = m est une estimation sans biais de la moyenne de la population.

Estimation (ponctuelle) d'une variance


Soit une population quelconque de variance inconnue note s2 . Si on note m et s, la moyenne et l'cart-type d'un chantillon issu de cette population alors :
i=1 s*2 = n s2 = est une estimation sans biais de la variance s2 de la population. n-1 n-1 n Hxi -mL2

Loi du khi deux

Soit U1 , U2 , ..., Un , n variables alatoires indpendantes qui suivent des lois normales rduites. Alors la variable c2 = U1 2 + U2 2 + ... + Un 2 suit une loi du khi deux n degrs de livert. n Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne et de mme variance s2 et si M est l'ala dfini comme la moyenne des Xi , alors la variable suivante :
n Hn-1L s i=1 2 = s2 = suit une loi du khi deux n - 1 degrs de libert ( c2 ). n-1 s s s2 n 2 *2 HX i -M L2

Loi de Student

Soit U, U1 , U2 , ..., Un , n + 1 variables alatoires indpendantes normales centres et rduites.


U Alors la variable T @nD = = U suit une loi de Student n degrs de libert. 1 $%%%%%%%%%%%%%%%% Ui 2 n %%%%%%%%%%%% n i=1 1 % $%%%%%%%%%%%%% c2 n n

Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne m et de mme variance s2 et si M est l'ala M -m dfini comme la moyenne des Xi , alors la variable suit une loi de Student n - 1 degrs de libert. !!! s* n

Intervalle de confiance d'une moyenne si on connait l'cart-type de la population (n tant la taille de l'chantillon prlev)
M -m s s = N @0, 1D m - ua2 < m < m + ua2 , ua2 lu dans la table de la loi normale centre rduite. !!! !!! !!! s n n n M s s -m = T @n - 1D m - ta2 < m < m + ta2 , ta2 lu dans la table de Student de degr Hn - 1L. !!! !!! !!! * s n * * n n n n n 2 S = c2 @n - 1D S < s2 < S , c2 et c2 lus dans la table du c2 Hn - 1L degrs de libert. 2 2 1 s2 2 2 2 c2 c1
www.thierry-verdel.com

Intervalle de confiance d'une moyenne si on ne connait pas l'cart-type de la population (n tant la taille de l'chantillon prlev)

Intervalle de confiance de la variance d'une population (n tant la taille de l'chantillon prlev et s son cart-type)

5. Comparaisons Statistiques
Test d'hypothse (Neyman et Pearson)
Etat ralis : H0 Jugement correct H0 Jugement port : H1 a = Prob 8H1 H0 < Jugement incorrect b = Prob 8H0 H1 < Jugement incorrect Jugement correct H1

a : erreur de premire espce (considrer dfavorable ce qui est favorable). b : erreur de deuxime espce (considrer favorable ce qui ne l'est pas). L'intervalle d'acceptation de l'hypothse H0 est l'intervalle tel que pour a donn, b soit minimal. b est aussi la puissance du test.

Comparaison de la moyenne d'une population normale (de variance connue) une valeur donne
l'intervalle @-ua2 , ua2 D lu dans la table de la loi normale centre rduite pour un risque a donn. Si u @-ua2 , ua2 D, on peut rejeter l'hypothse au risque a.
n s n 0 H0 : m = m0 !!! = N @0, 1D . A partir d'un chantillon, on mesure la valeur de u = et on la compare 0 !!! M -m s m-m HX -M L 0

Comparaison de la variance d'une population normale une valeur donne


2 0 0

Comparaison de la moyenne d'une population normale (de variance inconnue) une valeur donne
donn. Si t @-ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
s D n-1 D s n m-m s M -m n

l'intervalle @ c2 , c2 D obtenu dans la table de la loi du c2 Hn - 1L degrs de libert pour un risque a donn. Si 1 2 n s2 @ c2 , c2 D, on peut rejeter l'hypothse au risque a 1 2 s 2
0

nS ns i i=1 H0 : s = s0 2 = = c2 Hn - 1L. A partir d'un chantillon, on calcule la valeur , que l'on compare s 2 s 2 s 2 2

Test des appariements (comparaison des moyennes de deux populations apparies)


Hn - 1L pour un risque a donn. Si t @-ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
n S 2 Hn - 1L 2 2 2 n s 2 Hn - 1L 2 2 2

t = 0 et on la compare l'intervalle @-ta2 , ta2 D lu dans la table de la loi de Student de degr Hn - 1L pour un risque a * !!!
D Soit D = Y - X, H0 : EHDL = 0 !!!! = T Hn - 1L, loi de Student de degr Hn - 1L. A partir d'un chantillon, on !!!!! s n-1 1 1 H0 : s1 2 = s2 2 = s2 Hn1 - = F@n1 - 1, n2 - 1D, loi de Snedecor Hn1 - 1, n2 - 1L degrs de libert. n S 2 1L 2 1 1 2 = n 2 2 . n + 1 2 n S 2 +n S 2 d mesure la valeur de t = et on la compare l'intervalle @-ta2 , ta2 D lu dans la table de la loi de Student de degr !!!!!!!!!

0 H0 : m = m0 = T Hn - 1L loi de Student de degr Hn - 1L. A partir d'un chantillon, on mesure la valeur de * !!!

Comparaison sur chantillons des variances de 2 populations normales

1 1 A partir de deux chantillons, on mesure la valeur de f = Hn11L et on la compare l'intervalle @ f1 , f2 D obtenu - n s 2

partir de la table de loi de Sndcor pour un risque a donn. Si f @- f1 Ha2L , f2 Ha2L D on peut rejeter l'hypothse au risque a. Si f @- f1 Ha2L , f2 Ha2L D, on ne peut pas rejeter l'hypothse d'galit des variances et pour la suite, on retient une variance commune gale s*

www.thierry-verdel.com

Comparaison sur chantillons des moyennes de 2 populations normales (le test d'galit des variances tant dj ralis)
1 1 s * $%%%%%%%%%%%%%%%% % + %%%%%% n1 n2 m1 - m2 M -M

on mesure la valeur de t = et on la compare l'intervalle @-ta2 , ta2 D lu dans la table de la loi de Student de degr Hn1 + n2 - 2L pour un risque a donn. Si t @-ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
1 1 s* $%%%%%%%%%%%%%%%%%% + %%%% n1 n2

1 H0 : m1 = m2 = m 2 = T Hn1 + n2 - 2L, loi de Student de degr Hn1 + n2 - 2L. A partir d'un chantillon,

www.thierry-verdel.com

6. Faits et modles
Estimation d'une proportion
1 Soit Fn = l'ala moyenne de n variables de Bernouilli. On peut crire : n n vH1-vL EHFn L = v et s2 HFn L = n 0 n n a2 n X +...+X

Comparaison de deux proportions


i 1%%%%%%%%%1 $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%% v* H1-v * L j + n%%% N jn k 1 2 f -f

Il s'en suit que Fn est un estimateur sans biais de v. Par ailleurs, si n est assez grand, on peut approximer la loi de Fn par une loi normale et remplacer v par son estimation fn . Cela conduit l'intervalle de confiance d'une proportion v au risque a: fn H1- f L fn H1- fn L f - u "################# < v < f + u "################# n
n a2 n

A l'hypothse que v1 = v2 = v, l'expression suivante :


1 2 1 1 u = avec v* = 2 2 n +n 1 2 n f +n f

est approximativement une ralisation dune variable normale rduite, si lhypothse est vraie. Il suffit de placer la valeur obtenue dans l'intervalle correspondant au risque choisi.

Lgitimit d'un raccordement une loi


A partir d'un regroupement par classe de la variable tudie (effectifs observs, obs). On calcule les effectifs thoriques, dans chacune des classes obtenus par application du modle (effectifs thoriques, theo). Les classes doivent contenir au minimum un effectif thorique de 5 (sinon on procde des regroupements de classes). On calcule alors l'expression suivante : c2 =
r k=1 Hobs-theoL theo 2

Dans l'hypothse o les carts entre effectifs thoriques et effectifs observs ne sont dus qu'aux alas de l'chantillonnage (que les donnes sont effectivement issues de la loi teste), l'expression suivante est une ralisation d'une loi du c2 q degrs de libert avec q = nb de classes - 1 Hsi theo = obsL - p Hnb de paramtres estims dans la loi de raccordementL.

On ne peut pas rejeter la lgitimit du raccordement test si la valeur numrique de l'expression prcdente se situe dans l'intervalle donn par la loi du c2 correspondante pour un risque a fix l'avance. Dans le cas contraire on rejetera le modle avec un risque de rejet tort infrieur ou gal a. En gnral on mettra tout le risque droite (on cherche rejeter des distances trop grandes), mais dans certains cas, une distance obtenue trop petite pourra faire douter de la lgalit des observations.

www.thierry-verdel.com

7. Rgression linaire
Droite de rgression
y = a x + b (observation de la vraie droite inconnue : y = a x + b) avec :
i i=1 a = Hx -xLi2 ; n i=1 i n Hx -xL H y -L y @n Hx -xL H y - LD2 y I1-r2 M H yi -L2 y

b = - a x ; y

i=1 i r 2 = i ; n 2 n 2

Equation d'analyse de la variance

Loi de A et B

1 VarHY L = a2 VarHXL + ei 2 = r 2 VarHY L + H1 - r 2 L VarHY L n i=1 Hxi -xL2 s* i=1 Hxi -xL2

Hx -xL i=1 H yi - yL i=1 i

i=1 s*2 = n-2

Qu'on peut crire : Variance totale = Variance explique + Variance rsiduelle


s A-a A = N Aa, ############ E ##### = T @n - 2D utilis pour tester toute hypothse sur a "################ # "################ ######## n n i=1 i 2 i j x 1y j 2 ''''''''z j z s * &'''''''''''''''''''''''''''''''' '''' j n 2 + n z z i=1 Hxi -xL k { 2

Loi d'un point de la droite, loi d'une observation


1 Hx-xL Un point de la droite : N Aa x + b, s $%%%%%%%%%%%%%%%% Hx E + -x%%%%%% %%%%%%%%% L2 n n 1 Hx-xL Une observation : N Aa x + b, s $%%%%%%%%%%%%%%%% -xL E 1 + +%%%%%%%%%%%%%%%% 2 %%%%%%% n n Hx 2 i=1 i i=1 i

B- b x B = N Ab, s $%%%%%%%%%%%%%%%% L %%%%%%%%%N% E = T @n - 2D utilis pour tester toute hypothse sur b J -x 2 + %%%%%%%% 1 n Hx n

Comparaison de deux rgressions


Hn -2L s *2 +Hn -2L s *2 1 2

A partir desquels on pourra dterminer les intervalles de confiance par passage une loi de Student de degrs Hn - 2L.
1 1 2 estime alors s*2 = -2L 2 Hn -2L+Hn 2

On compare d'abord les variances, puis les pentes et les ordonnes l'origine. A l'hypothse que s1 = s2 = s, la quantit s1 *2 f = appartient une loi de Sndcor de degrs Hn1 - 2, n2 - 2L , ce qui permet de tester l'galit des variances. On s *2 A l'hypothse que a1 = a2 = a, la variable T = 1 2 est une loi de Student Hn1 + n2 - 4L degrs de libert, ce qui permet de tester lgalit des pentes.
1 1 s* $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% + % % n1 n2 %%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% i=1 Hx1 i -x1 L2 i'=1 Hx2 i' -x2 L2 B -B A -A 1 2 A l'hypothse que b1 = b2 = b, la variable T = est une loi de Student x2 2 x 2 1 1 s * &'''''''''''''''''''''''''''''''' 1 + '''''''''''''''' ' + + '''''''''''''''''''''''''''''''' ''''''''''''''''2 n1 n2 n 1 Hx -x L2 n2 Hx -x ''''''' i=1 1 i 1 i'=1 2 i' 2 L

Hn1 + n2 - 4L degrs de libert, ce qui permet de tester lgalit des ordonnes lorigine.

www.thierry-verdel.com

8. Exprimentation statistique
Analyse de la variance un facteur
Le modle de base de lanalyse de la variance scrit yi j = m + a j + i j . Il contient comme hypothses que : - les a j sont des quantits inconnues, mais certaines, qui mesurent linfluence du facteur A. - les i j reprsentent les fluctuations alatoires correspondant aux erreurs de mesure ou linfluence des facteurs non contls. On suppose quil ny a pas derreur systmatique, ou quelle est contenue dans m, donc que EHi j L = 0. Et qu'ils : - sont indpendants : sHi j , i' j' L = 0 pour Hi, jL Hi', j 'L, - suivent des lois normales. On calcule alors :
n j j SCT = p i=1 H yi j - L2 = p i=1 yi j 2 - n 2 y y j=1 j=1 n

- ont mme variance : s2 Hi j L = s2 , (hypothse la plus restrictive : erreurs non multiplicatives, voir test de Bartlett) SCA = p n j H - L2 = pj=1 n j 2 - n 2 yj y yj y j=1 SCR = SCT - SCA.

et par diffrence :

On constitue ensuite le tableau suivant : Variation SC Degrs de libert Facteur Totale SCA SCT p-1 n- p n-1 Rsiduelle SCR

f calcul F Sndcor
SCAH p-1L pL SCRHn-

Fa

A partir duquel on conclut ou non l'influence du facteur considr.

www.thierry-verdel.com

Analyse de la variance deux facteurs avec rptitions


A1 y111 B1 Ai yi11 Ap y p11 y p1r yp j 1

y11 r yi1r y1 j 1 yi j 1

Plan factoriel :

Bj

y1 j r

yi j k yi j r yp j r yi q 1 yi q r yp q 1 yp q r

Bq

y1 q 1 y1 q r

Modle additif (additivit des facteurs et des erreurs) : yi j k = m + a i + b j + i j k . Modle avec interaction (interaction des facteurs et additivit des erreurs) : yi j k = m + ai + b j + gi j + i j k 1 Appelons la moyenne dune colonne du tableau des mesures : = r j k yi j k . yi yi q
1 Appelons la moyenne dune ligne du tableau : = r i k yi j k . yj yj p 1 Appelons j la moyenne dune case du tableau : j = k yi j k . yi yi r

Appelons enfin la moyenne gnrale des mesures : = 1r i j k yi j k . y y p q Qu'on peut noter symboliquement : SCT = SCA + SCB + SCAB + SCR.

L'quation d'analyse de la variance s'crit : y yi y yj y yi y yi y yj y yi i j k H yi j k - L2 = q r i H - L2 + p r j H - L2 + r i j @Hj - L - H - L - H - LD2 + i j k H yi j k - jL2 On calcule SCA, SCB, SCAB et SCR par les formules suivantes : SCA = q r 2 - p q r 2 , y y SCB = p r j j2 - p q r 2 , y y
i i

Puis SCR sobtient par diffrence : On dresse enfin le tableau : SC DL SCA SCB p-1 q-1

SCAB = r i j j2 - p q r 2 - SCA - SCB, yi y SCT = i j k yi j k 2 - p q r 2 . y SCR = SCT - SCA - SCB - SCAB. f calcul
SCAH p-1L f A = Hr-1L SCR p q SCBHq-1L fB = Hr-1L SCR p q

F Sndcor FA FB F AB

SCAB Hp - 1L Hq - 1L SCR SCT p q Hr - 1L pqr-1

SCABH f AB = p-1L Hq-1L SCR p q Hr-1L

A partir duquel on peut faire les tests d'influence des facteurs et d'interaction entre facteurs.
www.thierry-verdel.com

Analyse de la variance deux facteurs sans rptitions


A1 B1 y11 Ai Ap yi1 y p1 yp j yp q

B j y1 j yi j Bq y1 q yi q

Lquation danalyse de la variance scrit alors : y y y y y H y - L2 = q r H - L2 + p r H - L2 soit, avec les notations habituelles : +r i j @H yi j - L - H - L - H - LD2 y yi y yj y
i j i j i i j j

SCT = SCA + SCB + SCAB.

Il est impossible de tester linteraction, puisquon ne dispose plus de SCR permettant, par division, dliminer s2 et d obtenir une loi de Snedecor. Il est donc ncessaire, dans ce cas de faire lhypothse (impossible vrifier) quil ny a pas d interaction. On doit donc adopter le modle additif : yi j = m + a i + b j + i j . Le test d'influence du facteur A (par exemple) est conduit partir du fait que, sous l'hypothse que A n'a pas d'influence : f A = suit une loi de Snedecor H p - 1L et Hp - 1L Hq - 1L degrs de libert. SCAB
H p-1L Hq-1L SCA H p-1L

www.thierry-verdel.com

S-ar putea să vă placă și