Documente Academic
Documente Profesional
Documente Cultură
Licence de mathmatiques
Version 2.0
Christian Lonard
Dpartement de mathmatiques et informatique, Universit Paris Ouest.
Nanterre.
E-mail address: leonard@u-paris10.fr
1
1
3
7
8
11
12
14
17
17
21
23
24
24
25
26
28
29
31
31
33
39
39
41
45
45
45
46
49
52
56
57
59
59
60
vi
Chapitre 8. Conditionnement
8.1. Probabilit conditionnelle
8.2. Conditionnement dans le cas discret
8.3. Conditionnement dans le cas continu
63
63
64
65
69
70
71
73
77
77
79
81
81
81
85
89
91
Annexe A. Dnombrabilit
93
97
101
Annexe D. Convexit
105
Index
109
CHAPITRE 1
(d) A = {f }c = {p}
(b) A = {2, 4, 6}
99K
99K
99K
99K
99K
99K
99K
A
B
Ac
AB
A\B
AB
AB
o
A \ B = A B c est la diffrence A moins B, cest--dire lensemble des lments
qui se trouvent dans A mais pas dans B;
AB = (A B) \ (A B) est la diffrence symtrique de A et B, cest--dire
lensemble des lments qui se trouvent soit dans A, soit dans B, mais pas simultanment dans A et B.
B
A\B
AB
B\A
Lorsque nest pas un ensemble dnombrable (voir la Dfinition A.1), pour des
raisons subtiles (qui ne sont pas aisment comprhensibles au niveau de ce cours) on ne
pourra pas en gnral prendre A = 2 . Compte tenu de ce qui prcde, A doit au moins
satisfaire :
(1) A, B A = A B A et A B A
1.2. PROBABILIT
(2) A A = Ac A
(3) A.
Exemple 1.5. On rpte notre lancer de pile ou face jusqu ce quon obtienne
pile. Lunivers est alors = {1 , 2 , . . .} avec 1 = p, 2 = f p, 3 = f f p, . . . La
ralisation i est : "on observe pile pour la premire fois au i-me lancer". Lensemble
correspondant lvnement : "linstant de premire apparition de pile est pair" est
A = {2 } {4 } {6 } . . . , cest une runion infinie dnombrable. Cette remarque
justifie la dfinition suivante.
Dfinition 1.6. Un ensemble A de parties de est appele une tribu (ou une algbre) si
S
(1) A1 , A2 , A =
i=1 Ai := { ; i 1, Ai } A
(2) A A = Ac A
(3) A
Les lments de A (ce sont des parties de ) sont appels des vnements.
Exemple 1.7 (Exemples de tribus).
G
X
P(Ai ).
P
Ai =
i=1
i=1
n
G
i=1
Exemples 1.10.
Ai =
n
X
P(Ai ).
i=1
1.2. PROBABILIT
6
X
1
n=1
n .
P
o (pn )n1 est tel que pn 0, n et n1 pn = 1. Linterprtation de cette formule est :
P({n }) = pn , n 1.
Notre premier rsultat concernant une quantit infiniment dnombrable doprations
sur les vnements est le suivant.
Lemme 1.16.
(1) Soient A1 , A2 , . . . Sune suite croissante (pour la relation dinclusion) de A : A1
A2 et A =
n=1 An = { ; i 1, Ai } sa limite. Alors
P(A) = lim P(An ).
n
A3
S
A = i1 Ai
X
P(Ai+1 \ Ai )
P(A) = P(A1 ) +
i=1
n1
X
= P(A1 ) + lim
[P(Ai+1 ) P(Ai )]
n
i=1
lim P(An )
Exemple 1.17. On joue indfiniment pile ou face jusqu ce quon obtienne pour
la premire fois pile. Le premier instant dobtention de pile est un entier qui peut tre
arbitrairement grand. On doit donc prendre un univers de cardinal infini. Un bon choix
est = {p, f }{1,2,...} : lensemble des suites = 1 2 . . . n . . . constitues des lettres p et
f avec linterprtation que n = p signifie quon a obtenu pile au n-ime lancer. Notons
que nous choisissons un univers diffrent de celui de lExemple 1.5, pour modliser la
mme exprience.
Lvnement qui correspond lobtention pour la premire fois de pile au n-ime
lancer est Pn = { ; 1 = = n1 = f, n = p}. Cest un ensemble infini qui
a le mme cardinal que puisque seul le dbut des suites est spcifi (Exercice : le
prouver). Il est naturel de demander lors de notre modlisation de cette exprience que
P(Pn ) = 2n puisquil y a 2n mots de longueur n constitus des lettre p et f et que
chacun de ces mots qui code la ralisation de n lancers de pile ou face doit avoir la mme
probabilit (situation dquiprobabilit).
F
Soit Bn = { ; 1 = = n = f } = in+1 Pi lvnement "il ny a pas eu
pile pendant les nPpremiers lancers". Ladditivit des
dvnements disjoints
Pprobabilits
n
i
scrit P(Bn ) =
P(P
)
cest--dire
2
=
2
.
On
vient
de retrouver une
i
i=n+1
i=n+1
formule bien connue.
T
La suite (Bn )n1 est dcroissante avec n1 Bn = P = {e
} o
e = f f f f . . . est
la suite constitue de f uniquement : lvnement "pile napparait jamais". Le lemme
prcdent nous assure de P(P ) = limn 2n = 0. Cest--dire que P(e
) = 0. En
dautres termes, avec cette modlisation de lexprience, on conclut que lvnement
complmentaire "pile finit par apparatre" est de probabilit 1 0 = 1; il est certain.
Un paradoxe. Compte tenu de la symtrie de notre modlisation, tous les sont quiprobables : , P() = P(e
) = 0. Or
Pvnements
P la somme" des probabilits de tous les
lmentaires doit tre gale 1 : P() = 1. Ce qui nous mne 0 = 1.
Une somme
pas tre la somme dune
P de zros gale un ! Cette somme ne peut donc P
srie car nN 0 = 0. Cest la raison pour laquelle on a mis entre guillemets. On
lve le paradoxe en se rappelant que est un ensemble non-dnombrable (voir le Lemme
A.7-2), cest--direPquil ne peut pas tre mis en injection dans N, il est beaucoup plus
gros. De ce fait est une opration indfinie ; en particulier elle nest pas une
srie.
CHAPITRE 2
Variables alatoires
Pour dfinir une variable alatoire, seul (, A) suffit. On laisse P de ct pour le
moment. On se donne (, A).
Essentiellement, une variable alatoire est une fonction numrique sur lunivers souvent
note X : R.
Exemple 2.1. On joue deux fois de suite pile ou face. Notre univers est =
{pp, pf, f p, f f } (lordre des lancers est pris en compte). Le nombre dapparitions de pile
est la variable alatoire suivante
2 si = pp
1 si {pf, f p}
X() =
0 si = f f
Exemple 2.2. On jette une flche par terre et on note langle de sa direction avec le
nord magntique. Une telle exprience peut tre dcrite laide de = [0, 2[. Quant
la tribu A, contentons-nous de dire quelle contient entre autres toutes les runions
dnombrables dintervalles. Lapplication
[0, 2[
X() = ,
est la variable alatoire qui correspond langle de la flche. Si lon considre le cosinus
de cet angle : Y = cos X, on obtient nouveau une variable alatoire sur (, A).
Nous reviendrons sur la question du choix de P lExemple 2.7.
Il est trs pratique dintroduire la notation suivante
{ ; X() C} := {X C}, C R.
Dfinition 2.3. Une application X : R est une variable alatoire relle si pour
tout x R, lensemble {X x} appartient A.
2. VARIABLES ALATOIRES
0
si x ] , 0[
1/4 si x [0, 1[
FX (x) =
3/4 si x [1, 2[
1
si x [2, +[
et son graphe est
y
1
p2 = 1/4
|
3/4
p1 = 1/2
1/4
p0 = 1/4
|
2
1
Reprsentation graphique de y = FX (x)
On constate que FX ne crot que pour les valeurs effectivement frquentes par X : 0, 1 et
2. La hauteur de chacune des marches est respectivement p0 = P(X = 0), p1 = P(X = 1)
et p2 = P(X = 2).
Exemple 2.7 (suite de lExemple 2.2). Compte tenu de la symtrie de lexprience,
il semble raisonnable den modliser le hasard laide de la mesure de probabilit qui
satisfait P(]a, b[) = (b a)/(2), 0 a < b < 2. Soient X() = et Y () = cos . Les
si x 0
0
x/(2) si 0 x < 2
FX (x) =
1
si x 2
et
si y < 1
0
1 (arccos y)/ si 1 y < 1
FY (y) =
1
si y 1
En effet, pour 0 x < 2
FX (x) = P(X x)
= P({ ; 0 x}) = P([0, x]) = x/(2)
z
x
1
0
Reprsentation graphique de z = FX (x)
et pour 1 y < 1
arccos y
2( arccos y)
1
FY (y) = P(Y y)
= P({ ; cos y}) = P(X [( arccos y), arccos y])
= 2( arccos y)/(2) = 1 (arccos y)/
z
1
y
1
1
0
Reprsentation graphique de z = FY (y)
Les fonctions de rpartition jouissent dun certain nombre de proprits.
Proposition 2.8. Une fonction de rpartition F possdent les proprits suivantes :
(1) limx F (x) = 0 et limx F (x) = 1,
10
2. VARIABLES ALATOIRES
Preuve de (2) et (3). Soient a < b et A(a) = {X a}, A(a, b) = {a < X b}. Alors,
A(b) = A(a) A(a, b) est une union disjointe, de sorte que
P(A(b)) = P(A(a)) + P(A(a, b))
do il vient que
qui est (3) et prouve (2).
Preuve de (4). Avec la notation prcdente, pour tout a R, A(a, a + h) dcrot vers le
vide lorsque h > 0 dcrot vers zro. Par consquent, grce (3), limh0 F (a+h)F (a) =
()
limn F (a + 1/n) F (a) = limn P(X ]a, a + 1/n]) = P(X limn ]a, a + 1/n]) =
P(X ) = 0, o lgalit () est une consquence du Lemme 1.16 et lexistence de la
limite limh0 F (a + h) est garantit par le croissance de F dmontre au point (2).
Le rsultat suivant montre que la fonction de rpartition permet dvaluer la probabilit P(X I) pour nimporte quel intervalle I.
On notera que la limite gauche FX (c ) existe puisque FX est une fonction croissante
de sorte que limxc FX (x) = supx<c FX (x).
Dmonstration. Preuve de (1). Dans ce cas, b < . Lorsque a = , cest
vident et lorsque a est fini, ce rsultat a t obtenu la Proposition 2.8.
T
Preuve de (2). Dans
ce
cas,
a
et
b
sont
finis.
Puisque,
[a,
b]
=
n1 ]a 1/n, b] on
T
a {X [a, b]} = n1 {X ]a 1/n, b]} et on obtient laide de (1) et du Lemme
1.16, P(X [a, b]) = limn P(X ]a 1/n, b]) = limn FX (b) FX (a 1/n) =
FX (b) FX (a ).
Preuve de (3). Prenons aS= . Si b = , le rsultat est vident et si b < ,
P(X ] , b[) = P(X n1 ] , b 1/n]) = limn P(X ] , b 1/n]) =
limn FX (b1/n) = FX (b ). Lorsque a est fini, P(X ]a, b[) = P(X ], b[)P(X
] , a]) = FX (b ) FX (a).
Preuve de (4). Dans ce cas a est fini et en tenant compte de (3), P(X [a, b[) =
limn P(X ]a 1/n, b[) = limn FX (b ) FX (a 1/n) = FX (b ) FX (a ).
11
Rappelons que certains des rsultats les plus simples au sujet de la dnombrabilit
sont prsents en Annexe A.
Remarques 2.11.
(1) Bien sr, on peut sans restriction supposer que les xn sont tous distincts.
(2) Puisque N est dnombrable, on peut choisir N = {1, . . . , K} si X prend K =
#(X()) < valeurs ou bien N = {1, 2, . . .} si X prend une infinit de valeurs.
Exemples 2.12.
(1) La variable alatoire de lExemple 2.1 est discrte.
(2) On note X le premier instant dobtention de pile dans lExemple 1.17. Cest une
variable alatoire valeurs dans {1, 2, . . .} {} o X = signifie que pile
napparat jamais. On a vu que P(X = ) = 0 de sorte que X est effectivement
valeurs dans R et quon peut considrer sa fonction de rpartition. On a dj
vu que pour tout n 1, P(X = n) = P(Bn ) = 2n . La reprsentation graphique
de FX est
y
1
1/8
1/2+1/4=3/4
1/4
|
1/2
1/2
|
3
1
2
Reprsentation graphique de y = FX (x)
Comme nous allons le voir, de telles fonctions de rpartition sont typiques des variables discrtes.
Le comportement dune variable discrte X est dcrit par la donne de (xn , pn )nN
o les xn sont supposs distincts et pn := P(X = xn ) 0. Du fait que 1 = P(X R),
nous obtenons la condition de normalisation
X
(2.13)
pn = 1.
nN
pn = FX (xn ) FX (xn1 ),
nN
12
2. VARIABLES ALATOIRES
xn1
xn
xn+1
(3) Dans ce cas, la fonction fX est appele fonction de densit de la variable alatoire
X.
fY (y) =
1/(
0
p
1 y 2 ) si y [1, 1]
sinon
13
z
1/(2)
|
0
2
Reprsentation graphique de z = fX (x)
y
1
0
1
Reprsentation graphique de z = fY (y)
Par souci de lisibilit, ces deux reprsentations ne sont pas la mme chelle. Notons
lexplosion en -1 et 1 de la densit de Y.
Remarques 2.18.
(1) Il est clair que la fonction de rpartition FX dune variable continue est continue.
En fait, elle est un peu plus rgulire : des fonctions FX qui admettent une
reprsentation (2.16) sont dites absolument continues.
(2) Si fX est elle-mme continue, FX est drivable (de classe C 1 ) et FX = fX .
(3) Remarquons que FX nest pas drivable aux points de discontinuit de fX .
Si X est une variable alatoire continue, FX est une fonction continue et toutes les
expressions des membres de droite des galits de la Proposition 2.9 sont gales. On en
dduit immdiatement le
Corollaire 2.19. Si X est une variable alatoire continue de densit fX , pour tous
a b nous avons
P(X ]a, b]) = P(X [a, b]) = P(X ]a, b[)
Z b
= P(X [a, b[) =
fX (x) dx.
a
Lorsque X est continue, on notera parfois P(X (a, b)) chacune des quantits gales
P(X ]a, b]) = P(X [a, b]) = P(X ]a, b[) = P(X [a, b[).
y
y = fX (x)
b
aire=
Rb
a
x
fX (x) dx = P(X (a, b))
14
2. VARIABLES ALATOIRES
aire h(h)/2
(h)
fX (xo )
y = fX (x)
h
0
xo
xo + h
fX (x) dx = 1.
X((v, x)) = x.
X prend ses valeurs dans {2, 9} [0, 2[ et sa fonction de rpartition admet la reprsentation graphique suivante.
y
1
1/3
|
-2,9
15
CHAPITRE 3
Une loi de cette forme est dite atomique. Ses atomes sont les xn tels que pn > 0.
On rappelle que
x est la masse de Dirac au point x, cest--dire que pour toute partie
1 si x B
B R, x (B) =
, voir la Dfinition 1.12. La loi PX est une mesure de
0 sinon
probabilit sur R.
Exemples 3.3.
(1) La variable alatoire X de lExemple 2.12-(1) a pour loi PX = 14 0 + 21 1 + 41 2 .
P
(2) La loi de celle de lExemple 2.12-(2) est PX = n1 2n n .
P(X B) = PX (B),
PX (B) =
pn xn (B) =
nN : xn B
pn
nN : xn B
nN
BR
On voit clairement laide de (2.14) que la donne de (xn , pn )nN est quivalente
celle de la fonction de rpartition FX , de mme quelle est quivalente celle de la loi
17
18
Pour que cette quantit soit dfinie correctement, il est ncessaire de supposer que
X
E|X| :=
pn |xn | <
cest--dire que
nN
nN
Exemples 3.6.
(1) La variable X de lExemple 3.3-(1) a pour loi PX = 14 0 + 21 1 + 14 2 . Son esprance
est EX = 14 0 + 21 1 + 14 2 = 1.
P
(2) La variable X de lExemple 3.3-(2) a pour loi PX = n1 2n n . Son esprance
P
est EX = n1 2n n.
Remarques 3.7.
P
(1) Lorsque X est une variable alatoire positive, son esprance EX = nN pn xn
est une srie termes positifs. Elle est donc toujours dfinie condition de lui
donner la valeur + lorsquelle est divergente.
P
En particulier, pour toute variable alatoire, on a E|X| =
nN pn |xn | et
lon peut crire E|X| sans prcaution en tant que nombre
dans
[0, +] =
P
[0, +[{+}. De plus, E|X| < signifie que la srie nN pn xn est absolument convergente et donc que EX est bien dfini.
(2) On dfinit la loi dune variable alatoire discrte X valeurs dans un ensemble
quelconque X exactement comme lorsque X R, par la donne de (xn , pn )nN
o
P les xn sont dans X . La loi de X est donne par la Dfinition 3.1 X: PX =
nN pn xn . Cest une mesure de probabilit sur X muni de la tribu 2 de ses
parties.
(3) En revanche, pour considrer EX, il faut pouvoir additionner les x et les multiplier par des poids 0 p 1. La notion desprance de X na donc de sens
que si X estP
un espace vectoriel. Lesprance de X est donne par la Dfinition
absolument conver3.5 : EX = nN pn xn X sous rserve que cette srie soit P
gente, cest--dire que la srie termes positifs EkXk =
nN pn kxn k <
soit convergente, o k k est une norme sur lespace vectoriel X . Un cas trs
important est celui de X = Rd muni de le norme euclidienne ou de nimporte
quelle autre norme quivalente.
19
Considrons la variable P
alatoire Y = (X), image de X par la fonction numrique
: R R. Sa loi est PY = mM qm ym o {ym ; m M } = {(xn ); n N } les ym tant
tous distincts et
qm := P(Y = ym )
= P((X) = ym )
X
=
P(X = x)
xX(): (x)=ym
(3.8)
pn
nN (m)
o N (m) = {n N : (xn ) = ym } est lensemble des indices des xn dont limage par
est ym .
Notons que (N (m))mM constitue une partition de N. Cest--dire que les parties N (m)
sont disjointes : m 6= m N (m) N (m ) = (puisque les ym sont tous distincts), et
(3.9)
N=
N (m).
mM
nN
E[(X)] =
pn (xn ).
nN
(b)
p n ym
mM nN (m)
(c)
pn (xn )
mM nN (m)
(d)
pn (xn )
nN
o (a) est la dfinition de lesprance, (b) provient de (3.8), (c) est une consquence de
ym = (xn ), n N (m) et (d) vient de (3.9).
Bien videmment, il faut sassurer que toutes ces sries sont absolument convergentes.
Or, en reprenant le prcdent calcul enP
remplaant Y par |Y | et donc par ||, on voit
que cest le cas sous notre hypothse : nN pn |(xn )| < .
P
Thorme 3.12. La loi de (X) est P(X) = nN pn (xn ) .
20
mM nN (m)
mM
pn (xn ) =
mM nN (m)
pn (xn )
nN
Dmonstration.
Preuve de (1). Nous avons xn 0 et pn 0 pour tout n N.
P
Donc EX = nN pn xn 0.
E[(X)]
=
nN pn (xn )
P
nN pn (xn ) E[(X)] .
= a
nN
pn (xn ) + b
pn (xn )
nN
= aE[(X)] + bE[(X)]
ce qui achve la preuve.
Thorme 3.15 (Croissance de lesprance). Soient et deux fonctions numriques telles que E|(X)| < , E|(X)| < et . Alors, E[(X)] E[(X)].
21
Exemple 3.20. Si X est langle de la flche de lExemple 2.17 : fX (x) = 1[0,2[ (x)/(2)
R 2 x
de sorte que E(X) = 0 2
dx = .
Remarque 3.21. On peut se demander ce que signifie la valeur moyenne de langle
EX = . En effet, si lon avait choisi de coder langle dans [, [, on aurait obtenu EX =
0 pour la mme exprience. En revanche, les coordonnes cartsiennes (cos X, sin X) sur
le cercle trigonomtrique sont indpendantes du choix de lorigine des angles.
22
(cos X, sin X)
angle = X
b
(0, 0)
(1, 0)
= aE[(X)] + bE[(X)],
23
fX (x) dx
notation
fX (x) dx
(1) la quantit
dPX =
dPX =
nN
P
(xn )pn
nN
pn xn ou bien
(x)fX (x) dx
Croissance. Si , alors
(3.26)
E(X) E(X)
24
1 si X() B
.
0 sinon
Dfinition 3.31. On suppose que E|X| < de sorte que EX est bien dfini. La
variance de X est
Var(X) := E[(X EX)2 ] [0, +]
Son cart-type est
p
(X) := Var(X) [0, +].
3.6. MOMENTS
25
(2) Var(aX) = a2 Var(X) et (aX) = |a|(X), pour tout rel a 6= 0, avec la convention a2 = |a| =
Bien sr, si a = 0, Var(0) = (0) = 0.
(3) Var(X + c) = Var(X) pour tout rel c.
(4) Var(c) = 0 pour tout rel c.
3.6. Moments
Commenons par la dfinition des moments dune variable alatoire.
Dfinition 3.33. Soit X une variable alatoire relle.
Si X 0 est une variable alatoire positive, pour tout rel p > 0, on appelle
moment dordre p de X la quantit E[X p ] [0, ].
Dans le cas gnral o X est une variable alatoire relle, pour tout entier p 1
tel que E[|X|p ] < , on appelle moment dordre p de la variable alatoire relle X
la quantit E(X p ).
On rappelle que les puissances non-entires ne sont dfinies que pour les nombres
positifs par xp := exp(p ln(x)), x > 0, p R et 0p = 0 si p > 0.
= E[1{X<1} X p ] + E[1{X1} X p ]
(b)
1 + E[1{X1} X q ]
(c)
1 + E[X q ] < .
26
Lgalit (a) est une application de la linarit de lesprance. Lingalit (b) vient de
1{0x<1} xp 1 et xp xq lorsque x 1 et 0 < p q. On obtient lingalit (c) en
remarquant que 1{x1} xq xq lorsque x 0. On a invoqu (3.26) pour des fonctions
positives pour ces deux ingalits.
La dernire assertion de la proposition sen dduit immdiatement.
Corollaire 3.35. Si E(X 2 ) < , alors E|X| < .
De plus, Var(X) < si et seulement si E(X 2 ) < .
Si est une fonction numrique suffisamment rgulire et X est une variable alatoire,
alors Y = (X) est aussi une variable alatoire. Pour tout intervalle B R, notons
1 (B) := {x R; (x) B}.
Exercice 3.36. Montrer que si est continue par morceaux, 1 (B) est une runion
dnombrable dintervalles.
Grce lexercice prcdent et lidentit (3.46) plus bas, on peut considrer PX (1 (B))
et crire
PY (B) = P(Y B)
= P((X) B)
= P(X 1 (B))
= PX (1 (B))
F
ce qui spcifie la loi de Y. Avec B = n1 In o les In sont des intervalles disjoints, nous
avons
X
(3.37)
P(X B) =
P(X In ).
n1
27
(a) Soit X une variable continue de densit fX continue par morceaux. On cherche la loi
de Y = aX + b avec a et b rels.
Remarquons avant tout que lorsque a = 0, Y vaut b quoiquil arrive, sa loi est donc
PY = b . On note en passant que ceci nous donne un exemple de (X) discrte alors
que X est continue.
Prenons maintenant a 6= 0 et calculons la fonction de rpartition de Y = aX + b.
Si a > 0, FY (y) = P(aX + b y) = P(X (y b)/a) = FX ((y b)/a). Ce qui
donne fY (y) = FY (y) = fX ((y b)/a)/a.
Si a < 0, FY (y) = P(aX + b y) = P(X (y b)/a) = 1 FX ((y b)/a). Ce
qui donne fY (y) = FY (y) = fX ((y b)/a)/a.
Finalement, nous obtenons dans les deux cas
fX ((y b)/a)
, yR
(3.38)
fY (y) =
|a|
= P( y X y)
= FX ( y) FX (( y) )
fX ( y) + fX ( y)
(3.39)
fY (y) = FY (y) = 1(y>0)
.
2 y
Exemple 3.40. Si X est langle de la flche de lExemple 2.17 et Y = X 2 ,
fX (x) = 1[0,2[ (x)/(2) et avec (3.39) : fY (y) = 1[0,42 [ /(4 y) de sorte que
Z 2 2
4
x
2
dx = 2
E(X ) =
2
3
0
Z 42
y
4
E(Y ) =
dy = 2
4
3
0
On constate bien videmment que E(Y ) = E(X 2 ).
(c) Les choses sont plus simples si lon considre Z = X 3 . En effet, pour tout z R,
nous avons
FZ (z) = P(X 3 z) = P(X z 1/3 ) = FX (z 1/3 ).
La simplicit de ce calcul vient du fait que z 3 est injective, alors que la non-injectivit
de z 2 crait quelques difficults dans lexemple prcdent. Si X admet une fonction
de densit continue par morceaux, Z = X 3 admet la fonction de densit
fX (z 1/3 )
.
3z 2/3
Notons que cette fonction nest pas dfinie en z = 0, mais a nest pas un problme puisque des fonctions de densit gales sauf sur un ensemble de longueur nulle
fZ (z) =
28
et X1 (f p) = X1 (f f ) = 5.
On lance un d de sorte que 2 = {a, b, c, d, e, f } avec P2 = 61 (a + b + c +
d + e + f ). On considre
X2 dfini par X2 (a) = X2 (b) = X2 (c) = 3 et
X2 (d) = X2 (e) = X2 (f ) = 5.
L
On voit que PX1 = PX2 = 21 (3 + 5 ), cest--dire X1 = X2 .
(2) Soit X la variable de lExemple 2.6 dont la loi est 14 0 + 21 1 + 41 2 . Montrer que
L
X = 2 X.
(3) Soit X une variable alatoire continue dont la densit est une fonction paire ;
L
fX (x) = fX (x), x. Alors nous avons X = X. En effet, pour tout rel y nous
avons
FX (y) = P(X y)
Z +
=
fX (x) dx
y
Z y
(a)
=
fX (z) dz
Z y
(b)
=
fX (z) dz
= FX (y)
29
n N
Si elles sont continues, cela signifie que leurs densits ont le mme ensemble de points
de discontinuit (Cf. les Dfinitions 2.15 et 3.17) et quelles sont gales partout sauf
ventuellement sur cet ensemble de "longueur nulle". On dit alors quelles sont gales
Lebesgue-presque partout et on note
fX1 = fX2 ,
Lebesgue-p.p.
30
B B.
CHAPITRE 4
n
X
n
k=0
pk q nk k
32
(n 1)!
pk1 q nk
(k
1)!(n
k)!
k=0
n
X
(a)
n 1 l n1l
= np
pq
l
= np
l=0
(b)
= np(p + q)n1
= np
X
PX =
q k1 pk
k=1
o comme prcdemment on pose q = 1 p. Ceci signifie que X peut prendre les valeurs
1, 2, . . . avec P(X = k) = q k1 p pour k 1.
Exercice 4.2.
X
k
e k .
PX =
k!
k=0
Ceci signifie que X peut prendre les valeurs 0, 1, 2, . . . avec P(X = k) = e k /k! pour
k 0 avec la conventions habituelles 0 = 1 et 0! = 1 de sorte que P(X = 0) = e .
Exercice 4.3.
33
(4.4)
X xl
l
l0
ke
k0
= e
= e
k0
k /k! = e e = 1.
k X k
=
ke
k!
k!
k1
X k1
(k 1)!
k1
X l
l0
l!
= e e =
X
k0
k(k 1)e
= 2 e
= 2 e
k!
X k2
(k 2)!
k2
X l
l0
l!
X
k2
k(k 1)e
k!
= 2 e e = 2
Exercice 4.5. En vous inpirant de la solution prcdente, montrer que pour tout
entier k 1, E[X(X 1) (X k + 1)] = k .
4.2. Exemples de variables alatoires continues
Nous prsentons dans cette section les lois uniformes, exponentielles, normales, Gamma
et de Cauchy.
Loi uniforme. Nous avons dj rencontr la variable U de loi uniforme sur [0, 1].
Ses fonctions de rpartition et de densit sont
0 si u 0
u si 0 u 1
FU (u) =
et fU (u) = 1(0u1) , u R.
1 si u 1
34
z
1
z = FU (u)
1 u
z = fU (u)
Une variable alatoire X suit une loi uniforme sur [a, b] si elle a la mme loi (cest--dire
la mme fonction de rpartition) que a + (b a)U. Ses fonctions de rpartition et de
densit (voir (3.38)) sont
si x a
0
1(axb)
(x a)/(b a) si a x b
F (x) =
et f (x) =
, x R.
1
b
a
si x b
z
1/(b a)
|
z = F (x)
z = f (x)
On note U(a, b) la loi uniforme sur [a, b]. Nous avons donc
(4.6)
a + (b a)U U(a, b)
z
|
z = F (x)
z = f (x)
35
Cette variable alatoire sert souvent modliser des temps dattente. Elle intervient
de faon fondamentale dans la construction des processus de Markov temps continu que
lon rencontre lors de la modlisation de systme de files dattente (rseaux informatiques,
guichets, etc. . .).
Loi normale. Cest probablement la loi continue la plus importante. On lappelle
aussi loi de Gauss ou loi gaussienne. On dit quune variable alatoire Z suit une loi
normale centre rduite si sa fonction de densit est
2
z
1
fZ (z) = exp
, zR
2
2
Cette loi est note N (0, 1).
v
|
1/ 2
z
2
1
1
2
0
Reprsentation graphique de v = fZ (z)
Il nexiste pas dexpression analytique de la fonction de rpartition de Z. On la note
traditionnellement
2
Z y
z
1
exp
(4.9)
(y) = P(Z y) =
dz.
2
2
R
Toutefois,
on peut vrifier que limy+ (y) = R fZ (z) dz = 1. Pour cela posons
R
I = R fZ (z) dz. Nous avons par un simple jeu dcriture sur les variables dintgration
Z
Z
ZZ
2
I =
fZ (x) dx fZ (y) dy =
fZ (x)fZ (y) dxdy
R
R
R2
ZZ
ZZ
1
1
2
2
x2 /2 y 2 /2
=
e
e
dxdy =
e(x +y )/2 dxdy
2
2
R2
R2
Z
Z 2
Z 2 Z
1
1
(a)
r 2 /2
r 2 /2
e
rdrd =
e
rdr
d
=
2 0
2
0
0
0
Z
(b)
=
eu du
0
= 1
36
e
dz =
fZ (z) dz = 1.
(4.10)
2 R
R
R
0 + 2 R fZ (z) dz. On en dduit avec (4.10) que EZ 2 = 1.
L
R
Solution. Pour tout rel y, FZ (y) = P(Z y) = P(Z y) = y fZ (z) dz =
R
R
Ry
f (z) dz = y fZ (x) dx = fZ (x) dx = FZ (y) o nous avons utilis succesy Z
sivement la parit de fZ : fZ (z) = fZ (z) et le changement de variable x = z. Par
consquent Z et Z ont la mme fonction de rpartition.
Dfinition 4.13. De manire gnrale, une variable alatoire X est dite centre si
E(X) = 0 et rduite si Var(X) = 1.
Une variable alatoire X suit une loi normale de paramtres et 2 ( R, > 0)
note N (, 2 ), si elle peut scrire sous la forme
(4.14)
X = + Z
37
N (, 12 )
N (, 22 )
1
2
|
+ 1
+ 2
/2
ey
y 2
et
/2
2ey
.
y 2
zez /2 dz
e
dz =
2 y
y 2 y
y
2
1
ey /2
2
= [ez /2 ]
y =
y 2
y 2
ce qui prouve (a). On en dduit (b) en remarquant que P(|Z| y) = P(Z y)+P(Z
y) = P(Z y)+P(Z y) = 2P(Z y) puisque Z a la mme loi que Z, voir lExercice
4.12.
Notons que les majorations de lexercice prcdent sont trs mauvaises pour y proche
de 0, puisquelles sont en 1/y au voisinage zro. En revanche ces estimes samliorent
beaucoup pour des grandes valeurs de y. On trouve P(|Z| 3) 0, 0533 ainsi que
P(|Z| 4) 0, 0021, P(|Z| 5) 3 105 et P(|Z| 6) 2 107 . En pratique,
cest--dire plus de 997 fois sur 1000, Z prend ses valeurs entre -4 et 4.
CHAPITRE 5
Dfinition 5.1. Soit X une variable entire. Sa fonction gnratrice est dfinie pour
tous 0 t 1 par GX (t) = E(tX ).
n1
avec GX (1) = E(1) = 1 et GX (0) = p0 . Cette dernire galit est une convention puisque
GX (0) = p0 00 : nous avons choisi de prendre 00 = 1. Cette convention est justifie du
fait quelle garantit la continuit de GX (t) en t = 0. EnP
effet, grce au Thorme
B.2,
P
puisque 0 tX 1 est born, limt0 GX (t) = p0 + limt0 n=1 pn tn = p0 + n=1 0 = p0 .
Proposition 5.3. Pour tout entier k 1 tel que E(X k ) < , nous avons
(k)
(k)
Dmonstration. Du fait que E(X k ) < , nous avons aussi grce la Proposition
3.34 : E(X l ) < pour tous 1 l k. Ce qui implique clairement que E[X(X
1) (X l + 1)] < pour tous 1 l k.
Commenons par le cas k = 1 sous lhypothse EX < . On peut donc appliquer
le thorme de drivation sous le signe somme nonc au Thorme B.3 pour obtenir
39
40
P
P
P
GX (1) = n1 pn ntn1 |t=1 = n1 pn n puisque EX = n1 pn n < . En recommenP
P
n2
ant, on montre
de
mme
que
G
(1)
=
p
=
n n(n 1)t
|t=1
X
n2
n2 pn n(n 1) sous
P
lhypothse n2 pn n(n 1) = E[X(X 1)] < . En drivant k fois, nous obtenons
X
(k)
GX (1) =
pn n(n 1) (n k + 1) = E[X(X 1) (X l + 1)]
nk
Exemples 5.4.
(a) La loi de Bernoulli B(p) de paramtre 0 p 1 est PX = q0 + p1 o q = 1 p.
Par consquent, pour tout 0 t 1, GX (t) = qt0 + pt1 = q + pt. On a bien sr,
GX (0) = q, GX (1) = q + p = 1 et EX = GX (1) = p.
Pn
n k nk
(b) La loi binomiale B(n, p) de paramtres n 1 et 0 p 1 est k=0
p q k
k
Pn
P
de sorte que GX (t) = k=0 pk q nk tk = nk=0 (pt)k q nk = (q + pt)n en utilisant la
formule du binme de Newton. Avec n = 1, on retrouve la formule prcdente pour
B(p).
On obtient EX = GX (1) = np(q + pt)n1 t=1 = np(q + p) = np ainsi que E[X(X
1)] = GX (1) = n(n 1)p2 (q + pt)n2 t=1 = n(n 1)p2 . On en dduit que Var(X) =
E[X(X 1)] + EX (EX)2 = n(n 1)p2 + np (np)2 = npq.
P
n
/n! n de sorte que
(c) La loi de Poisson P() de paramtre > 0 est
n0 e
P
P
n
n
n
t
GX (t) = e
e = e(t1) . On a EX =
n0 /n! t = e
n0 (t) /n! = e
GX (1) = e(t1) |t=1 = , ainsi que E[X(X 1)] = GX (1) = 2 e(t1) |t=1 = 2 . On
en dduit que Var(X) = E[X(X 1)] + EX (EX)2 = 2 + 2 = .
P
P
(d) La loi gomtrique G(p) est n1 q n1 pn . Par consquent GX (t) = n1 q n1 ptn =
P
P
pt n1 (qt)n1 = pt n0 (qt)n = pt/(1 qt). On obtient donc EX = GX (1) =
[p(1 qt) + pqt]/(1 qt)2 |t=1 = 1/p.
Comme le montre le rsultat suivant, la fonction gnratrice permet de retrouver la
loi de X.
Proposition 5.5. Soit X une variable alatoire entire de fonction gnratrice GX .
Nous avons
(n)
pn = GX (0)/n!, n 0
(n)
41
E(X k ) = LX (0).
EX k = (i)k X (0).
La premire assertion du thorme montre que lhypothse Eeso |X| < faite en (1) et
(2) est bien plus restrictive que celle faite en (3). Ceci justifie lusage de la fonction caractristique plutt que celui de la transforme de Laplace dans certaines situations. Notons
que les calculs sont essentiellement les mmes avec LX et X du fait que formellement
X (s) = LX (is).
42
Preuve de (3). Elle est analogue celle de la seconde partie de (1). La drive k-ime
de s 7 eisX est ik X k eisX . Or nous avons |ik X k eisX | = |X|k pour tout s et nous faisons
lhypothse que E|X|k < . laide du Thorme B.3 de drivation en s = 0 nous
(k)
obtenons X (0) = E(ik X k e0.X ) = ik EX k qui est le rsultat annonc.
P
(k)
Remarque 5.9. Le dveloppement formel en srie entire de LX : LX (s) = k0 LX (0)sk /k!,
(k)
peut nous permettre didentifier rapidement les drives LX (0) lorsquon en connat lexP
(k)
pression LX (s) = k0 ak sk . Nous avons alors LX (0) = k!ak , k 0.
Un raisonnement analogue fonctionne
lorsquon ne connat quun dveloppement limit
P
k
en 0 lordre K : LX (s) = K
a
s
+
sk (s), pour identifier les K premires drives
k=0 k
en 0 de LX .
Exemples 5.10.
(a) Loi de Poisson P(). En reprenant lExemple 5.4-(c), avec la Remarque 5.7-(4) nous
obtenons LX (s) = exp((es 1)) donc ln LX (s) = (es 1) de sorte que (ln LX ) (s) =
(ln LX ) (s) = es . Avec le Thorme 5.8-(2) on retrouve EX = VarX = .
(b) Loi gomtrique G(p). En reprenant lExemple 5.4-(d), avec la Remarque 5.7-(4) nous
obtenons LX (s) = pes /(1 qes ) donc ln LX (s) = ln p + s ln(1 qes ) de sorte que
s
s )+q 2 e2s
. Avec le Thorme
(ln LX ) (s) = 1 + qes /(1 qes ) et (ln LX ) (s) = qe (1qe
(1qes )2
2
5.8-(2) on retrouve EX = 1/p et on obtient VarX = (qp + q )/p2 = (1 p)/p2 .
R sx x
x,
dx =
(c) Loi
exponentielle
E().
Puisque
f
nous
avons
L
X (x) = 1{x0} e
X (s) = 0 e e
R (s)x
0 e
dx. Cette intgrale est convergente si et seulement si s < et dans ce
cas LX (s) = /( s). Nous sommes bien dans les conditions dapplication
P du Thorme 5.8-(1). Lorsque |s|/ < 1, nous avons LX (s) = 1/(1 s/) = k0 (s/)k =
P
(k)
sk k!
k
k0 k! k . En tenant compte de la Remarque 5.9, nous obtenons LX (0) = k!/ ,
donc EX k = k!/k .
Compte tenu de limportance des variables alatoires normales nous isolons le calcul
de leurs transformes de Laplace et fonctions caractristiques.
Proposition 5.11.
(1) Soit Z une variable alatoire normale standard : Z N (0, 1). Nous avons pour
2
2
tout rel s, LZ (s) = es /2 et Z (s) = es /2 .
43
(2) Soit X une variable alatoire normale de loi N (, 2 ). Nous avons pour tout rel
2 2
2 2
s, LX (s) = es+ s /2 et X (s) = eis s /2 .
Dmonstration. Preuve de (1). Nous ne donnons que la preuve concernant LZ
en admettant que le lien formel X (s) = LX (is) est rigoureux dans ce cas. Cette identit
ncessite la notion de prolongement analytique (prolongement de R C) qui nest pas
du niveau de ce cours.
Pour tout rel s,
Z
1
2
esz ez /2 dz
LZ (s) =
2
ZR
1 szz2 /2
e
=
dz
2
R
Z
1 2
1
2
2
e 2 (z 2sz+s ) es /2 dz
=
2
R
Z
1
1
2
2
e 2 (zs) dz
= es /2
2
R
s2 /2
= e
R
1
2
o la dernire galit provient de R 12 e 2 (zs) dz = 1, la condition de normalisation
de la densit N (s, 1), voir (4.16).
2
En admettant Z (s) = LZ (is), on voit que Z (s) = es /2 .
Preuve de (2). Grce (4.14) nous avons X = +Z de sorte que LX (s) = Ees(+Z) =
es LZ (s) et X (s) = Eeis(+Z) = eis Z (s).
CHAPITRE 6
Couples alatoires
Beaucoup dnoncs probabilistes intressants sexpriment laide dune paire de
variables alatoires X, Y. Nous allons tudier le problme de leur variation conjointe sur
le mme domaine . Dans tout ce qui va suivre, les variables alatoires sont dfinies sur
le mme espace probabilis (, A, P).
6.1. Lois jointe et marginales
La loi du couple (X, Y ) est la mesure de probabilit PX,Y sur R2 qui est spcifie par
PX,Y (A B) = P(X A et Y B)
pour tous intervalles A et B. On appelle lois marginales du couple (X, Y ) les lois PX et
PY de X et de Y. Nous avons pour tous intervalles A et B,
PX (A) = PX,Y (A R)
PY (B) = PX,Y (R B)
Pour distinguer la loi PX,Y des lois marginales, on lappelle parfois la loi jointe de (X, Y ).
Exemple 6.1. Soit un couple alatoire (X, Y ) qui prend les valeurs (1, 3), (1, 4) et
(2, 4) avec les probabilits respectives 1/4, 1/8 et 5/8.
y
(3/4) 4
(1/4) 3
(1/8) (5/8)
b
(1/4)
1
2
(3/8) (5/8)
Sa loi est PX,Y = 41 (1,3) + 81 (1,4) + 58 (2,4) . Ses lois marginales sont PX = 83 1 + 85 2 et
PY = 14 3 + 43 4 .
6.2. Fonction de rpartition
Nous introduisons une notion de fonction de rpartition dun couple de variables
alatoires analogue celle des variables relles.
Dfinitions 6.2. Une application (X, Y ) : R2 est un couple alatoire si pour
tout x, y R, lensemble { ; X() x et Y () y} appartient A.
La fonction de rpartition jointe de (X, Y ) est la fonction FX,Y : R2 [0, 1] donne par
FX,Y (x, y) = P(X x, Y y).
45
46
6. COUPLES ALATOIRES
+
b
En dautres termes, nous pouvons valuer la probabilit que le point alatoire (X, Y )
"tombe" dans la rgion rectangulaire ]a, b]]c, d] du plan R2 . En travaillant de faon
analogue la Proposition 2.9, on rcupre les probabilits de tomber dans des rgions
rectangulaires quelconques, puis leurs runions dnombrables, etc. . . De fil en aiguille,
il est possible de montrer, grce aux proprits des mesures de probabilit, lassertion
suivante :
Proposition 6.3. FX,Y spcifie de manire unique P((X, Y ) C) pour toutes les
parties ouvertes C de R2 . En dautres termes, FX,Y spcifie entirement le loi jointe PX,Y .
Les fonctions de rpartition marginales de X et de Y sont
FX (x) = P(X x) = lim P(X x et Y n)
n
On constate que, mme sur lExemple 6.1 qui est trs simple, la fonction de rpartition
FX,Y est pnible expliciter. En effet, elle ncessite de dcouper le plan en 5 zones
rectangulaires. Nous nemploierons donc que trs peu souvent les fonctions de rpartition
dans les calculs explicites.
6.3. Indpendance
Deux variables alatoires discrtes X et Y sont dites indpendantes si pour tous
x, y R, P(X = x et Y = y) = P(X = x)P(Y = y). Nous revisiterons plus en dtail
cette notion importante au Chapitre 9.
6.3. INDPENDANCE
47
Il est clair que cette dfinition de lindpendance ne peut pas tre conserve si lune
au moins des variables (par exemple X) est continue, puisque dans ce cas P(X = x) = 0,
pour tout x R. Nous adopterons la dfinition gnrale suivante.
Dfinition 6.4. Les variables alatoires X et Y sont dites indpendantes si
P(X x et Y y) = P(X x)P(Y y),
x, y R.
On vrifie que pour des variables alatoires discrtes, cette dfinition de lindpendance est quivalente celle rappele plus haut.
Une formulation quivalente est : X et Y sont indpendantes si et seulement si
FX,Y (x, y) = FX (x)FY (y),
x, y R.
et pour toutes fonctions numriques continues par morceaux et , les variables alatoires (X) et (Y ) sont indpendantes.
Notons que lorsque X et Y sont des variables discrtes dont toutes les valeurs sont
isoles, toutes les fonctions et sont continues (en restriction X() et Y ()).
Ide de la preuve. Nous navons pas les outils suffisants pour donner une preuve
complte (donc une preuve) de ce rsultat. Notons toutefois quil est possible de montrer,
de faon similaire la preuve de la Proposition 6.3, que X et Y sont indpendantes si
et seulement si pour toutes runions dnombrables de parties ouvertes A et B de R,
P(X A et Y B) = P(X A)P(Y B).
Maintenant, nous pouvons crire pour toute paire douverts A, B :
1
1
P (X) A et (Y ) B = P X (A) et Y (B)
= P X 1 (A) P Y 1 (B)
= P((X) A)P((Y ) B)
48
6. COUPLES ALATOIRES
(4) = (5) = rouge, (a) = (b) = vert et (c) = bleu. On a donc P(X = jaune) = 3/5,
P(X = rouge) = 2/5 ainsi que P(Y = vert) = 2/3, P(Y = bleu) = 1/3.
Si de plus ces tirages sont indpendants (au sens habituel du terme), on navantage aucun
couple de boules au dtriment dautres : la loi de (X, Y ) est uniforme sur {1, 2, 3, 4, 5}
{a, b, c}. On constate qualors X et Y sont des variables alatoires indpendantes au sens
mathmatique. En effet, pour tous A {1, 2, 3, 4, 5} et B {a, b, c},
#(AB)
#({1, 2, 3, 4, 5} {a, b, c})
#(A)#(B)
=
#({1, 2, 3, 4, 5}) #({a, b, c})
#(A) #(B)
=
5
3
= P(X A)P(Y B)
P((X, Y ) AB) =
P(max(X, Y ) t)
P({X t} {Y t})
P(X t)P(Y t)
FX (t)FY (t)
P(min(X, Y ) > t)
P({X > t} {Y > t})
P(X > t)P(Y > t)
[1 FX (t)][1 FY (t)]
do
FV (t) = 1 [1 FX (t)][1 FY (t)], t R.
49
= et (1 et ) + et (1 et )
et
1 FV (t) = [1 FX (t)][1 FY (t)]
= et et = e(+)t
yK
Y
x1
pX,Y (x1 , yK ) pX (x1 )
x2
pX,Y (x2 , yK ) pX (x2 )
..
..
..
.
.
.
xL pX,Y (xL , y1 ) pX,Y (xL , y2 ) pX,Y (xL , yK ) pX (xL )
X
pY (y1 )
pY (y2 )
pY (yK )
1
dont lintrieur dcrit la loiPjointe de (X, Y ). Les lois marginales sont donnes par PX =
P
1lL pX (xl )xl et PY =
1kK pY (yk )yk avec
X
pX (xl ) =
pX,Y (xl , yk ), 1 l L
1kK
pY (yk ) =
1lL
pX,Y (xl , yk ),
1kK
puisque
pX (xl ) = P(X = xl ) = P(X = xl et Y Y) = P((X, Y ) {xl } Y) =
P
1kK P(X = xl et Y = yk ) et de mme pour pY (yk ).
Par consquent la dernire ligne du tableau est constitue des sommes par colonnes et
la dernire colonne des sommes par lignes : les marges du tableau spcifient les lois
marginales PX et PY .
De faon plus gnrale, soient X et Y deux variables alatoires valeurs dans des
ensembles dnombrables X et Y. Alors le couple (X, Y ) est valeurs dans lensemble
50
6. COUPLES ALATOIRES
pY (y) =
xX
xX
pX (x)x et PY =
yY
pY (y)y
xX
y Y.
Exemple 6.10. Considrons les deux lois jointes spcifies par les tableaux suivants :
1
3 Y
-1
0,1 0,2 0,3
2 0,45 0,25 0,7
X 0,55 0,45
1
1
3 Y
-1
0,2 0,1 0,3
2 0,35 0,35 0,7
X 0,55 0,45
1
On constate que ces deux lois jointes sont distinctes bien quelles possdent les mmes
lois marginales. Par consquent la loi jointe PX,Y nest pas spcifie par la donne des
deux lois marginales PX et PY . Il y a plus dinformation dans lintrieur du tableau que
sur les marges.
P
Proposition 6.11. Soit (X, Y ) de loi PX,Y = xX ,yY pX,Y (x, y)(x,y) . Les variables
X et Y sont indpendantes si et seulement sil existe deux fonctions q : X [0, 1] et
r : Y [0, 1] telles que pour tous x X et y Y nous avons pX,Y (x, y) = q(x)r(y).
Dans ce cas, nous avons aussi
pX,Y (x, y) = pX (x)pY (y),
x X , y Y.
51
Puisque le couple discret (X, Y ) est une variable discrte valeurs dans lensemble
dnombrable X Y (voir la Proposition A.4) lesprance de (X, Y ) est donne par le
Thorme 3.10 qui dans ce cas prcis scrit
X
(6.13)
E(X, Y ) =
(x, y)pX,Y (x, y)
xX ,yY
pour toute variables alatoires X et Y telles que E|X| < et E|Y | < .
Plus gnralement pour toutes fonctions et telles que E|(X, Y )| < et
E|(X, Y )| < et tous rels a, b, nous avons
E[a(X, Y ) + b(X, Y )] = aE(X, Y ) + bE(X, Y ).
xX ,yY
xX
(x)pX (x)
X
yY
= E[(X)]E[(Y )]
(y)pY (y)
52
6. COUPLES ALATOIRES
/4
Dans ce cas, la fonction fX,Y est appele fonction de densit jointe du couple alatoire
(X, Y ).
On dduit de cette dfinition que si FX,Y est continment drivable alors
2
FX,Y (x, y).
xy
Proposition 6.20. Les lois marginales PX et PY admettent les densits
Z
fX (x) =
fX,Y (x, y) dy, x R
R
Z
fY (y) =
fX,Y (x, y) dx, y R
(6.19)
fX,Y (x, y) =
53
R la mme manire,
nous obtenons que la fonction de densit marginale de Y est fY (y) = R fX,Y (x, y) dx.
Dfinition 6.21. Par analogie avec (6.13) et la dfinition (3.18) qui est justifie par
le Thorme C.10, nous dfinissons (sans plus de justification cette fois-ci) lesprance
de la variable alatoire (X, Y ) par
ZZ
E(X, Y ) :=
(x, y)fX,Y (x, y) dxdy
R2
RR
pour toute fonction : R2 R telle que ||fX,Y soit intgrable et R2 |(x, y)|fX,Y (x, y) dxdy <
.
On dduit immdiatement de cette dfinition la
pour toute variables alatoires X et Y telles que E|X| < et E|Y | < .
Plus gnralement pour toutes fonctions et telles que E|(X, Y )| < et
E|(X, Y )| < , nous avons
E[(X, Y ) + (X, Y )] = E(X, Y ) + E(X, Y ).
Noter que, tout comme lesprance, la covariance nest pas toujours dfinie. Nous verrons
au Corollaire 6.37 quil suffit pour cela E(X 2 ), E(Y 2 ) < .
Comme le montre la proposition suivante, la fonction de densit jointe dun couple
alatoire continu de variables indpendantes a une forme produit.
Proposition 6.23.
(1) Soit (X, Y ) un couple alatoire continu de fonction de densit jointe fX,Y . Sil
existe des fonctions g et h telles que
fX,Y (x, y) = g(x)h(y), x, y R,
x, y R.
54
6. COUPLES ALATOIRES
Dmonstration. Immdiate.
Attention : Il existe des couples alatoires continus (X, Y ) de covariance nulle dont les
composantes X et Y ne sont pas indpendantes.
Exercice 6.25. Montrer, sans calculs explicites, que cest le cas pour le tirage alatoire uniforme dun point (X, Y ) du disque unit.
Au fait, quelle peut bien tre la fonction de densit jointe de ce couple alatoire ?
Exemple 6.26 (Laiguille de Buffon). Les lignes dquations y = n (n Z), sont
traces sur un plan et une aiguille de longueur unit est jete sur ce plan. Quelle est
la probabilit quelle intersecte lune des lignes ? On suppose que laiguille na pas de
prfrence de position ni de direction.
Cherchons la solution de ce problme. Soient (X, Y ) les coordonnes du centre de
laiguille et langle, modulo , de laiguille avec laxe des x. On note Z = Y Y
(Y est la partie entire de Y ) la distance du centre de laiguille la ligne immdiatement
en-dessous de lui. Nos hypothses se traduisent par
(a) Z est distribu uniformment sur [0, 1] : fZ = 1[0,1] .
(b) est distribu uniformment sur [0, ] : f = 1 1[0,] .
(c) Z et sont indpendantes : fZ, (z, ) = fZ (z)f ().
Par consquent, (Z, ) a pour fonction de densit jointe
f (z, ) =
1
1(0z1,0) .
55
z
1
1 (sin )/2
(sin )/2
1/2
Le lieu des centres possibles de laiguille impliquant une intersection est en rouge.
Par consquent,
ZZ
P(intersection) =
f (z, ) dzd
I
!
Z 1
Z
Z 1 sin
2
1
=
dz +
dz d
0
1 21 sin
0
= 2/.
Buffon a effectivement mis en place cette exprience pour obtenir une valeur approche
de .
Exemple 6.27 (Loi normale bivarie). Soit f : R2 R la fonction dfinie par
1
1
2
2
(x 2xy + y )
f (x, y) = p
exp
2(1 2 )
2 1 2
o 1 < < RR
1. On vrifie que f est bien une fonction de densit jointe, cest--dire :
f (x, y) 0 et R2 f (x, y) dxdy = 1.
Exercice 6.28.
RR
(a) Vrifier que R2 f (x, y) dxdy = 1.
(b) Montrer que les lois marginales de X et de Y sont des lois normales centres rduites.
RR
(c) Montrer que Cov(X, Y ) = R2 xyf (x, y) dxdy = .
La fonction de densit jointe dune loi normale bivarie gnrale est plus complique.
On dit que (X, Y ) suit une loi normale bivarie de moyennes 1 et 2 , de variances 12
et 22 et de corrlation avec 1 < < 1, si sa fonction de densit jointe est donne par
1
1
p
(6.29)
f (x, y) =
exp Q(x, y)
2
21 2 1 2
56
6. COUPLES ALATOIRES
(a) X N (1 , 12 ) et Y N (2 , 22 ),
(b) Cov(X, Y ) = 1 2 .
On peut montrer, mais cette preuve est au del du niveau de ce cours, que la fonction
caractristique caractrise la loi PX,Y . Cest--dire que si nous connaissons X,Y , on
peut calculer PX,Y et quil ny a quune seule loi PX,Y qui admet X,Y comme fonction
caractristique. Un rsultat analogue est valide pour la transforme de Laplace sous
lhypothse que LX,Y est finie sur un voisinage ouvert de (0, 0).
Proposition 6.34. Soient (X, Y ) un couple discret ou continu.
57
(1) Les variables X et Y sont indpendantes si et seulement si la fonction caractristique de (X, Y ) satisfait
XY (s, t) = X (s)Y (t),
s, t R.
s, t R.
avec galit si et seulement sil existe a, b R dont lun au moins est non nul tels que
P(aX = bY ) = 1.
Il est entendu que dans lnonc de ce thorme que E|XY | < de sorte que les
intgrales qui interviennent sont bien dfinies, ventuellement valeurs infinie.
Dmonstration. On peut supposer sans perte de gnralit que E(X 2 ), E(Y 2 ) <
.
Pour tous a, b R, lesprance de la variable positive (aX BY )2 est positive. Donc
E (aX bY )2 = a2 E(X 2 ) 2abE(XY ) + b2 E(Y 2 ) 0
58
6. COUPLES ALATOIRES
2
2
2
En choisissant b 6= 0, on obtient
[E(XY )] < E(X )E(Y ) dans le premier cas et
[E(XY )]2 = E(X 2 )E(Y 2 ) lorsque E (aX bY )2 = 0, cest--dire lorsque P(aX bY =
0) = 1.
Pour que cette dfinition soit valide, il est ncessaire que E(X 2 ) < et E(Y 2 ) < et
que VarX, VarY > 0.
Une consquence simple de lingalit de Cauchy-Schwarz est le
Corollaire 6.37.
(1) Pour que Cov(X, Y ) soit dfini, il suffit que E(X 2 ), E(Y 2 ) < .
(2) Soit (X, Y ) tel que 0 < Var(X), Var(Y ) < . Alors
1 Cor(X, Y ) 1.
CHAPITRE 7
(b)
{x2 +y 2 w}
Z
2
w
0
1
1 2
2
exp (x + y ) dxdy
2
2
1
exp(r2 /2)r drd
2
w/2
eu du
59
60
V = X/Y
J(u, v) =
x
u
y
u
x
v
y
v
u
=
.
(1 + v)2
de variables
s = x+y
t = x
61
x = t
qui nous donne dsdt = dxdy et
y = st
FS (u) = P(X + Y u)
ZZ
=
1(x+yu) fX (x)fY (y) dxdy
R2
ZZ
=
1(su) fX (t)fY (s t)
R2
Z u Z
=
fX (t)fY (s t) dt ds
cette dernire galit est de au thorme de Fubini. Par consquent, S est une variable
alatoire continue de fonction de densit
Z
fX+Y (s) =
fX (x)fY (s x) dx.
est la convolue de f et g (si cette intgrale est bien dfinie). Lopration est le produit
de convolution.
On constate facilement que f g = g f. On vient de montrer le rsultat suivant.
ex /(2 )
e(sx) /(2 ) dx
=
2
2
2
2
ZR
1 2 2
1
2
2
exp [x / + (s x) / ] dx
=
2
R 2
2 + 2
(x
2 2
Or, x2 / 2 + (s x)2 / 2 =
2
s)2
2 + 2
s2
.
2 + 2
Par consquent,
Z
1
1 s2
2
1 2 + 2
2
fX+Y (s) =
exp 2
(x 2
s)
exp
dx
2
2 + 2
2 2 2
+ 2
R
1
s2
= p
exp
2( 2 + 2 )
2( 2 + 2 )
puisque
2 2+
2
1 2 + 2
2
2
exp
dx = 1
(x 2
s)
2 2 2
+ 2
R
62
2 2
(X1 , X2 ) = (1 + 1 Z1 , 2 + 2 Z2 ).
L
t R.
Dmonstration. Daprs la Proposition 6.34, X+Y (t) = X,Y (t, t) = X (t)Y (t)
et LX+Y (t) = LX,Y (t, t) = LX (t)LY (t).
Exercice 7.9 (Suite de lExercice 7.6). On reprend lExercice 7.6 laide du Thorme 7.8.
2 2
2 2
CHAPITRE 8
Conditionnement
8.1. Probabilit conditionnelle
Soit V A tel que P(V ) > 0. La probabilit de U conditionnelle V est dfinie par
la formule de Bayes
P(U V )
P(U |V ) :=
, U A.
P(V )
Puisque P(V |V ) = 1, lunivers de P(|V ) est restreint V .
U V
U
on a
PX,Y |V
E((X, Y )|V ) =
xX ,yY
1{(x,y)X(V )Y (V )}
pX,Y (x, y) (x,y)
P(V )
(x, y)
xX(V ),yY (V )
63
pX,Y (x, y)
;
P(V )
64
8. CONDITIONNEMENT
PX|Y =y =
pX|Y =y (x) x
avec
xX
(8.2)
(8.3)
pX,Y (x, y)
= P(X = x|Y = y) et
pY (y)
X
E((X)|Y = y) =
(x)pX|Y =y (x).
pX|Y =y (x) =
xX
De faon analogue, on montre que pour tout x X tel que pX (x) > 0,
X
PY |X=x =
pY |X=x (y) y avec
yY
(8.4)
(8.5)
pX,Y (x, y)
= P(Y = y|X = x) et
pX (x)
X
E((Y )|X = x) =
(y)pY |X=x (y).
pY |X=x (y) =
yY
On remarque quil suffit que E|(X)| < et E|(Y )| < pour que ces sommes soient
absolument convergentes.
Exemple 8.6. On reprend la loi jointe de lExemple 6.10 :
1
3 Y
-1
0,1 0,2 0,3
2 0,45 0,25 0,7
X 0,55 0,45
1
0,1
0,45
On voit que PX|Y =1 = 0,55
1 + 0,55
2 = 0, 1818 1 + 0, 8182 2 et que PY |X=2 =
0,25
= 0, 6429 1 + 0, 3571 3 .
0,7 3
0,45
0,7
1 +
65
E((Y )|X) =
xX
pY (y)E((X)|Y = y)
yY
pY (y)
yY
(x)pX|Y =y (x)
xX
pY (y)
yY
XX
(x)
xX
pX,Y (x, y)
pY (y)
(x)pX,Y (x, y)
yY xX
(a)
XX
(x)pX,Y (x, y)
xX yY
(x)
xX
(b)
pX,Y (x, y)
yY
(x)pX (x)
xX
= E(X)
Nous avons pu commuter les sommes en (a) car la srie est absolument convergente. En
(b), nous avons fait usage de la Proposition 6.9. La seconde galit se prouve de faon
analogue.
8.3. Conditionnement dans le cas continu
Soit (X, Y ) un couple alatoire continu de loi PX,Y (dxdy) = fX,Y (x, y) dxdy. On ne
peut plus considrer aussi simplement que dans le cas discret le conditionnement par
Y = y car pour tout y nous avons P(Y = y) = 0 du fait que Y est une variable continue.
66
8. CONDITIONNEMENT
Nous allons donc introduire des notions analogues aux quantits discrtes sans les justifier
dans un premier temps. Nous en donnerons une justification un peu plus bas.
Pour tout y rel tel que fY (y) > 0, on dfinit les lois, densits et esprance conditionnelles
(8.9)
(8.10)
De faon analogue, on dfinit pour tout x rel tel que fX (x) > 0,
(8.11)
(8.12)
On remarque quil suffit que E|(X)| < et E|(Y )| < pour que ces intgrales
soient absolument convergentes.
Exemple 8.13. Le couple (X, Y ) suit la loi uniforme sur le domaine T = {(x, y)
R ; 0 x y 1}, cest--dire que sa loih est PiX,Y (dxdy) = fX,Y (x, y) dxdy avec
R1
R1 R1
R
fX,Y (x, y) = 2 1T (x, y) puisque T dxdy = 0 x dy dx = 0 (1 x) dx = [x x2 /2]10 =
1/2 : laire du triangle T vaut 1/2.
2
1
x
1x
R
Calculons la densit marginale fX . Pour tout x, fX (x) = 2 R 1((x,y)T ) dy. Donc, pour
x 6 [0, 1], (x, y) 6 T, y
R 1R et fX (x) = 0. Alors que pour tout 0 x 1, (x, y) T
x y 1 et fX (x) = 2 x dy = 2(1 x). On a donc fX (x) = 1{0x1} 2(1 x), x R.
1
Par consquent, si 0 x < 1, fY |X=x (y) = {xy1}
, y R. La loi de Y sachant X = x est
2(1x)
donc la loi uniforme sur [x, 1]. On en dduit que pour 0 x < 1, E(Y |X = x) = (1+x)/2.
Dfinition 8.14. Pour toutes fonctions et telles que E|(X)| < et E|(Y )| <
, on dfinit les variables alatoires
E((X)|Y ) = (Y ) o (y) = E((X)|Y = y), y R
E((Y )|X) = (X) o (x) = E((Y )|X = x), x R
et on les appelle esprance de (X) sachant Y et esprance de (Y ) sachant X.
67
Proposition 8.15. Pour toutes fonctions et telles que E|(X)| < et E|(Y )| <
, nous avons
E[E((X)|Y )] = E(X) et E[E((Y )|X)] = E(Y ).
= E(X)
Nous avons pu commuter les intgrales laide de leur convergence absolue. La seconde
galit se prouve de faon analogue.
Lensemble des dfinitions introduites en (8.9), (8.10), (8.11) et (8.12) est justifi par
lobtention de la Proposition 8.15 dont lnonc est analogue celui de la Proposition
8.8.
Exemple 8.16 (Suite deR lExemple 8.13). En appliquant
la Proposition
8.15, on
R1
R 1 1+x
obtient EY = E[E(Y |X)] = R (1 + x)/2fX (x) dx = 0 2 2(1 x) dx 0 (1 x2 ) dx =
[x x3 /3]10 = 2/3.
Dautre part, par symtrie on voit que fY (y) = fX (1 y) = 2y1{0y1} de sorte quon
R1
R
retrouve EY = R yfY (y) dy = 0 2y 2 dy = [2y 3 /3]10 = 2/3.
CHAPITRE 9
Indpendance (revisite)
Nous revenons dans ce chapitre sur la notion importante dindpendance que nous
avons dj aborde au Chapitre 6.
Lorsque je lance deux fois de suite une pice de monnaie en la faisant chaque fois
tourner sur elle-mme un grand nombre de fois, je peux me dire avec confiance que ces
deux expriences sont indpendantes lune de lautre. En revanche, si en guise de second
lancer je me contente de retourner la pice lissue du premier lancer, il est clair que les
deux expriences ne sont pas indpendantes.
Je lance maintenant ma pice n fois conscutivement de sorte que je peux de prendre
pour univers de lexprience = {p,f}n . On suppose que chaque lancer est indpendant
des autres, au sens habituel du terme. Ceci se traduit par le fait que chaque suite de lancers a la mme chance de se produire quune autre. On fait ici un raisonnement
intuitif liant la notion ressentie dindpendance celle de symtrie. Ce raisonnement
nest pas mathmatique, mais il simpose notre entendement. Nous devons traduire
lindpendance des lancers en travaillant, mathmatiquement cette fois-ci, avec la probabilit P qui est uniforme sur : P({}) = 2n , .
Exemple 9.1. Jai une pice de monnaie et un d. Je lance dabord la pice, puis
le d. Lunivers de lexprience est = {p,f} {1, 2, . . . , 6}. On suppose que ces deux
lancers sont indpendants lun de lautre de sorte que la probabilit P est uniforme sur
: P((p, 1)) = = P((f, 6)) = 1/12. On construit les variables alatoires X et Y comme
suit :
X() =
0 si {p} {1, 2, . . . , 6}
;
1 si {f} {1, 2, . . . , 6}
Y () =
0 si {p} {1, 2, 3, 4}
.
1 sinon
70
9. INDPENDANCE (REVISITE)
9.1. Dfinition
laide de lexemple suivant, nous allons justifier la dfinition mathmatique de
lindpendance de deux variables alatoires X et Y.
Exemple 9.2. On joue n + m fois pile ou face. Lunivers de notre exprience
est donc = {p,f}n+m et lon note i {p,f} le rsultat du i-me lancer ainsi que
= (1 , . . . , n+m ) , la description complte de lexprience. Une notation bien
pratique est celle fournie par les variables alatoires Zi : 7 Zi () = i {p,f},
1 i n + m ainsi que Z = (Zi )1in+m . On a videmment Z() = pour tout
et Zi est le rsultat du i-me lancer.
On prend n = 3 et m = 10. Les variables alatoires X et Y sont dfinies par
X =1+
3
X
i=1
i1
1{Zi =p} 2
et Y = 1 +
13
X
j=4
de sorte que X est une variable discrte uniforme sur {1, . . . , 8} et Y est uniforme sur
{1, . . . , 1024}. Puisque X et Y sont construites respectivements sur des tirages distincts,
les trois premiers pour X et les autres pour Y, ces variables sont indpendantes (au sens
intuitif). La dfinition mathmatique de lindpendance devra donc tre cohrente avec
cette constatation.
Calculons
P(X A et Y B)
avec A {1, . . . , 8} et B {1, . . . , 1024}. Lespace est = {p,f}3+10 = {p,f}13 et
toutes les ralisations ont mme probabilit : P() = 213 , pour tout . Lvnement
(X = 3) est gal (Z1 = f, Z2 = p, Z3 = f). De mme, (Y = 6) = (Z4 = p, Z5 = f, Z6 =
p, Z7 = = Z14 = f). Et en explicitant tous les tirages, nous voyons que
(X = 3) = (Z1 = f, Z2 = p, Z3 = f, Z4 , . . . , Z14 {p, f})
(Y = 6) = (Z1 , Z2 , Z3 {p, f}, Z4 = p, Z5 = f, Z6 = p, Z7 = = Z14 = f)
71
On omettra en gnral de rappeler que des variables qui sont indpendantes le sont
sous P. Mais il convient de garder lesprit que lindpendance nest pas une proprit
qui ne concerne que les variables alatoires, mais en fait leur lien sous une probabilit P
donne.
Revenons maintenant lExemple 9.1. Puisque (X = 0, Y = 0) = {p} {1, 2, . . . , 6},
nous avons P(X = 0, Y = 0) = 4/12. Dautre part P(X = 0) = 1/2 et P(Y = 0) = 4/12,
de sorte que P(X = 0, Y = 0) 6= P(X = 0)P(Y = 0). On retrouve le fait que X et Y ne
sont pas indpendantes. En effet, il suffit pour cela que (9.5) soit invalid pour un couple
A, B.
Nous aurons besoin par la suite du rsultat prliminaire suivant.
Lemme 9.7. Pour que des variables alatoires X1 , . . . , Xk soient mutuellement indpendantes sous la probabilit P, il suffit que (9.6) soit satisfait pour des intervalles
A1 , . . . , Ak de R.
On peut mme choisir ces intervalles de la forme Ai =] , ai ] avec ai R, 1 i k.
On admet ce lemme dont la preuve est une jonglerie abstraite au sujet de la notion
de tribu.
9.2. Proprits lmentaires
Nous revisitons ici la Proposition 6.5 et sa preuve. Nous commenons par remarquer
que des fonctions de variables indpendantes restent des variables indpendantes.
Proposition 9.8. Soient X et Y des variables indpendantes ainsi que deux fonctions , : R R suffisamment rgulires (continues par morceaux, par exemple) pour
que S = (X) et T = (Y ) soient des variables alatoires. Alors S et T sont des variables
indpendantes.
Dmonstration. Soient C et D deux intervalles de R. On a pris et suffisamment
rgulires pour que 1 (C) R et 1 (D) R puissent tre approchs par des runions
finies dintervalles disjoints. savoir que (nous devons ladmettre au niveau de ce cours,
72
9. INDPENDANCE (REVISITE)
On a donc
P(S C, T D) =
(a)
(b)
K,L
lim
K,L
lim
K,L
lim
kK,lL
kK,lL
kK
X
lL
P(Y JlL )
Lgalit (a) est satisfaite car les intervalles sont disjoints et lgalit (b) est vrifie grce
lindpendance de X et Y. Ce qui prouve lindpendance sous P de S et T.
Proposition 9.9. Soient X1 , . . . , Xm+n des variables mutuellement indpendantes
ainsi que : Rm R et : Rn R deux fonctions suffisamment rgulires (continues
par morceaux, par exemple) pour que S = (X1 , . . . , Xm ) et T = (Xm+1 , . . . , Xm+n )
soient des variables alatoires. Alors S et T sont indpendantes.
Dmonstration. La preuve de cette proposition est analogue celle de la proposition prcdente, en un peu plus technique. Les intervalles IkK et JlL doivent tre remplacs
par des produits cartsiens dintervalles. Nous omettons les dtails.
On rappelle maintenant le contenu des Propositions 6.16, 6.24 et 6.37.
Proposition 9.10. Soient X et Y deux variables indpendantes, discrtes ou continues.
(1) Alors pour toutes fonctions et telles que E|(X)| < et E|(Y )| < ,
nous avons E|(X)(Y )| < et E[(X)(Y )] = E[(X)]E[(Y )].
(2) Si E|X|2 < et E|Y |2 < alors Cov(X, Y ) = 0.
9.3. CHANTILLONS
73
e 2 + 2E(X)E(
e
= E(X)
Ye ) + E(Ye )2
(b)
e 2 + E(Ye )2
= E(X)
= Var(X) + Var(Y )
1X
X n :=
Xi .
n i=1
Proposition 9.15. Soit (Xi )i1 un chantillon de la variable X telle que E|X|2 < .
Nous avons pour tout n,
EX n = EX
et VarX n =
VarX
.
n
1
1X
EXi = nEX = EX.
EX n =
n i=1
n
74
9. INDPENDANCE (REVISITE)
Dautre part, avec les Propositions 3.32 et 9.12, nous voyons que
!
n
n
X
1
n
VarX
1 X
.
Xi = 2
VarXi = 2 VarX =
VarX n = 2 Var
n
n i=1
n
n
i=1
Bien que simple, le lemme suivant a des consquences importantes en thorie des
probabilits.
Lemme 9.16.
(1) Soit Y une variable alatoire positive. Alors, pour tout a > 0,
EY
.
P(Y a)
a
(2) Soit X une variable alatoire de variance 2 finie. On note = EX. Pour tout
> 0,
P(|X | > ) 2 / 2 .
Thorme 9.17 (Loi faible des grands nombres). Soit (Xi )i1 un chantillon de la
variable X de variance 2 finie. On note = EX. Pour tout > 0 et tout n 1,
P(|X n | > )
2
.
n 2
P(|X n | > ) 0.
n
> 0.
Puisque > 0 peut tre choisi arbitrairement petit, ceci nous dit que lorsque n tend vers
linfini, la moyenne empirique X n , qui est une variable alatoire, tend vers la moyenne
thorique = EX, qui est un nombre non-alatoire. Ce rsultat thorique est fondamental, on lappelle la loi des grands nombres.
Il permet entre autre, sur la base de lobservation dun grand chantillon de X destimer la moyenne thorique = EX que lon suppose inconnue laide de la moyenne
empirique observe X n (). Cest le principe de linfrence en statistique mathmatique.
En fait, lobservation dun grand chantillon de X permet aussi destimer la loi de X
et la limite, lobservation dun chantillon infini de X permettrait (en thorie, bien sr)
de reconstruire des approximations arbitrairement fines de la loi de X. Cest ce qunonce
le rsultat suivant.
9.3. CHANTILLONS
75
Thorme 9.19. Soit (Xi )i1 un chantillon de la variable alatoire X sans aucune
hypothse supplmentaire (pas besoin de variance finie, ni mme de E|X| < ). Considrons K intervalles I (1) , . . . , I (K) , par exemple une partition dont la runion recouvre
les valeurs possibles de X. On note pour tout 1 k K et tout n 1,
#{1 i n; Xi I (k) }
n
la proportion observe de valeurs de lchantillon "tombes" dans I (k) . Nous avons la loi
des grands nombres suivante :
(k)
(k)
P max |
pn P(X I )| 1, > 0.
(k)
p(k)
n = Yn =
1kK
k fix, la suite (Yi )i1 est un chantillon de la variable Y (k) qui suit la loi de Bernoulli
(k)
(k)
B(p(k) ) avec p(k) = P(X I (k) ) = E(Y (k) ). Dautre part, pn = Y n est la moyenne
(k)
empirique des Yi , elle obit donc la loi des grands nombres nonce au Thorme
9.17. Par consquent, pour tout k,
(k)
P(|
p(k)
)| > ) 0, > 0.
n P(X I
n
(k)
(k)
pn P(X I (k) )| > . Donc,
Or, max1kK |
pn P(X I (k) )| > = 1kK |
X
(k)
(k)
(k)
P max |
pn P(X I )| >
P |
p(k)
)| >
n P(X I
1kK
1kK
0.
Les Thormes 9.17 et 9.19 qui sont des lois faibles des grands nombres, admettent
une amlioration dont la preuve dpasse le niveau de ce cours. Il sagit de la loi forte des
grands nombres.
Thorme 9.20 (Loi forte des grands nombres). Soit (Xi )i1 un chantillon de la
variable alatoire X telle que E|X| < . Alors il existe une partie N A telle que
P(N ) = 0 (dite P-ngligeable) telle que
n
lim X () = EX,
pour tout \ N.
pour tout \ N.
CHAPITRE 10
, n 1
qui reprsente le rsultat du n-ime tirage. On prend pour A la plus petite tribu qui
contient toutes les parties de de la forme
n
\
i=1
{Xi Ai },
n 1, Ai {0, . . . , 9}, 1 i n
(dveloppement dcimal)
i=1
Il est clair que Un peut prendre 10n valeurs dans [0, 1[. Calculons sa fonction de rpartition. Bien sr, FUn (u) = 0, si u < 0 et FUn (u) = 1 si u 1. Soit maintenant 0 u < 1.
77
78
10n
FU
1
u
0 si u 0
u si 0 u 1 , u R. Posons
Par consquent, lim FUn (u) = G(u) :=
n
1 si u 1
0
(10.1)
U () = lim Un () = 0, 1 2 . . . ,
n
Puisque sup |Un () U ()| 10n , pour tout > 0 et tout entier n suffisamment
grand pour que 10n , nous avons : {Un u } {U u} {Un u + }. Do
il vient que FUn (u ) FU (u) FUn (u + ). Ce qui en faisant tendre n vers linfini
nous donne G(u ) FU (u) G(u + ), puis en faisant tendre vers zro, nous donne
FU = G. Soit
0 si u 0
u si 0 u 1 , u R.
FU (u) =
1 si u 1
La loi de U, spcifie par sa fonction de rpartition FU , est appele loi uniforme sur [0, 1].
Sa fonction de densit est donne par
1 si u [0, 1]
fU (u) =
, u R.
0 sinon
On vient de construire U laide dune infinit dnombrable de tirages indpendants
uniformes dans {0, . . . , 9}.
79
Thorme 10.3. Soit une fonction F : R [0, 1], croissante et continue gauche
telle que limx F (x) = 0 et limx F (x) = 1. On dfinit son inverse sur ]0, 1[ par
(10.4)
On considre U U(0, 1) une variable alatoire sur (, A, P) de loi uniforme sur ]0, 1[.
Alors
X = F 1 (U )
(10.5)
1
F
F 1
0
1
Remarquons que nous avons dj montr la Proposition 2.8 que toute fonction de
rpartition jouit des proprits imposes F dans le Thorme 10.3. Nous en dduisons
le rsultat suivant.
80
Corollaire 10.6. Une fonction F est la fonction de rpartition dune variable alatoire si et seulement si F : R [0, 1] est croissante, continue gauche et satisfait
limx F (x) = 0 et limx F (x) = 1.
Exemples 10.7.
(a) Loi de Bernoulli B(p). Nous avons F (x) = q1[0,1[ (x) + p1[1,[ (x) avec p + q = 1, dont
linverse est F 1 (u) =
1]q,1] (u), 0 u 1.
0 si U [0, q]
suit la loi B(p). On remarque que la longueur
Par consquent X =
1 si U ]q, 1]
de [0, q] est q = P(X = 0) et que celle de ]q, 1] est 1 q = p = P(X = 1).
(b) Loi exponentielle E(). Nous avons F (x) = 1{x0} (1 ex ) de sorte que F 1 (u) =
ln(1 u)/, u [0, 1[. On voit donc que X = ln(1 U )/ suit la loi E(). Or
L
U = 1 U, donc X = ln(U )/ E().
Attention, dans (10.5) F 1 nest pas linverse traditionnel de F mais seulement son
inverse gnralis. En particulier il nest pas vrai en gnral que F (X) = U, cest--dire
que F (X) soit une variable alatoire uniforme sur (0, 1).
Exercice 10.8.
(a) Soit X B(2, 1/2) la variable alatoire de lExemple 2.1, montrer que F (X) nest
pas uniforme sur (0, 1).
Calculer sa loi.
(b) Soit X une variable alatoire continue de fonction de rpartiton F, montrer que F (X)
est uniforme sur (0, 1).
Solution. Solution de (a). Puisque #(X()) = #({0, 1, 2}) = 3 et #(U ()) =
#([0, 1]) = , #(F (X())) 3 donc F (X) ne peut pas avoir la mme loi que U.
Plus prcisment, PX = 14 F (0) + 21 F (1) + 14 F (2) = 41 1/4 + 21 3/4 + 14 1 .
Solution de (b). Au dbut de la preuve du Thorme 10.3, nous avons vu que si x est
un point de continuit de F, alors pour tout 0 u 1, F 1 (u) x u F (x). Or,
sous notre hypothse, F est continue partout, donc pour tout 0 u 1,
P(F (X) u) = P(X F 1 (u))
(a)
(b)
= 1 F (F 1 (u))
(c)
= 1u
o lgalit (a) est vraie car X est une variable continue, (b) vient de la dfinition de la
fonction de rpartition F et (c) se vrifie comme suit.
Pour tout 0 u 1, F (F 1 (u)) = F (inf{x; F (x) u}) = limx F (x) := F ( ) o
est lunique nombre tel que F ( ) u F (). Or F est suppose continue, donc
F ( ) = F (), ce qui implique que F ( ) = u et F (F 1 (u)) = u.
On en dduit que P(F (X) u) = 1 limvu (1 v) = 1 (1 u) = u pour tout
0 u 1, ce qui montre que F (X) suit une loi uniforme sur (0, 1).
CHAPITRE 11
n0
anglais, au hasard se dit at random qui vient de lancienne expression franaise "aller randon"
qui signifie avancer de faon dsordonne et que lon retrouve dans randonne.
81
82
uniformes sur un ensemble de grand cardinal et nous utilisons en fait une approximation
Um de la variable U dans le mme esprit que (10.1).
Principe gnral de la simulation. Ce principe est une application directe du
Thorme 10.3. Soit U1 , U2 , . . . un chantillon de la loi uniforme U(0, 1). Alors, grce
au Thorme 10.3, on sait que, F 1 dsignant linverse gnralis de la fonction de
rpartition F de la loi de X, voir (10.4),
Xi := F 1 (Ui ),
i1
p1
p2
| |
||
0 u1
P
u2
kK
pk = 1
pk
| |
| |
uk1 uk
(11.1)
X=
kK
k K.
xk 1{U Bk }
kK
pk xk .
Exercice 11.2. Montrer que la variable X dfinie par (11.1) satisfait lgalit (10.5) :
X = F 1 (U ), du Thorme 10.3.
Exemples 11.3.
(a) Pour simuler un tirage du jeu de pile ou face il suffit de dcider pile si U [0, 1/2[ et
face si U [1/2, 1[.
(b) Pour simuler la variable alatoire X de lExemple 2.6, on dcide par exemple :
X() = 0 si U () [0, 1/4[, X() = 1 si U () [1/4, 3/4[, X() = 2 si U ()
[3/4, 1[.
83
(c) Pour simuler le premier instant X dapparition de pile lors dune suite de lancers
indpendants dune pice que nous avons rencontr lExemple 2.12-(b), on peut
inverser la fonction de rpartition : X() = 0 si U () [0, 1/2[, X() = 1 si
U () [1/2, 3/4[, X() = 2 si U () [3/4, 7/8[, . . .
Ou bien on peut dcomposer U () en base 2 et choisir pour X() la place de la
premire apparition de 1 dans cette dcomposition.
Variables exponentielles et variables de Poisson. Nous avons vu lExemple
10.7-(b) que
(11.4)
T = ln(U )/
suit une loi exponentielle E() lorsque U est une variable uniforme sur [0, 1]. Or le
gnrateur rand produit des ralisations indpendantes U1 , U2 , . . . de variables de loi
U(0, 1) uniforme sur [0, 1]. Par consquent (Ti )i1 , o Ti = ln(Ui )/, est une suite de
variables indpendantes de loi E(). La suite croissante (Sn )n1 dfinie par
n
X
Ti
Sn =
i=1
dcrit ce quon appelle un processus de Poisson de paramtre . Les Sn sont les instants
de ralisations de certains vnements alors que les Ti sont les temps dattente entre deux
vnements conscutifs.
Par exemple, les instants de dsintgration dun corps constitu dun lment radioactif
de composition pure sont trs bien dcrits par une telle suite alatoire. Le paramtre de
frquence est alors proportionnel la masse du corps et inversement proportionnel
la priode de demi-vie de llment.
Soit N le nombre doccurences dvnement pendant lintervalle de temps [0, 1]. En
dautres termes, N est spcifi par :
(11.5)
SN 1 < SN +1 .
On peut montrer que N est une variable alatoire de Poisson de paramtre . De faon
plus gnrale, le nombre dvnements pendant un intervalle de temps [s, t] est une
variable de Poisson de paramtre (ts). Cette proprit permet de simuler une variable
N de Poisson P(). En effet, (11.5) quivaut
N
+1
Y
i=1
Ui < e
N
Y
Ui .
i=1
De sorte que N + 1 est le nombre de fois quil faut multiplier entre eux des Ui U(0, 1)
indpendants, pour passer pour la premire fois en dessous de e .
Cette mthode de simulation dune variable de Poisson est plus performante que celle
base sur le principe gnral que nous avons prsente la Section 11.2.
Variables normales. On appelle couple alatoire normal standard un couple (X, Y )
de variables alatoires indpendantes normales standard X, Y N (0, 1). Lapplication
directe du Thorme 10.3 est compromise par le fait quil nexiste pas dexpression analytique de la fonction de rpartition de N (0, 1). A fortiori, nous navons pas dexpression
84
explicite de sa fonction rciproque. Nous allons toutefois contourner ce problme en rsolvant lexercice suivant.
Exercice 11.6. Soit (X, Y ) un couple normal standard. On dfinit (R, ) comme
tant les coordonnes polaires de (X, Y ), cest--dire
X = R cos
Y = R sin
avec R 0 et 0 < 2.
(X, Y )
1 (x +y )/2
e
et notons
Solution. La densit de la loi de (X, Y ) est fX,Y (x, y) = 2
g(r, ) celle de (R, ), si elle existe. Soit T la transformation inverse de (r, ) 7 (x, y) =
(r cos , r sin ) de sorte que (R, ) = T (X, Y ).
On se donne une fonction borne rgulire quelconque sur [0, [[0, 2[. Nous avons
1
1[0,2[ () et gR (r) = 1[0,[ (r)rer /2 , en effectuant
avec g(r, ) = g ()gR (r) o g () = 2
un changement de variables en coordonnes polaires lavant-dernire galit. Puisque
g a la forme produit, R et sont indpendantes de densit gR et g . Les variables
R2 et sont donc aussi indpendantes.
Clairement, U(0, 2) et pour tout t 0,
R t r2 /2
Rt
2
P(R t) = P(R t) = 0 e
rdr = 0 es/2 ds/2 en faisant le changement de
variable s = r2 . On voit donc que la densit de la loi de S = R2 est 1[0,[ (s) 21 es/2 ,
cest--dire R2 E(1/2).
Il suffit maintenant de simuler (R, ) laide dun couple (U, V ) de variables indpendantes distribues uniformment sur [0, 1] dont la ralisation est donne par deux
valeurs conscutives du programme rand. On prend alors
2 ln U
R =
= 2V
11.3. HISTOGRAMMES
85
o lon a utilis (11.4) dans le calcul de R et (4.6) dans celui de . Finalement, nous
venons de montrer que le couple (X, Y ) donn par
X = 2 ln U cos(2V )
2 ln U sin(2V )
Y =
est un couple normal standard. Bien sr, avec un chantillon (Ui )i1 de U(0, 1),
p
p
2 ln U1 cos(2U2 ), 2 ln U1 sin(2U2 ),
p
p
2 ln U3 cos(2U4 ), 2 ln U3 sin(2U4 ), . . .
11.3. Histogrammes
Un gnrateur rand parfait devrait produire une suite de ralisations de variables
alatoires
(1) de loi U(0, 1)
86
pk (x1 , . . . , xn ) =
1X
1{xi [ak1 ,ak [} ,
n i=1
1 k K.
k est calcul de
Par dfinition, lhistogramme des observations est la figure suivante, o h
telle sorte que laire au-dessus de la k-ime classe soit pk .
k
h
pk
...
ak1
...
ak ak+1
k (x1 , . . . , xn ) = pk (x1 , . . . , xn ) ,
h
ak ak1
1 k K.
1 k K,
qui nest autre que la valeur moyenne de fX sur la classe [ak1 , ak [. En traant le graphe
des hk en fonctions des classes [ak1 , ak [, on obtient lhistogramme thorique suivant.
11.3. HISTOGRAMMES
87
fX
hk
pk
...
...
ak ak+1
ak1
Histogramme thorique
La similarit des formules (11.7) et (11.8) justifie le mode de construction des histogrammes dchantillon. En effet, la courbe de lhistogramme thorique h est une simplification de la courbe de densit fX qui ne retient que linformation dappartenance aux
classes [ak1 , ak [. Dautre part, avec la loi forte des grands nombres nonce au Thorme
9.20, on sait que pour tout 1 k K, et P-presque toute ralisation ,
k (X1 (), . . . , Xn ()) = hk .
lim h
On voit donc que si lon sait que les (Xi )1in sont bien des copies indpedantes de
la loi de X, lhistogramme donne une approximation raisonnable de la densit fX lorsque
K et n sont grands.
Les figures suivantes sont les histogrammes 20 classes quilibres de 100, 1000,
10 000 et 100 000 tirages uniformes effectus laide du gnrateur rand de Scilab.
2.5
2.0
1.0
1.5
1.0
0.5
0.5
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.0
0.0
0.1
0.2
n = 100
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.7
0.8
0.9
1.0
n = 1000
1.2
1.2
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.0
0.0
0.3
0.2
0.1
0.2
0.3
0.4
0.5
0.6
0.7
n = 10 000
0.8
0.9
1.0
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
n = 100 000
88
La ligne horizontale est laltitude 1, cest la densit thorique de U(0, 1). Attention,
les chelles verticales diffrent dune figure lautre.
Exemple 11.9. Soit la variable alatoire X valeurs dans [0, 2] de densit
x R.
1.0
1.0
0.8
0.6
0.5
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
0.0
0.0
2.0
0.2
0.4
0.6
n = 100
0.8
1.0
1.2
1.4
1.6
1.8
2.0
n = 1000
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
n = 30 000
On constate nouveau que plus n est grand, plus lhistogramme est proche du graphe
de la densit fX , qui est ici reprsent par le segment de droite oblique dquation y =
x/2.
CHAPITRE 12
89
CHAPITRE 13
Ingalits de convexit
On sintresse ici un lien entre les probabilits et les fonctions convexes. Les notions
de base concernant la convexit sont rappeles lAnnexe D.
Soient x, y
Rd et 0 t 1. La mesure de probabilit sur Rd : (1 t)x + ty est
x avec la probabilit (1 t)
, voir les Remarques 3.7-(2&3) au sujet
la loi de Zt =
y avec la probabilit t
des variables discrtes valeurs dans un espace vectoriel. On a E(Zt ) = (1 t)x + ty, de
sorte que la dfinition (D.3) de la convexit de la fonction sur la partie convexe C de
Rd se rcrit
(EZt ) E(Zt ),
pour tout 0 t 1. Cette ingalit est en fait un cas particulier du rsultat gnral
nonc plus bas en (13.4).
Lemme 13.1 (Variable discrte). Soit X une variable alatoire discrte valeurs
dans une partie convexe C de Rd telle que EkXk < . Si de plus lune des proprits
suivantes est satisfaite
C est un ouvert
C est un ferm
X prend un nombre fini de valeurs
alors, EX C.
P
Dmonstration. Si X prend un nombre fini de valeurs, EX = nN pn xn est une
combinaison
linaire finie et on montre par rcurrence laide de la dfinition (D.2) que
P
nN pn xn C. Par exemple avec N = {1, 2, 3},
p2
p3
p1 x1 + p2 x2 + p3 x3 = p1 x1 + (p2 + p3 )
x2 +
x3
p2 + p3
p2 + p3
|
{z
}
C
{z
}
|
C
C
puisque
p
x
.
Or,
m m
n
n
n
n
n=1 m = 1, limm m = 1
n>m
n=1 m
n=1 mP
et limm n>m pn xn = 0. Donc, EX appartient la fermeture de C dans Rd .
Si C est ferm, nous venons de montrer que EX C.
Si C est ouvert, il estP
gal son intrieur. Donc x1 est dans lintrieur de C. On en
dduit que EX = p1 x1 + n>1 pn xn est dans lintrieur de C; donc dans C.
Exercice 13.2. Justifier les dernires lignes de la preuve prcdente.
92
(13.4)
(EX) E(X).
Dmonstration. Du fait des hypothses E|(X)| < et EkXk < les esprances que nous considrons sont bien dfinies. Nous avons avec la Proposition D.5 :
(x) (a) + h (a), x ai pour tous x, a C. Puisque C est un ensemble convexe,
le Lemme 13.1 nous dit que EX appartient aussi C. En prenant a = EX dans lingalit prcedente, nous obtenons (X) (EX) + h (EX), X EXi. En prenant
les esprances, la linarit et la croissance de lesprance nous assurent de E(X)
(EX) + h (EX), E(X EX)i = (EX) puisque E(X EX) = 0. Ce qui achve la
dmonstration.
Remarques 13.5.
(1) Le Lemme 13.1 reste vrai pour toute partie convexe C de Rd . La preuve de
cette extension ncessite une tude des proprits lmentaires des ensembles
convexes de Rd que nous ne ferons pas ici.
(2) Lingalit de Jensen reste vraie lorsque la fonction convexe nest pas diffrentiable et C nest pas un ouvert. Il suffit pour cela de tenir compte de
la remarque (1) prcdente et de remplacer (x) (a) + h (a), x ai par
(x) (a) + h, x ai o = (a) + h, u ai, avec Rd , est lquation en
(u, ) Rd R dun hyperplan "tangent" au graphe de en a. Cest--dire un
hyperplan passant par (a, (a)) et tel que le graphe de soit entirement dans
le demi-espace "suprieur" dlimit par cet hyperplan.
En dimension 1 avec (x) = x2 , on retrouve E(X 2 ) (EX)2 , cest--dire Var(X) 0.
Avec (x) = eax , on obtient ln EeaX aEX, a R.
En appliquant lingalit de Jensen la fonction convexe (x) = kxkp , x Rd avec
p 1 (voir lExercice D.7), on obtient kEXkp E[kXkp ], p 1. Avec p = 1, nous avons
kEXk EkXk et en regroupant ces rsultats :
kEXk EkXk E[kXkp ]1/p ,
p 1.
Corollaire 13.6. Soient 0 < p q et X une variable alatoire sur Rd telle que
E[kXkq ] < . Alors,
E[kXkp ]1/p E[kXkq ]1/q .
ANNEXE A
Dnombrabilit
Un ensemble est dnombrable si on peut le dnombrer, cest--dire coller un numro
distinct sur chacun de ses lments. Lensemble de tous les numros possibles tant
lensemble N des entiers naturels, nous arrivons la dfinition abstraite suivante.
Dfinition A.1. Un ensemble E est dit dnombrable sil existe une injection de E
dans N.
Remarques A.2.
(1) Appelons : E N une telle injection. Alors son application rciproque 1 :
(E) E est une bijection, cest lapplication qui tout numro pris dans
(E) N associe un lment unique de E.
(2) Bien sr, tout ensemble fini est dnombrable et N est dnombrable.
(3) De mme, tout sous-ensemble dun ensemble dnombrable est dnombrable et
par contraposition, tout ensemble contenant une partie non-dnombrable est
non-dnombrable.
(4) Si deux ensembles sont en bijection, ils sont soit dnombrables tous les deux,
soit non-dnombrables tous les deux.
Exercice A.3. Montrer que Z est dnombrable.
Solution. On numrote les entiers relatifs dans lordre suivant :
0, 1, 1, 2, 2, 3, . . . , n, n, . . . Il sagit de lapplication f : Z N := {1, 2, . . .} dfinie
par f (n) = 2n et f (n) = 2n + 1 pour tout n 1 et f (0) = 1. Elle est bijective de Z
sur N .
2 b
1 b
b
b
3
93
94
A. DNOMBRABILIT
Nous allons voir la Proposition A.8 plus bas quaucun intervalle rel dintrieur nonvide nest dnombrable. Pour cela nous aurons besoin du rsultat prliminaire suivant.
Lemme A.6. Soit X un ensemble non vide et 2X lensemble de toutes les parties de
X . Il nexiste pas dinjection de 2X dans X .
Dmonstration. On fait une preuve par labsurde. Supposons quil existe une injection de 2X dans X . Alors, il existe une partie Y de X et une application P : Y 2X
qui est bijective. Lapplication P permet de nommer les parties de X laide des lments du sous-ensemble Y de X .
Considrons la partie
A = {y Y; y 6 P (y)}
A. DNOMBRABILIT
95
Preuve de (2). Du fait que #(A) 2, il suffit de montrer que lensemble {0, 1}N des
suites infinies composes de 0 et de 1 nest pas dnombrable. En effet, en choisissant deux
lments distincts a0 et a1 de A, on voit immdiatement que lapplication qui la suite
(n )nN dans {0, 1}N associe la suite (an )nN dans {a0 , a1 }N est une bijection de {0, 1}N
sur {a0 , a1 }N . Cest donc une injection de {0, 1}N dans AN .
Or {0, 1}N est en bijection avec lensemble 2N des parties de N : la suite (n )nN
on associe la partie {n N; n = 1}. Mais on a vu au Lemme A.6 que 2N nest pas
dnombrable, donc {0, 1}N ne lest pas non plus.
Nous somme maintenant en mesure de prouver la
Proposition A.8. Tout intervalle dintrieur non-vide (i.e. de la forme (a, b) avec
a < b +) est non-dnombrable. En particulier, R nest pas dnombrable.
ANNEXE B
E(X) =
E(X) =
x dFX (x).
Intgration abstraite. Lesprance de X est dtermine par la fonction de rpartition FX et puisque FX est elle-mme spcifie par la donne de X et de (, A, P) on
sattend ce quune notion gnrale desprance de X puisse tre dfinie partir des
donnes (, A, P) et X : R.
La variable alatoire X : R est dite simple si elle prend un nombre fini de
valeurs. Les variables simples scrivent donc
X=
n
X
xi 1Ai
i=1
n
X
i=1
97
xi P(Ai ).
98
Toute variable alatoire positive X : [0, [ est limite croissante dune suite (Xn )n1
de variables alatoires simples. Cest--dire : Xn () X() pour tout . On dfinit
alors lintgrale de X par
E(X) = lim E(Xn ) [0, ].
n
Cette quantit, qui est ventuellement infinie, existe en tant que limite dune suite croissante et est non-ambige : on peut montrer quelle ne dpend pas de la suite croissante
approximante (Xn )n1 .
Pour toute variable alatoire X, notons pour tout ,
X + () = max(X(), 0) et X () = max(X(), 0)
de sorte X = X + X avec X + , X 0.
Si E(X + ) et E(X ) ne sont pas infinis simultanment, on dfinit
E(X) = E(X + ) E(X ) [, +].
E(X) =
X() P(d) =
X dP.
Lopration E est donc un oprateur qui agit sur lensemble des variables alatoires X
telles que E(|X|) < . On montre que pour de telles variables alatoires X, Y et pour
tous a, b R,
E(aX + bY ) = aE(X) + bE(Y )
cest--dire que lensemble des variables alatoires X telles que E(|X|) < est un espace
vectoriel et que E est une forme linaire qui agit sur cet espace vectoriel.
Les proprits de continuit de lesprance mathmatique sont les suivantes.
Thorme B.1 (Thormes de continuit de E.). Soit (Xn )n1 une suite de variables
alatoires qui converge simplement vers X : limn Xn () = X(), pour tout ,
alors
(1) (convergence monotone) si (Xn )n1 est une suite positive et croissante, alors
lim E(Xn ) = E(X) [0, ];
99
Thorme B.2 (Continuit par rapport au paramtre). Soit X(t, ) une fonction sur
R telle que pour tout t R, X(t, ) soit P-intgrable et pour tout , t 7 X(t, ) R
soit continue en to .
Si de plus, il existe > 0 et une variable alatoire Y 0 telle que E(Y ) < et
supt[to ,to +] |X(t, )| Y (), pour tout , alors
t 7 E(X(t, )) R
est continue en to .
{XA}
ANNEXE C
E(1) = 1
(linarit)
(positivit)
(normalisation).
Notre but est de construire une extension de loprateur : X 7 E(X), une classe
de variables alatoires X valeurs relles plus gnrale que celle des variables discrtes.
Nous allons montrer que lorsquon impose cette extension de satisfaire les proprits
(C.1), elle est unique sur la classe considre.
Soit X 7 E(X) une extension de lesprance qui possde les proprits (C.1). Cet
oprateur est croissant au sens o :
(C.2)
X Y = E(X) E(Y ).
|E(X)| E(|X|).
Pour dcrire la classe sur laquelle lextension de lesprance est calcule, nous introduisons
lensemble fonctionnel suivant.
Dfinition C.4. La classe est lensemble des fonctions de ]0, 1[ dans R qui sont
bornes et dont lensemble des points de discontinuit est dnombrable et admet un
nombre fini de points daccumulation.
Thorme C.5. Soit X 7 E(X) un oprateur qui prolonge lesprance mathmatique
des variables alatoires discrtes des variables alatoires plus gnrales et qui possde
les proprits (C.1). Soit U une variable alatoire de loi uniforme sur [0, 1]. Alors, pour
toute fonction dans ,
Z 1
E (U ) =
(u) du.
0
101
102
Cette somme est lintgrale de Riemann dune fonction en escalier qui approxime . On
en dduit que si est intgrable au sens de Riemann,
Z 1
(C.6)
lim E((Un )) =
(u) du.
n
On suppose pour le moment que :]0, 1[7 R est continue et borne. Puisquelle admet
un prolongement continu sur le compact [0, 1]; elle est absolument continue, cest--dire
que w () := sup{|(u)(v)|; u, v tels que |uv| < } tend vers zro lorsque dcrot
vers zro. Dautre part, puisque supn0 |U Un | 10n ,
avec (C.1)
avec (C.3)
avec (C.2)
E[w (10
avec (C.2)
n0
n
)]
= w (10n )
Do il vient que
(C.7)
En rapprochant cette identit de (C.6), nous obtenons le rsultat dsir lorsque est
continue :
Z 1
(u) du.
E (U ) =
0
103
Par consquent,
E[(U )] E[ (U )] = E[1(U 6A ) ((U ) (U ))] + E[1(U A ) ((U ) (U ))]
= E[1(U A ) ((U ) (U ))]
2P(U A )
= 2|A |
2
o lon a fait usage darguments similaires ceux invoqus lors de la preuve de (C.7),
ainsi que de E[1(U A ) ] = P(U A ) (1(U A ) est une variable discrte dont on connat
lesprance) et de P(U A ) = |A | (puisque P(a U b) = b a).
Des arguments analogues nous mnent
Z 1
Z 1
(u) du 2,
(u) du
0
Z
(u) du E[ (U )]
= 4,
(u) du + 4
R1
0
(u) du. La
Nous allons donner plus bas une dfinition de lesprance mathmatique pour une
classe de variables alatoires continues assez gnrale. Compte tenu du Thorme 10.3,
toute variable alatoire X admet le mme comportement alatoire (la mme loi) que
FX1 (U ). Par consquent, tant une fonction numrique, il est loisible dcrire E((X)) =
E( FX1 (U )). Le Thorme C.8 plus bas est une consquence immdiate du Thorme
C.5.
Nous sommes en mesure dnoncer le thorme suivant.
Thorme C.8. Soit X 7 E(X) un prolongement de lesprance des variables alatoires discrtes une classe plus gnrale de variables alatoires qui satisfait les proprits (C.1). Soit X une variable alatoire de fonction de rpartition FX et une fonction
numrique. Si FX1 est dans la classe , alors
Z 1
E((X)) =
FX1 (u) du.
0
FX1
Remarque C.9 (Au sujet des points de discontinuit de FX1 .). La fonction FX1 est
croissante et continue gauche. Nous notons hFX1 (u)i lintervalle semi-ouvert [FX1 (u), FX1 (u+ )[.
Il est non vide si et seulement si u est un point de discontinuit de FX1 . Dans ce cas nous
disons que hFX1 (u)i est un intervalle dabsence de X. Cette terminologie est justifie
par la constatation que lorsque au := FX1 (u) < FX1 (u+ ) := bu , la fonction FX est plate
sur lintervalle [au , bu [, plus prcisment : [au , bu [ {x R; FX (x) = u} [au , bu ]. Ceci
104
implique que P(X [au , bu [) = 0, et que pour tout > 0, P(X ]au , bu [) > 0 et
P(X ]au , bu + [) > 0.
La formule assez gnrale du Thorme C.8 nest pas trs parlante. Nous allons llucider les variables alatoires continues. Pour une variable alatoire continue, un intervalle
dabsence correspond un intervalle maximal (composante connexe) de lensemble des
points dannulation de fX . Pour que FX1 soit dans la classe , il suffit que X admette un
nombre fini dintervalles dabsence. On en dduit que si lensemble {x R; fX (x) = 0}
est une runion finie dintervalles, la fonction FX1 est dans la classe .
Supposons maintenant que X admette une fonction de densit fX continue par morceaux. Dans ce cas, FX est partout continue donc x = FX1 (u) u = FX (x); de plus,
sauf en un nombre fini de points, nous avons FX (x) = fX (x).
La formule de changement de variable dans lintgrale, nous permet en posant
R 1x =
X
X
0
R
1
FX (u) du = (x)fX (x) dx. Lensemble de ces considrations nous amnent au rsultat suivant.
ANNEXE D
Convexit
On se place dans lespace vectoriel Rd .
Dfinitions D.1 (Ensemble et fonction convexes). Pour tous x, y Rd , on note
[x, y] le segment qui relie x et y, cest--dire [x, y] = {(1 t)x + ty; 0 t 1}.
(1) On dit quune partie C de Rd est convexe si
x, y Rd , x, y C [x, y] C.
(D.2)
Dans la figure suivante, C est une partie convexe du plan alors que A ne lest pas
puisque [a, b] 6 A bien que a, b A :
C
y
x
b
convexe
non convexe
Exercice D.4. Montrer que les parties convexes de R sont les intervalles.
La proprit (D.3) signifie que toutes les cordes liant deux points du graphe de la
fonction convexe sont situes au-dessus du graphe. Cest ce quillustre la figure suivante.
corde
(y)
graphe de
(1 t)(x) + t(y)
(x)
y
(1 t)x + ty
Dans la figure suivante, le graphe de gauche est celui dune fonction convexe puisque
toutes ses cordes sont situes au-dessus, alors que celui de droite est celui dune fonction
non-convexe.
105
106
D. CONVEXIT
C
convexe
non convexe
Deux graphes fonctionnels
Proposition D.5. Soit : C R une fonction drivable sur une partie ouverte et
convexe C de Rd . Les assertions suivantes sont quivalentes.
(a) est convexe sur C.
(b) Pour tous x, y C, (y) (x) + h (x), y xi
(x), . . . , x
(x)) est le gradient de en x et hu, vi est le produit scalaire
o (x) = ( x
1
d
d
de u et v dans R .
Dans le cas particulier o Rd = R, si de plus est une fonction sur un intervalle
ouvert I R, deux fois continment diffrentiable (de classe C 2 ), alors les assertions
(a) et (b) sont aussi quivalentes
D. CONVEXIT
107
et en y :
(Y)
En faisant (1 t)(X) + t(Y), nous obtenons (xt ) (1 t)(x) + t(y) qui contredit
(D.6).
Preuve de (b) (c). Prenons y x = th avec t > 0 de sorte que (b) nous donne
(x + th) (x) (x)th 0. Dautre part, puisque est C 2 , il existe 0 1 tel
que (x + th) (x) (x)th = (x + th)t2 /2. On en dduit que (x + th) 0 et
en faisant tendre t vers 0, nous obtenons grce la continuit de que (x) 0.
Preuve
et pour tous x y, (y) =
R yde (c) (b). Puisque
R y 0, est croissante
Dans la figure suivante, le graphe de gauche est celui dune fonction convexe puisque
toutes ses tangentes sont situes au-dessous, alors que celui de droite est celui dune
fonction non-convexe.
C
convexe
non convexe
Deux graphes fonctionnels
(h) (x) = (kxk), x Rd o k k est une norme sur Rd et est une fonction convexe
croissante sur [0, [.
En particulier, (x) = kxkp , x Rd , avec p 1.
Index
109