Sunteți pe pagina 1din 113

Cours de probabilit et simulation

Licence de mathmatiques
Version 2.0
Christian Lonard
Dpartement de mathmatiques et informatique, Universit Paris Ouest.
Nanterre.
E-mail address: leonard@u-paris10.fr

Table des matires


Chapitre 1. Fondements de la thorie des probabilits
1.1. vnements
1.2. Probabilit

1
1
3

Chapitre 2. Variables alatoires


2.1. Fonction de rpartition
2.2. Variables alatoires discrtes
2.3. Variables alatoires continues
2.4. Quelques lments de rflexion

7
8
11
12
14

Chapitre 3. Loi et esprance dune variable alatoire


3.1. Variables discrtes
3.2. Variables continues
3.3. Une notation commune
3.4. Fonction indicatrice densemble
3.5. Variance et cart-type
3.6. Moments
3.7. Fonctions dune variable alatoire
3.8. Egalit en loi
3.9. Dfinition abstraite de la loi dune variable alatoire

17
17
21
23
24
24
25
26
28
29

Chapitre 4. Variables alatoires usuelles


4.1. Exemples de variables alatoires discrtes
4.2. Exemples de variables alatoires continues

31
31
33

Chapitre 5. Fonctions gnratrices et caractristiques


5.1. Le cas des variables entires
5.2. Fonctions caractristiques

39
39
41

Chapitre 6. Couples alatoires


6.1. Lois jointe et marginales
6.2. Fonction de rpartition
6.3. Indpendance
6.4. Couples discrets
6.5. Couples continus
6.6. Fonctions caractristiques
6.7. Ingalit de Cauchy-Schwarz

45
45
45
46
49
52
56
57

Chapitre 7. Fonctions dun couple alatoire


7.1. Quelques exercices corrigs
7.2. Somme de deux variables alatoires indpendantes

59
59
60

vi

TABLE DES MATIRES

Chapitre 8. Conditionnement
8.1. Probabilit conditionnelle
8.2. Conditionnement dans le cas discret
8.3. Conditionnement dans le cas continu

63
63
64
65

Chapitre 9. Indpendance (revisite)


9.1. Dfinition
9.2. Proprits lmentaires
9.3. chantillons

69
70
71
73

Chapitre 10. Construction dune variable alatoire relle gnrale


10.1. Construction dune variable alatoire continue uniforme
10.2. Construction dune variable alatoire relle gnrale

77
77
79

Chapitre 11. Simulation dune variable alatoire


11.1. Description rapide de certains gnrateurs
11.2. Simulation. Principe et applications
11.3. Histogrammes

81
81
81
85

Chapitre 12. Convergence des variables alatoires

89

Chapitre 13. Ingalits de convexit

91

Annexe A. Dnombrabilit

93

Annexe B. lments de thorie de lintgration

97

Annexe C. Esprance mathmatique sans thorie de lintgration

101

Annexe D. Convexit

105

Index

109

CHAPITRE 1

Fondements de la thorie des probabilits


1.1. vnements
Nous commenons par prsenter les fondements axiomatiques de la thorie des probabilits.
Dfinition 1.1. Lensemble des ralisations possibles dune exprience est appel
univers de lexprience. Il est gnralement not .
Exemple 1.2. On tire une fois pile ou face. Il est naturel de considrer = {p, f }
o p et f sont les ralisations de lexprience qui correspondent aux tirages respectifs de
pile et de face. Voici quelques vnements :
(a) la ralisation est face
(b) la ralisation est face ou pile
(c) la ralisation est face et pile simultanment
(d) la ralisation nest pas face
Ces vnements peuvent tre dcrits respectivement par les parties A de suivantes :
(a) A = {f }

(b) A = {f } {p} = {f, p} =


(c) A = {f } {p} =

(d) A = {f }c = {p}

o Ac dsigne le complmentaire de la partie A dans .


Exemple 1.3. On lance un d une fois. Il est naturel de considrer = {1, 2, 3, 4, 5, 6}
dont les lments correspondent aux diffrentes facettes du d. Voici quelques vnements :
(a) la ralisation est 1
(b) la ralisation est un nombre pair
(c) la ralisation est un nombre pair infrieur 3
(d) la ralisation nest pas un nombre pair
Ces vnements peuvent tre dcrits respectivement par les parties A de suivantes :
(a) A = {1}

(b) A = {2, 4, 6}

(c) A = {2, 4, 6} {1, 2, 3} = {2}

(d) A = {2, 4, 6}c = {1, 3, 5}

1. FONDEMENTS DE LA THORIE DES PROBABILITS

Si A et B sont des vnements qui correpondent respectivement aux ralisations


effectives a et b, on peut avoir besoin de considrer les vnements composs :
a
b
non a
a et b
a mais pas b
a ou b
a ou bien b

99K
99K
99K
99K
99K
99K
99K

A
B
Ac
AB
A\B
AB
AB

o
A \ B = A B c est la diffrence A moins B, cest--dire lensemble des lments
qui se trouvent dans A mais pas dans B;
AB = (A B) \ (A B) est la diffrence symtrique de A et B, cest--dire
lensemble des lments qui se trouvent soit dans A, soit dans B, mais pas simultanment dans A et B.
B
A\B

AB

B\A

La rgion colore est AB = (A \ B) (B \ A). Remarquons la diffrence entre ou bien


qui est exclusif et ou qui ne lest pas et correspond la runion A B.
Si A B = , on dit que les vnements sont incompatibles, est lvnement impossible et est lvnement certain.
Lensemble de tous les vnements est not A, il est inclus dans lensemble de toutes
les parties de note 2 . Cette notation est justifie par lexercice suivant.
Exercice 1.4. En considrant lensemble des applications {oui, non} de dans
{oui, non}, montrer que lorsque le cardinal de est n, celui de 2 est 2n .

Lorsque nest pas un ensemble dnombrable (voir la Dfinition A.1), pour des
raisons subtiles (qui ne sont pas aisment comprhensibles au niveau de ce cours) on ne
pourra pas en gnral prendre A = 2 . Compte tenu de ce qui prcde, A doit au moins
satisfaire :
(1) A, B A = A B A et A B A

1.2. PROBABILIT

(2) A A = Ac A

(3) A.

Exemple 1.5. On rpte notre lancer de pile ou face jusqu ce quon obtienne
pile. Lunivers est alors = {1 , 2 , . . .} avec 1 = p, 2 = f p, 3 = f f p, . . . La
ralisation i est : "on observe pile pour la premire fois au i-me lancer". Lensemble
correspondant lvnement : "linstant de premire apparition de pile est pair" est
A = {2 } {4 } {6 } . . . , cest une runion infinie dnombrable. Cette remarque
justifie la dfinition suivante.
Dfinition 1.6. Un ensemble A de parties de est appele une tribu (ou une algbre) si
S
(1) A1 , A2 , A =
i=1 Ai := { ; i 1, Ai } A
(2) A A = Ac A

(3) A

Les lments de A (ce sont des parties de ) sont appels des vnements.
Exemple 1.7 (Exemples de tribus).

(a) A = {, } (cest la plus petite tribu)

(b) A = 2 (cest la plus grande tribu)


(c) Si A , A = {, A, Ac , }.

une exprience, on associe le couple (, A) o A est une tribu de . Dire que A


est un vnement, cest dire : A A.
Remarque 1.8.

Lorsque est un ensemble dnombrable (en particulier fini), on prend toujours


pour tribu A = 2 : lensemble de toutes les parties de .
1.2. Probabilit
Si on note P(A) la probabilit doccurence dun vnement A A, on attend que :
0% = 0 P(A) 1 = 100% (par convention)
P() = 1 (condition de normalisation)
pour tous A, B A, si A B = alors P(A B) = P(A) + P(B) (additivit)
Comme nous lavons dj remarqu, il peut tre utile de considrer des vnements
constitus par une runion
dvnements disjoints A1 , A2 , . . . On note dans
S dnombrable
F
de cas leur runion i=1 Ai = i=1 Ai pour mettre lemphase sur leur disjonction qui
signifie : i, j, i 6= j Ai Aj = . Do la dfinition suivante.
Dfinition 1.9. Une mesure de probabilit P sur (, A) est une fonction P : A
[0, 1] qui satisfait :
(1) P() = 1
(2) si A1 , A2 , . . . est une suite dvnements disjoints, alors :

G
 X
P(Ai ).
P
Ai =
i=1

i=1

1. FONDEMENTS DE LA THORIE DES PROBABILITS

Le triplet (, A, P) est appel un espace de probabilit.


Il provient immdiatement de cette dfinition,
en choisissant A1 = A2 = , que 0 P() = limn nP() et par consquent
P() = 0;
en choisissant A1 = A, A2 = B et A3 = A4 = = , que pour tous A, B A
disjoints, P(A B) = P(A) + P(B).
Il en va de mme pour toute runion dun nombre fini dvnements disjoints :
P

n
G

i=1

Exemples 1.10.

Ai =

n
X

P(Ai ).

i=1

(a) Pile ou face correspond = {f, p}, avec A = {, {f }, {p}, } et P() = 0,


P({f }) = P({p}) = 1/2, P() = 1.

(b) Un lancer de d ventuellement pip peut se modliser comme suit : =


{1, 2, . . . , 6}, A = 2 et P({i}) = pi P
0, 1 i 6 avec p1 + p6 = 1.
Pour tout A , nous obtenons P(A) = iA pi .
(c) Si le d est honnte, p1 = = p6 = 1/6 et P(A) = #(A)/6 o #(A) dsigne le
cardinal de A.

Voici quelques consquences immdiates de la dfinition de P.


Lemme 1.11. Pour tous A, B A, nous avons
(1) P(Ac ) = 1 P(A)

(2) A B = P(B) = P(A) + P(B \ A) P(A)


(3) P(A B) = P(A) + P(B) P(A B)

Dmonstration. Laisse en exercice.

Dfinition 1.12 (Masse de Dirac). Soit a . On dfinit la fonction densembles


a : A {0, 1} par

1 si a A
a (A) =
, AA
0 sinon
On appelle a la masse de Dirac au point a.
Exercice 1.13.
(a) Vrifier que a est une mesure de probabilit sur A.

(b) Si on prend trois lments distincts a, b et c de , alors P = 17 a + 74 b + 72 c est aussi


une mesure de probabilit.
(c) Montrer que P({a, b}) = 5/7 et calculer P({a, c}).
La mesure de probabilit P = 17 a + 74 b + 72 c de lexercice prcdent modlise lexprience qui attribue les chances doccurence 1/7, 4/7 et 2/7 aux ralisations lmentaires
a, b et c.

1.2. PROBABILIT

Exemple 1.14. On se donne une urne contenant 3 boules rouges appeles 1 , 2 et


3 , 2 bleues appeles 4 , 5 et 1 verte : 6 . On tire au hasard une boule et on note sa
couleur.
On peut prendre = {1 , . . . , 6 } avec P(n ) = 1/6, n = 1, . . . , 6 puisque notre intuition
nous suggre lquiprobabilit. Bien sr, on choisit A = 2 et on obtient pour tout A ,
P(A) = #(A)/6. On constate que
P=

6
X
1
n=1

n .

Notons les vnements R = {1 , 2 , 3 }, B = {4 , 5 }, V = {6 } correspondant


au
P6
tirage dune boule rouge, bleue ou verte. On voit que P(B) = 1/6 n=1 n (B) =
P
1/6 6n=1 n ({4 , 5 }) = (0 + 0 + 0 + 1 + 1 + 0)/6 = 1/3.
Si on nest concern que par la couleur de la boule, on peut prendre lunivers = {r, b, v}
munit de la mesure de probabilit P = P(R)r + P(B)b + P(V )v = 12 r + 31 b + 16 v .
Lorsque est lensemble dnombrable = {n ; n 1}, toute mesure de probabilit
sur A = 2 est de la forme
X
(1.15)
P=
pn n
n1

P
o (pn )n1 est tel que pn 0, n et n1 pn = 1. Linterprtation de cette formule est :
P({n }) = pn , n 1.
Notre premier rsultat concernant une quantit infiniment dnombrable doprations
sur les vnements est le suivant.
Lemme 1.16.
(1) Soient A1 , A2 , . . . Sune suite croissante (pour la relation dinclusion) de A : A1
A2 et A =
n=1 An = { ; i 1, Ai } sa limite. Alors
P(A) = lim P(An ).
n

(2) Soient B1 , B2 , . . . une T


suite dcroissante (pour la relation dinclusion) de A :
B1 B2 et B =
n=1 Bn = { ; i 1, Ai } sa limite. Alors
P(B) = lim P(Bn ).
n

Dmonstration. Puisque (An )n1 est une suite croissante,


A2
A1
A2 \ A1

A3
S
A = i1 Ai

1. FONDEMENTS DE LA THORIE DES PROBABILITS

A = A1 (A2 \ A1 ) (A3 \ A2 ) est la runion disjointe dune famille dvnements.


Par consquent,

X
P(Ai+1 \ Ai )
P(A) = P(A1 ) +
i=1

n1
X
= P(A1 ) + lim
[P(Ai+1 ) P(Ai )]
n

i=1

lim P(An )

Pour le rsultat concernant la famille dcroissante, passer aux complmentaires en


utilisant la relation (A B)c = Ac B c .


Exemple 1.17. On joue indfiniment pile ou face jusqu ce quon obtienne pour
la premire fois pile. Le premier instant dobtention de pile est un entier qui peut tre
arbitrairement grand. On doit donc prendre un univers de cardinal infini. Un bon choix
est = {p, f }{1,2,...} : lensemble des suites = 1 2 . . . n . . . constitues des lettres p et
f avec linterprtation que n = p signifie quon a obtenu pile au n-ime lancer. Notons
que nous choisissons un univers diffrent de celui de lExemple 1.5, pour modliser la
mme exprience.
Lvnement qui correspond lobtention pour la premire fois de pile au n-ime
lancer est Pn = { ; 1 = = n1 = f, n = p}. Cest un ensemble infini qui
a le mme cardinal que puisque seul le dbut des suites est spcifi (Exercice : le
prouver). Il est naturel de demander lors de notre modlisation de cette exprience que
P(Pn ) = 2n puisquil y a 2n mots de longueur n constitus des lettre p et f et que
chacun de ces mots qui code la ralisation de n lancers de pile ou face doit avoir la mme
probabilit (situation dquiprobabilit).
F
Soit Bn = { ; 1 = = n = f } = in+1 Pi lvnement "il ny a pas eu
pile pendant les nPpremiers lancers". Ladditivit des
dvnements disjoints
Pprobabilits
n
i
scrit P(Bn ) =
P(P
)
cest--dire
2
=
2
.
On
vient
de retrouver une
i
i=n+1
i=n+1
formule bien connue.
T
La suite (Bn )n1 est dcroissante avec n1 Bn = P = {e
} o
e = f f f f . . . est
la suite constitue de f uniquement : lvnement "pile napparait jamais". Le lemme
prcdent nous assure de P(P ) = limn 2n = 0. Cest--dire que P(e
) = 0. En
dautres termes, avec cette modlisation de lexprience, on conclut que lvnement
complmentaire "pile finit par apparatre" est de probabilit 1 0 = 1; il est certain.

Un paradoxe. Compte tenu de la symtrie de notre modlisation, tous les sont quiprobables : , P() = P(e
) = 0. Or
Pvnements
P la somme" des probabilits de tous les
lmentaires doit tre gale 1 : P() = 1. Ce qui nous mne 0 = 1.
Une somme
pas tre la somme dune
P de zros gale un ! Cette somme ne peut donc P
srie car nN 0 = 0. Cest la raison pour laquelle on a mis entre guillemets. On
lve le paradoxe en se rappelant que est un ensemble non-dnombrable (voir le Lemme
A.7-2), cest--direPquil ne peut pas tre mis en injection dans N, il est beaucoup plus
gros. De ce fait est une opration indfinie ; en particulier elle nest pas une
srie.

CHAPITRE 2

Variables alatoires
Pour dfinir une variable alatoire, seul (, A) suffit. On laisse P de ct pour le
moment. On se donne (, A).
Essentiellement, une variable alatoire est une fonction numrique sur lunivers souvent
note X : R.

Exemple 2.1. On joue deux fois de suite pile ou face. Notre univers est =
{pp, pf, f p, f f } (lordre des lancers est pris en compte). Le nombre dapparitions de pile
est la variable alatoire suivante

2 si = pp
1 si {pf, f p}
X() =

0 si = f f
Exemple 2.2. On jette une flche par terre et on note langle de sa direction avec le
nord magntique. Une telle exprience peut tre dcrite laide de = [0, 2[. Quant
la tribu A, contentons-nous de dire quelle contient entre autres toutes les runions
dnombrables dintervalles. Lapplication
[0, 2[

X() = ,

est la variable alatoire qui correspond langle de la flche. Si lon considre le cosinus
de cet angle : Y = cos X, on obtient nouveau une variable alatoire sur (, A).
Nous reviendrons sur la question du choix de P lExemple 2.7.
Il est trs pratique dintroduire la notation suivante
{ ; X() C} := {X C}, C R.

En particulier, nous noterons { ; X() x} = {X x}.

Dfinition 2.3. Une application X : R est une variable alatoire relle si pour
tout x R, lensemble {X x} appartient A.

Lorsque est dnombrable on prend A = 2 et bien sr toute fonction numrique X


sur est une variable alatoire. Mais lorsque nest pas dnombrable, comme cest le
cas dans lExemple 2.2, pour des raisons techniques dlicates dune difficult dpassant
le niveau de ce cours, on ne peut pas considrer toutes les fonctions numriques X sur
mais seulement celles qui sont spcifies dans la dfinition prcdente.
Remarques 2.4.
(1) Notons que X est une fonction. Elle nest donc ni variable, ni alatoire ! Le vocable variable alatoire date du dbut de la thorie des probabilits avec Pierre
de Fermat ( ?-1665) et Blaise Pascal (1623-1662), bien avant que les mathmatiques soient formalises. Il faut donc prendre lexpression variablalatoire sans
lui accorder une porte smantique nhsitez pas ouvrir votre dictionnaire.
7

2. VARIABLES ALATOIRES

(2) Les premires formalisations rigoureuses de la thorie des probabilits datent du


dbut du vingtime sicle. Nous pratiquons celle de Kolmogorov, mathmaticien,
physicien, gnial et sovitique.
2.1. Fonction de rpartition
Ds lors que lon rintroduit la mesure de probabilit P, le comportement alatoire
de X peut tre quantifi. Lobjet fondamental de cette description est la fonction de
rpartition.
Dfinition 2.5. On se donne (, A, P) et une variable alatoire X sur (, A). La
fonction de rpartition de X est dfinie par
FX (x) = P(X x), x R.
Notons que pour pouvoir crire P(X x), il faut que X soit une variable alatoire
au sens de la Dfinition 2.3.
Exemple 2.6. On reprend la variable alatoire X de lExemple 2.1. Notre espace
probabilis est (, A, P) avec = {pp, pf, f p, f f }, A = 2 et P(pp) = P(pf ) = P(f p) =
P(f f ) = 1/4. Nous avons bien sr, P(X = 0) = P(X = 2) = 1/4 et P(X = 1) = 1/2. La
fonction de rpartition de X est

0
si x ] , 0[

1/4 si x [0, 1[
FX (x) =
3/4 si x [1, 2[

1
si x [2, +[
et son graphe est

y
1
p2 = 1/4
|

3/4

p1 = 1/2

1/4

p0 = 1/4
|

2
1
Reprsentation graphique de y = FX (x)

On constate que FX ne crot que pour les valeurs effectivement frquentes par X : 0, 1 et
2. La hauteur de chacune des marches est respectivement p0 = P(X = 0), p1 = P(X = 1)
et p2 = P(X = 2).
Exemple 2.7 (suite de lExemple 2.2). Compte tenu de la symtrie de lexprience,
il semble raisonnable den modliser le hasard laide de la mesure de probabilit qui
satisfait P(]a, b[) = (b a)/(2), 0 a < b < 2. Soient X() = et Y () = cos . Les

2.1. FONCTION DE RPARTITION

fonctions de rpartition de X et Y sont

si x 0
0
x/(2) si 0 x < 2
FX (x) =

1
si x 2

et

si y < 1
0
1 (arccos y)/ si 1 y < 1
FY (y) =
1
si y 1
En effet, pour 0 x < 2

FX (x) = P(X x)
= P({ ; 0 x}) = P([0, x]) = x/(2)
z

x
1
0
Reprsentation graphique de z = FX (x)
et pour 1 y < 1
arccos y

2( arccos y)
1

FY (y) = P(Y y)
= P({ ; cos y}) = P(X [( arccos y), arccos y])
= 2( arccos y)/(2) = 1 (arccos y)/
z

1
y
1
1
0
Reprsentation graphique de z = FY (y)
Les fonctions de rpartition jouissent dun certain nombre de proprits.
Proposition 2.8. Une fonction de rpartition F possdent les proprits suivantes :
(1) limx F (x) = 0 et limx F (x) = 1,

10

2. VARIABLES ALATOIRES

(2) F est croissante


(3) pour tous a < b, P(a < X b) = F (b) F (a)
(4) F est continue droite
Dmonstration. Preuve de (1). Soit Bn = {X n}. Alors B1 , B2 , . . . est une
suite dcroissante dvnements de limite vide. Par consquent, grce au Lemme 1.16,
limn P(Bn ) = P() = 0. Pour lautre limite, considrer An = {X n}.

Preuve de (2) et (3). Soient a < b et A(a) = {X a}, A(a, b) = {a < X b}. Alors,
A(b) = A(a) A(a, b) est une union disjointe, de sorte que
P(A(b)) = P(A(a)) + P(A(a, b))

do il vient que
qui est (3) et prouve (2).

F (b) = F (a) + P(a < X b) F (a)

Preuve de (4). Avec la notation prcdente, pour tout a R, A(a, a + h) dcrot vers le
vide lorsque h > 0 dcrot vers zro. Par consquent, grce (3), limh0 F (a+h)F (a) =
()

limn F (a + 1/n) F (a) = limn P(X ]a, a + 1/n]) = P(X limn ]a, a + 1/n]) =
P(X ) = 0, o lgalit () est une consquence du Lemme 1.16 et lexistence de la
limite limh0 F (a + h) est garantit par le croissance de F dmontre au point (2).

Le rsultat suivant montre que la fonction de rpartition permet dvaluer la probabilit P(X I) pour nimporte quel intervalle I.

Proposition 2.9. Soient a b +. Alors,


(1) P(X ]a, b]) = FX (b) FX (a);
(2) P(X [a, b]) = FX (b) FX (a );
(3) P(X ]a, b[) = FX (b ) FX (a);
(4) P(X [a, b[) = FX (b ) FX (a )
o FX (c ) := limxc FX (x) est la limite gauche de FX en c et par convention FX () :=
limx = 0 et FX (+) := limx+ FX (x) = 1, daprs la Proposition 2.8-(1).

On notera que la limite gauche FX (c ) existe puisque FX est une fonction croissante
de sorte que limxc FX (x) = supx<c FX (x).
Dmonstration. Preuve de (1). Dans ce cas, b < . Lorsque a = , cest
vident et lorsque a est fini, ce rsultat a t obtenu la Proposition 2.8.
T
Preuve de (2). Dans
ce
cas,
a
et
b
sont
finis.
Puisque,
[a,
b]
=
n1 ]a 1/n, b] on
T
a {X [a, b]} = n1 {X ]a 1/n, b]} et on obtient laide de (1) et du Lemme
1.16, P(X [a, b]) = limn P(X ]a 1/n, b]) = limn FX (b) FX (a 1/n) =
FX (b) FX (a ).
Preuve de (3). Prenons aS= . Si b = , le rsultat est vident et si b < ,
P(X ] , b[) = P(X n1 ] , b 1/n]) = limn P(X ] , b 1/n]) =
limn FX (b1/n) = FX (b ). Lorsque a est fini, P(X ]a, b[) = P(X ], b[)P(X
] , a]) = FX (b ) FX (a).

Preuve de (4). Dans ce cas a est fini et en tenant compte de (3), P(X [a, b[) =
limn P(X ]a 1/n, b[) = limn FX (b ) FX (a 1/n) = FX (b ) FX (a ).


2.2. VARIABLES ALATOIRES DISCRTES

11

2.2. Variables alatoires discrtes


Commenons par rappeler la dfinition dune variable alatoire discrte.
Dfinition 2.10. La variable alatoire X est dite discrte si elle prend ses valeurs
dans une partie dnombrable {xn ; n N } de R o N est un ensemble dindices.

Rappelons que certains des rsultats les plus simples au sujet de la dnombrabilit
sont prsents en Annexe A.

Remarques 2.11.
(1) Bien sr, on peut sans restriction supposer que les xn sont tous distincts.
(2) Puisque N est dnombrable, on peut choisir N = {1, . . . , K} si X prend K =
#(X()) < valeurs ou bien N = {1, 2, . . .} si X prend une infinit de valeurs.
Exemples 2.12.
(1) La variable alatoire de lExemple 2.1 est discrte.
(2) On note X le premier instant dobtention de pile dans lExemple 1.17. Cest une
variable alatoire valeurs dans {1, 2, . . .} {} o X = signifie que pile
napparat jamais. On a vu que P(X = ) = 0 de sorte que X est effectivement
valeurs dans R et quon peut considrer sa fonction de rpartition. On a dj
vu que pour tout n 1, P(X = n) = P(Bn ) = 2n . La reprsentation graphique
de FX est
y
1
1/8

1/2+1/4=3/4

1/4
|

1/2

1/2
|

3
1
2
Reprsentation graphique de y = FX (x)

Comme nous allons le voir, de telles fonctions de rpartition sont typiques des variables discrtes.
Le comportement dune variable discrte X est dcrit par la donne de (xn , pn )nN
o les xn sont supposs distincts et pn := P(X = xn ) 0. Du fait que 1 = P(X R),
nous obtenons la condition de normalisation
X
(2.13)
pn = 1.
nN

On peut toujours choisir pour N une partie de Z constitue de nombres conscutifs de


sorte que les valeurs de X soient ranges par ordre croissant : < xn1 < xn < xn+1 <
. laide de la Proposition 2.8-(3), on voit que P(X = xn ) = P(xn1 < X xn ) =
FX (xn ) FX (xn1 ), soit
(2.14)

pn = FX (xn ) FX (xn1 ),

nN

12

2. VARIABLES ALATOIRES

avec les conventions x(inf(N )1) = et FX () = 0. De plus, pour tous xn1 x


y < xn , nous avons 0 FX (y) FX (x) = P(x < X y) P(xn1 < X < xn ) = 0.
Par consquent FX (x) = FX (y), ce qui signifie que FX est constante sur les intervalles
semi-ouverts [xn1 , xn [. La forme gnrale de FX est donc
y
1
pn+1
pn
pn1
|

xn1

xn

xn+1

Reprsentation graphique de y = FX (x)


Une telle fonction de rpartition est dite atomique : cest- dire quelle est constante
entre ses discontinuits qui sont des sauts positifs.
2.3. Variables alatoires continues
La situation prcdente est radicalement diffrente de celle des variables alatoires
continues.
Dfinitions 2.15.
(1) Une fonction numrique est dite continue par morceaux si tous ses points de
discontinuit sont isols. Ceci signifie que pour tout point de discontinuit il
existe un intervalle ouvert qui le contient et ne contient pas dautre point de
discontinuit.
(2) La variable alatoire X est dite continue si sa fonction de rpartition peut scrire
sous la forme
Z x
(2.16)
FX (x) =
fX (u) du, x R

pour une certaine fonction fX : R [0, [ continue par morceaux et intgrable.

(3) Dans ce cas, la fonction fX est appele fonction de densit de la variable alatoire
X.

Exemple 2.17 (suite de lExemple 2.7). On constate que X et Y sont continues


puisque
Z x
Z y
FX (x) =
fX (u) du,
FY (y) =
fY (u) du

avec les fonctions de densit



1/(2) si x [0, 2]
,
fX (x) =
0
sinon

fY (y) =

1/(
0

p
1 y 2 ) si y [1, 1]
sinon

2.3. VARIABLES ALATOIRES CONTINUES

13

z
1/(2)
|

0
2
Reprsentation graphique de z = fX (x)

y
1
0
1
Reprsentation graphique de z = fY (y)
Par souci de lisibilit, ces deux reprsentations ne sont pas la mme chelle. Notons
lexplosion en -1 et 1 de la densit de Y.
Remarques 2.18.
(1) Il est clair que la fonction de rpartition FX dune variable continue est continue.
En fait, elle est un peu plus rgulire : des fonctions FX qui admettent une
reprsentation (2.16) sont dites absolument continues.
(2) Si fX est elle-mme continue, FX est drivable (de classe C 1 ) et FX = fX .
(3) Remarquons que FX nest pas drivable aux points de discontinuit de fX .
Si X est une variable alatoire continue, FX est une fonction continue et toutes les
expressions des membres de droite des galits de la Proposition 2.9 sont gales. On en
dduit immdiatement le
Corollaire 2.19. Si X est une variable alatoire continue de densit fX , pour tous
a b nous avons
P(X ]a, b]) = P(X [a, b]) = P(X ]a, b[)
Z b
= P(X [a, b[) =
fX (x) dx.
a

Lorsque X est continue, on notera parfois P(X (a, b)) chacune des quantits gales
P(X ]a, b]) = P(X [a, b]) = P(X ]a, b[) = P(X [a, b[).
y
y = fX (x)

b
aire=

Rb
a

x
fX (x) dx = P(X (a, b))

14

2. VARIABLES ALATOIRES

En se souvenant de la dfinition de lintgrale de Riemann comme limite de sommes de


Darboux, on obtient en tout point xR de continuit de la densit fX que lorsque h 0
x+h
tend vers zro, P(X (x, x + h)) = x fX (t) dt = fX (x)h + (h)h o limh0 (h) = 0.
De faon informelle, on traduit ceci par
(2.20)

P(X (x, x + h)) fX (x)h.


h0

aire h(h)/2
(h)

fX (xo )

y = fX (x)

h
0

xo

xo + h

aire= fX (xo )h P(X (xo , xo + h))


On constate donc que la variable alatoire X a plus de chance de prendre des valeurs dans
les rgions o fX est grande. En particulier, X ne prend pas de valeur dans lensemble
{fX = 0} := {x R; fX (x) = 0}.
Bien videmment, puisque 1 = P() = P(X R), nous avons toujours la condition
de normalisation
Z
(2.21)

fX (x) dx = 1.

qui est lanalogue de (2.13).

2.4. Quelques lments de rflexion


Nous concluons ce chapitre en donnant un exemple de variable alatoire qui nest ni
continue, ni discrte ; ainsi quune remarque au sujet de la tribu A lorsque X prend un
nombre non-dnombrable de valeurs.
Exemple 2.22 (Une variable alatoire ni continue, ni discrte). On tire une boule
dune urne qui contient 1 boule rouge et 2 boules vertes. Si la boule obtenue est verte,
alors on lance notre flche par terre et on mesure son angle. Lunivers de lexprience est
= {r} {(v, x); 0 x < 2}. Soit X : R donne par
X(r) = 2, 9,

X((v, x)) = x.

X prend ses valeurs dans {2, 9} [0, 2[ et sa fonction de rpartition admet la reprsentation graphique suivante.
y
1

1/3
|

-2,9

2.4. QUELQUES LMENTS DE RFLEXION

15

Reprsentation graphique de y = FX (x)


Exemple 2.23 (Lescalier du diable).
Remarque 2.24.
Clairement, si X prend un nombre non-dnombrable de valeurs, il est ncessaire
que ne soit pas dnombrable. Cest le cas pour les variables continues. En
revenant la Remarque 1.8, on peut se demander pourquoi dans cette situation
on ne pourrait pas prendre la tribu 2 de toutes les parties. Cest lvidence
une tribu et on peut donc considrer une probabilit P construite sur elle. Le
problme que lon rencontre est le suivant. On peut montrer quil nexiste
P pas de
mesures de probabilits sur 2 autres que celles de la forme (1.15) : n1 pn n
car 2 est un ensemble trop gros.

CHAPITRE 3

Loi et esprance dune variable alatoire


Nous commenons par prsenter les notions de loi et desprance dans la situation
la plus simple qui est celle des variables discrtes. Puis, nous tendons par analogie ces
notions au cas des variables continues. Finalement, nous montrons quil existe un cadre
mathmatique gnral qui permet de comprendre et dfinir ces notions pour toutes les
variables alatoires.
3.1. Variables discrtes
Soit X une variable alatoire qui prend les valeurs {xn ; n N } o les xn sont distincts
et N est un ensemble dindices inclus dans lensemble {1, 2, . . .} des entiers positifs non
nuls, voir les Remarques 2.11. On dcrit le comportement alatoire de X par la donne
de (xn , pn )nN avec pn := P(X = xn ), n N. Cette donne est moins informative a
priori que celle de (X, P) qui dcrit le phnomne par , mais elle est suffisante pour
obtenir toutes les quantits moyennes que nous dsirons.
Dfinition 3.1. La loi de la variable alatoire discrte X est
X
(3.2)
PX =
pn xn
nN

Une loi de cette forme est dite atomique. Ses atomes sont les xn tels que pn > 0.
On rappelle que
 x est la masse de Dirac au point x, cest--dire que pour toute partie
1 si x B
B R, x (B) =
, voir la Dfinition 1.12. La loi PX est une mesure de
0 sinon
probabilit sur R.
Exemples 3.3.
(1) La variable alatoire X de lExemple 2.12-(1) a pour loi PX = 14 0 + 21 1 + 41 2 .
P
(2) La loi de celle de lExemple 2.12-(2) est PX = n1 2n n .

Soit B une partie de R, nous constatons que


(3.4)
puisque

P(X B) = PX (B),
PX (B) =

pn xn (B) =

nN : xn B

pn

nN : xn B

nN

BR

P(X = xn ) = P(X B).

On voit clairement laide de (2.14) que la donne de (xn , pn )nN est quivalente
celle de la fonction de rpartition FX , de mme quelle est quivalente celle de la loi
17

18

3. LOI ET ESPRANCE DUNE VARIABLE ALATOIRE

PX . En rsum, le comportement alatoire de X est dcrit de manire quivalente par la


donne de
(xn , pn )nN ou
la fonction de rpartition FX ou
la loi PX .
La valeur moyenne de X pondre par les probabilits de ralisation des vnements
est appele son esprance mathmatique.
P
Dfinition 3.5. Soit X une variable discrte de loi PX = nN pn xn . Lesprance
mathmatique de X est
X
EX :=
p n xn .
nN

Pour que cette quantit soit dfinie correctement, il est ncessaire de supposer que
X
E|X| :=
pn |xn | <

cest--dire que

nN

nN

pn xn est une srie absolument convergente.

Exemples 3.6.
(1) La variable X de lExemple 3.3-(1) a pour loi PX = 14 0 + 21 1 + 14 2 . Son esprance
est EX = 14 0 + 21 1 + 14 2 = 1.
P
(2) La variable X de lExemple 3.3-(2) a pour loi PX = n1 2n n . Son esprance
P
est EX = n1 2n n.

Remarques 3.7.

P
(1) Lorsque X est une variable alatoire positive, son esprance EX = nN pn xn
est une srie termes positifs. Elle est donc toujours dfinie condition de lui
donner la valeur + lorsquelle est divergente.
P
En particulier, pour toute variable alatoire, on a E|X| =
nN pn |xn | et
lon peut crire E|X| sans prcaution en tant que nombre
dans
[0, +] =
P
[0, +[{+}. De plus, E|X| < signifie que la srie nN pn xn est absolument convergente et donc que EX est bien dfini.

(2) On dfinit la loi dune variable alatoire discrte X valeurs dans un ensemble
quelconque X exactement comme lorsque X R, par la donne de (xn , pn )nN
o
P les xn sont dans X . La loi de X est donne par la Dfinition 3.1 X: PX =
nN pn xn . Cest une mesure de probabilit sur X muni de la tribu 2 de ses
parties.

(3) En revanche, pour considrer EX, il faut pouvoir additionner les x et les multiplier par des poids 0 p 1. La notion desprance de X na donc de sens
que si X estP
un espace vectoriel. Lesprance de X est donne par la Dfinition
absolument conver3.5 : EX = nN pn xn X sous rserve que cette srie soit P
gente, cest--dire que la srie termes positifs EkXk =
nN pn kxn k <
soit convergente, o k k est une norme sur lespace vectoriel X . Un cas trs
important est celui de X = Rd muni de le norme euclidienne ou de nimporte
quelle autre norme quivalente.

3.1. VARIABLES DISCRTES

19

Considrons la variable P
alatoire Y = (X), image de X par la fonction numrique
: R R. Sa loi est PY = mM qm ym o {ym ; m M } = {(xn ); n N } les ym tant
tous distincts et
qm := P(Y = ym )
= P((X) = ym )
X
=
P(X = x)
xX(): (x)=ym

(3.8)

pn

nN (m)

o N (m) = {n N : (xn ) = ym } est lensemble des indices des xn dont limage par
est ym .
Notons que (N (m))mM constitue une partition de N. Cest--dire que les parties N (m)
sont disjointes : m 6= m N (m) N (m ) = (puisque les ym sont tous distincts), et
(3.9)

N=

N (m).

mM

Thorme 3.10. On suppose que


(3.11)

nN

E[(X)] =

pn |(xn )| < . Alors,

pn (xn ).

nN

Dmonstration. En notant Y = (X) comme prcdemment, nous avons


E[(X)] = EY
X
(a)
=
qm ym
mM

(b)

p n ym

mM nN (m)
(c)

pn (xn )

mM nN (m)
(d)

pn (xn )

nN

o (a) est la dfinition de lesprance, (b) provient de (3.8), (c) est une consquence de
ym = (xn ), n N (m) et (d) vient de (3.9).
Bien videmment, il faut sassurer que toutes ces sries sont absolument convergentes.
Or, en reprenant le prcdent calcul enP
remplaant Y par |Y | et donc par ||, on voit
que cest le cas sous notre hypothse : nN pn |(xn )| < .

P
Thorme 3.12. La loi de (X) est P(X) = nN pn (xn ) .

20

3. LOI ET ESPRANCE DUNE VARIABLE ALATOIRE

Dmonstration. On reprend en la transposant la preuve du Thorme 3.10. Ce


qui donne :
X X
X
pn ym
P(X) = PY =
qm ym =
=

mM nN (m)

mM

pn (xn ) =

mM nN (m)

qui est le rsultat dsir.

pn (xn )

nN

Reprenons lExemple 3.3-(1), cest--dire PX = 14 0 + 12 1 + 14 2 et considrons (x) =


(x 1)2 . On obtient alors P(X) = 41 (0) + 21 (1) + 41 (2) = 14 1 + 21 0 + 41 1 = 21 0 + 21 1 .
En prenant N = {1, 2, 3}, x1 = 0, x2 = 1 et x3 = 2, ainsi que M = {1, 2} avec
y1 = 0 = (1) et y2 = 1 = (0)
P = (2), nous obtenons
P N (1) = {2} et N (2) = {1, 3}.
La formule (3.8) scrit q1 = nN (1) pn = p2 et q2 = nN (2) pn = p1 + p3 , ce qui donne
P((X) = 0) = 1/2 et P((X) = 1) = 1/4 + 1/4 = 1/2.
Lemme 3.13 (Positivit de lesprance).
(1) Soit X une variable positive : X 0, cest--dire X() 0, . Alors,
0 EX .

(2) Soient et deux fonctions positives telles que 0 . Alors, 0


E[(X)] E[(X)] .

Dmonstration.
Preuve de (1). Nous avons xn 0 et pn 0 pour tout n N.
P
Donc EX = nN pn xn 0.

Preuve de (2). Pour tout n N, 0 pn (xn ) pn (xn ). Donc les sries


P termes positifs
correspondantes
sont
ordonnes
de
faon
similaire
:
0

E[(X)]
=
nN pn (xn )
P

nN pn (xn ) E[(X)] .

Thorme 3.14 (Linarit de lesprance). Soient , : R R deux fonctions


numriques telles que E|(X)| < et E|(X)| < . Pour tous rels a, b, nous avons
E[a(X) + b(X)] = aE[(X)] + bE[(X)]

o toutes les esprances sont bien dfinies.


Dmonstration. Puisque |a(X)+b(X)| |a||(X)|+|b||(X)|, grce au Lemme
3.13-(2), nous avons E|a(X) + b(X)| |a| E|(X)| + |b| E|(X)| < de sorte que
toutes les esprances sont bien dfinies. Grce au Thorme 3.10,
X
E[a(X) + b(X)] =
pn [a(xn ) + b(xn )]
nN

= a

nN

pn (xn ) + b

pn (xn )

nN

= aE[(X)] + bE[(X)]
ce qui achve la preuve.

Thorme 3.15 (Croissance de lesprance). Soient et deux fonctions numriques telles que E|(X)| < , E|(X)| < et . Alors, E[(X)] E[(X)].

3.2. VARIABLES CONTINUES

21

Dmonstration. (X) (X) 0, donc par linarit et positivit de lesprance


E[(X)] E[(X)] = E[(X) (X)] 0.

Remarque 3.16.
En reprenant la Remarque 3.7-(2), on peut tendre les Thormes 3.14 et 3.15 au
cas des variables alatoires discrtes valeurs dans un ensemble X quelconque,
en prenant des fonctions , : X R, puisque (X) et (X) sont des variables
alatoires relles.
3.2. Variables continues
Nous allons procder par analogie avec les variables discrtes. Nous gardons les notations introduites la Dfinition 2.15, en particulier la densit fX de la loi de la variable
alatoire continue X est suppose continue par morceaux.
Dfinition 3.17.
(1) On note CX lensemble des fonctions de R: R R qui sont continues par
morceaux etRtelles que lintgrale gnralise R |(x)|fX (x) dx soit convergente,
cest--dire R |(x)|fX (x) dx < .
(2) Soit CX . Lesprance mathmatique de la variable alatoire (X) est dfinie
par
Z
(3.18)
E(X) :=
(x)fX (x) dx.
R

Une justification rigoureuse de cette dfinition peut tre obtenue en montrant


quelle est lextension naturelle de la Dfinition 3.5 de lesprance dune variable
discrte.
En tenant compte de (2.20), lorsquon se souvient de la construction de lintgrale
de Riemann comme limite de sommes de Darboux, on voit que cette dfinition est
analogue au rsultat obtenu en (3.11) pour les variables discrtes.
Du fait que fX et sont continues par morceaux, il en est de mme pour leur
produit fX qui, par consquent, est localement intgrable au sens de Riemann.
Remarques 3.19.
(1) Si 0 est une fonction continue par morceaux et positive, on peut dfinir
lesprance
(3.18) en posant E(X) = + lorsque lintgrale gnralise posiR
tive R (x)fX (x) dx est divergente.
En
R particulier, pour toute fonction continue par morceaux, on note E|(X)| =
|(x)|fX (x) dx [0, ].
R
R
(2) Lhypothse dintgrabilit
E|(X)| = R |(x)|fX (x) dx < exprime que linR
tgrale gnralise R (x)fX (x) dx est absolument convergente.

Exemple 3.20. Si X est langle de la flche de lExemple 2.17 : fX (x) = 1[0,2[ (x)/(2)
R 2 x
de sorte que E(X) = 0 2
dx = .
Remarque 3.21. On peut se demander ce que signifie la valeur moyenne de langle
EX = . En effet, si lon avait choisi de coder langle dans [, [, on aurait obtenu EX =
0 pour la mme exprience. En revanche, les coordonnes cartsiennes (cos X, sin X) sur
le cercle trigonomtrique sont indpendantes du choix de lorigine des angles.

22

3. LOI ET ESPRANCE DUNE VARIABLE ALATOIRE


b

(cos X, sin X)

angle = X
b

(0, 0)

(1, 0)

On dfinit E(cos X, sin X) = (E[cos X], E[sinRX]) et on obtient la direction Rmoyenne


2
2
1
1
cos x dx = 0 et E[sin X] = 2
sin x dx =
E(cos X, sin X) = (0, 0) puisque E[cos X] = 2
0
0
0. Ce qui signifie bien quaucune direction nest privilgie.
Thorme 3.22 (Linarit de lesprance). Lensemble CX est un sous-espace vectoriel de lespace des fonctions numriques.
Pour tous , CX et tous rels a, b, nous avons
E[a(X) + b(X)] = aE[(X)] + bE[(X)].
Dmonstration. Soient et deux fonctions continues par morceaux. Lensemble
des points de discontinuit de + est inclus dans la runion des ensembles de points
de discontinuit de et et une runion finie de points isols reste un ensemble de
points isols. Donc + est continue par morceaux. Il en est de mme pour a pour
tout a R. R
R
Dautre part, R |a(x)|fX (x) dx = |a| R |(x)|fX (x) dx < . Ce qui prouve que CX est
un espace vectoriel.
La linarit de lintgrale nous assure de
Z
E[a(X) + b(X)] =
[a(x) + b(x)]fX (x) dx
R
Z
Z
= a (x)fX (x) dx + b (x)fX (x) dx
R

= aE[(X)] + bE[(X)],

qui est le rsultat annonc.

Thorme 3.23 (Croissance de lesprance).


(1) Soient , 0 deux fonctions positives continues par morceaux telles que 0
. Alors la Remarque 3.19-(1) nous assure du sens des quantits E[(X)]
et E[(X)] et nous avons 0 E[(X)] E[(X)] .

(2) Soient , CX telles que , alors E[(X)] E[(X)].

Dmonstration. Ces rsultats sont des consquences immmdiates des proprits


de croissance des intgrales gnralises.

Par analogie avec la relation (3.4), nous introduisons la

3.3. UNE NOTATION COMMUNE

23

Dfinition 3.24. La loi de X est la mesure de probabilit sur R


PX (dx) := fX (x) dx
qui est dfinie par
PX (B) := P(X B) =
pour tout intervalle B = (a, b) R.

fX (x) dx

notation

fX (x) dx

3.3. Une notation commune


Nous venons de voir que les rsultats de croissance (Thormes 3.15 et 3.23) et de
linarit (Thormes 3.14 et 3.22) sexpriment de faon analogue pour les variables alatoires discrtes et continues. Cest lindice quil existe une thorie gnrale qui englobe
ces deux situations. Il sagit de la thorie de lintgration de Lebesgue que nous naborderons pas dans ce cours. En revanche, nous allons introduire des notations issues de cette
thorie qui permettront de traiter simultanment ces deux types de variables alatoires.
Les principaux rsultats de cette thorie sont collects lAnnexe B.
On note
Z
Z
(x) PX (dx) =
dPX = E(X)
R

(1) la quantit

dPX =

lorsque X est discrte de loi PX =


(2) la quantit

dPX =

nN
P

(xn )pn

nN

pn xn ou bien

(x)fX (x) dx

lorsque X est continue de loi PX (dx) = fX (x) dx.


Nous avons montr aux Thormes 3.15, 3.23, 3.14 et 3.22 que, pour et dans une
bonne classe de fonctions, les proprits suivantes sont satisfaites.
Linarit. Pour tous a, b R,
(3.25)

E[a(X) + b(X)] = aE(X) + bE(X)

ou avec notre nouvelle notation :


Z
Z
Z
[a + b] dPX = a dPX + b dPX
R

Croissance. Si , alors

(3.26)

E(X) E(X)

ou avec notre nouvelle notation :


Z
Z
dPX
dPX .
R

Normalisation. On note 1 la fonction constante gale 1.


Z
(3.27)
E(1) =
dPX = PX (R) = P() = 1.
R

24

3. LOI ET ESPRANCE DUNE VARIABLE ALATOIRE

3.4. Fonction indicatrice densemble


On introduit maintenant une fonction trs pratique en calcul des probabilits.
Dfinition 3.28 (Fonction indicatrice). Soit V un ensemble quelconque et W V
une partie de V. La fonction indicatrice de W est

1 si v W
, v V.
1W (v) :=
0 sinon
Remarques 3.29.

(1) Notons que 1W (v) = v (W ).


(2) Pour tout B R, 1{XB} () = 1B (X()) =
Proposition 3.30.

1 si X() B
.
0 sinon

(1) Pour B R, E[1{XB} ] = E[1B (X)] = P(X B) = PX (B).

(2) Pour tout rel c, E(c1 ) = c.

On notera souvent la variable alatoire gale la constante c : c1 = c; donc E(c) = c.


Une telle variable alatoire est dite dterministe.
Dmonstration. Preuve de (1). Commenons par le cas o X est discrte. Grce
auP
Thorme 3.10, E[1
P{XB} ] = E[1B (X)] =
= nN pn 1B (xn ) = nN ; xn B pn = P(X B) = PX (B).
R
R
Lorsque X est continue, E[1{XB} ] = E[1B (X)] = R 1B (x)fX (x) dx = B fX (x) dx =
PX (B).
Preuve de (2). Avec (3.27) : E(c) = cE(1) = c1.

3.5. Variance et cart-type


Pour mesurer la moyenne des fluctuations de X autour de sa moyenne := EX, on
peut prendre la moyenne de lcart la moyenne : X . Cest--dire E(X ). Mais on
voit que E(X ) = EX E = = 0. En moyenne, les carts par dfaut compensent
exactement les carts par excs. Une ide naturelle est donc de considrer la moyenne de
lcart absolu la moyenne : E|X |. Mais personne naime beaucoup travailler avec les
valeurs absolues qui demandent des dcoupages fastidieux. Cest la raison pour laquelle
on prfre considrer la moyenne du carr de lcart la moyenne : E[(X )2 ]. Si on
change dchelle de mesure, par exemple si X est une longueur exprime en mtres et X
la mme longueur exprime en millimtres, on a X = 1000X do E[(X E(X ))2 ] =
E[(1000X 1000E(X))2 ] = 10002 E[(X EX)2 ]. Ces quantits diffrent du facteur 10002
et sexpriment
comme des longueurs au carr. Il est donc pertinent de considrer la
p
quantit E[(X )2 ] qui conserve les bonnes units et les facteurs dchelle.

Dfinition 3.31. On suppose que E|X| < de sorte que EX est bien dfini. La
variance de X est
Var(X) := E[(X EX)2 ] [0, +]
Son cart-type est
p
(X) := Var(X) [0, +].

3.6. MOMENTS

25

On remarque quen tant quesprance de la variable positive (X )2 , Var(X) est


un nombre positif.
Il est pratique lors de certains calculs dutiliser les formules suivantes.
Proposition 3.32. Soit X tel que E|X| < . Nous avons
(1) Var(X) = E(X 2 ) (EX)2 .

(2) Var(aX) = a2 Var(X) et (aX) = |a|(X), pour tout rel a 6= 0, avec la convention a2 = |a| =
Bien sr, si a = 0, Var(0) = (0) = 0.
(3) Var(X + c) = Var(X) pour tout rel c.
(4) Var(c) = 0 pour tout rel c.

Dmonstration. Preuve de (1). Grce la linarit de lesprance (3.25) et la


Proposition 3.30-(2), en posant = EX, Var(X) = E[(X )2 ] = E[X 2 2X + 2 ] =
E(X 2 ) 2EX + E(2 ) = E(X 2 ) 22 + 2 = E(X 2 ) 2 .

Preuve de (2). A nouveau, par la linarit de lesprance, Var(aX) = E[(aX a)2 ] =


E[a2 (X )2 ] = a2 E[(X )2 ] = a2 Var(X).

Preuve de (3). Var(X + c) = E[{(X + c) E(X + c)}2 ] = E[{X + c (EX + c)}2 ] =


E[{X EX}2 ] = Var(X).

Preuve de (4). Var(c) = Var(c c) = Var(0) = 0.

3.6. Moments
Commenons par la dfinition des moments dune variable alatoire.
Dfinition 3.33. Soit X une variable alatoire relle.
Si X 0 est une variable alatoire positive, pour tout rel p > 0, on appelle
moment dordre p de X la quantit E[X p ] [0, ].
Dans le cas gnral o X est une variable alatoire relle, pour tout entier p 1
tel que E[|X|p ] < , on appelle moment dordre p de la variable alatoire relle X
la quantit E(X p ).
On rappelle que les puissances non-entires ne sont dfinies que pour les nombres
positifs par xp := exp(p ln(x)), x > 0, p R et 0p = 0 si p > 0.

Proposition 3.34 (Comparaison des moments). On se donne deux rels 0 < p q.


Soit X 0 une variable alatoire positive : E[X q ] < E[X p ] < .
Pour toute variable alatoire relle X : E[|X|q ] < E[|X|p ] < .
Dmonstration. Soit X 0. On utilise les fonctions indicatrices 1W , voir la Dfinition 3.28, en remarquant que 1 = 1W + 1W c :
E[X p ] = E[(1{X<1} + 1{X1} )X p ]
(a)

= E[1{X<1} X p ] + E[1{X1} X p ]

(b)

1 + E[1{X1} X q ]

(c)

1 + E[X q ] < .

26

3. LOI ET ESPRANCE DUNE VARIABLE ALATOIRE

Lgalit (a) est une application de la linarit de lesprance. Lingalit (b) vient de
1{0x<1} xp 1 et xp xq lorsque x 1 et 0 < p q. On obtient lingalit (c) en
remarquant que 1{x1} xq xq lorsque x 0. On a invoqu (3.26) pour des fonctions
positives pour ces deux ingalits.
La dernire assertion de la proposition sen dduit immdiatement.

Corollaire 3.35. Si E(X 2 ) < , alors E|X| < .
De plus, Var(X) < si et seulement si E(X 2 ) < .

Dmonstration. La premire assertion est un cas particulier de la Proposition 3.34


et la seconde sen dduit laide de la Proposition 3.32-(1).

3.7. Fonctions dune variable alatoire

Si est une fonction numrique suffisamment rgulire et X est une variable alatoire,
alors Y = (X) est aussi une variable alatoire. Pour tout intervalle B R, notons
1 (B) := {x R; (x) B}.

Exercice 3.36. Montrer que si est continue par morceaux, 1 (B) est une runion
dnombrable dintervalles.
Grce lexercice prcdent et lidentit (3.46) plus bas, on peut considrer PX (1 (B))
et crire
PY (B) = P(Y B)
= P((X) B)
= P(X 1 (B))
= PX (1 (B))
F
ce qui spcifie la loi de Y. Avec B = n1 In o les In sont des intervalles disjoints, nous
avons
X
(3.37)
P(X B) =
P(X In ).
n1

(Notons que si B est la runion finie de N intervalles, on peut toujours prendre In =


pour n > N ). Or cette quantit est entirement dtermine par la fonction de rpartition
FX de X comme le montre la Proposition 2.9.
Par exemple, lorsque est une application strictement monotone son application
rciproque 1 est bien dfinie et en prenant B =] , y] nous obtenons lorsque est
strictement croissante
FY (y) = P((X) y)
= P(X 1 (y))
= FX (1 (y))
et lorsque est strictement dcroissante
FY (y) = P((X) y)
= P(X 1 (y))
= 1 FX ((1 (y)) )

Donnons quelques exemples dapplication de cette mthode.

3.7. FONCTIONS DUNE VARIABLE ALATOIRE

27

(a) Soit X une variable continue de densit fX continue par morceaux. On cherche la loi
de Y = aX + b avec a et b rels.
Remarquons avant tout que lorsque a = 0, Y vaut b quoiquil arrive, sa loi est donc
PY = b . On note en passant que ceci nous donne un exemple de (X) discrte alors
que X est continue.
Prenons maintenant a 6= 0 et calculons la fonction de rpartition de Y = aX + b.
Si a > 0, FY (y) = P(aX + b y) = P(X (y b)/a) = FX ((y b)/a). Ce qui
donne fY (y) = FY (y) = fX ((y b)/a)/a.
Si a < 0, FY (y) = P(aX + b y) = P(X (y b)/a) = 1 FX ((y b)/a). Ce
qui donne fY (y) = FY (y) = fX ((y b)/a)/a.
Finalement, nous obtenons dans les deux cas
fX ((y b)/a)
, yR
(3.38)
fY (y) =
|a|

(b) Soit X une variable alatoire quelconque, la fonction de rpartition FY de Y = X 2


sexprime en fonction de FX de la manire suivante. Pour tout y 0,
FY (y) = P(X 2 y)

= P( y X y)

= FX ( y) FX (( y) )

alors que pour tout y < 0, FY (y) = 0.


En particulier, si X admet une densit fX continue par morceaux, FX est drivable partout sauf en un nombre fini de points et FX = fX . Par consquent Y admet
la densit (dfinie partout sauf en un nombre fini de points)

fX ( y) + fX ( y)

(3.39)
fY (y) = FY (y) = 1(y>0)
.

2 y
Exemple 3.40. Si X est langle de la flche de lExemple 2.17 et Y = X 2 ,

fX (x) = 1[0,2[ (x)/(2) et avec (3.39) : fY (y) = 1[0,42 [ /(4 y) de sorte que
Z 2 2
4
x
2
dx = 2
E(X ) =
2
3
0
Z 42
y
4
E(Y ) =
dy = 2
4
3
0
On constate bien videmment que E(Y ) = E(X 2 ).

(c) Les choses sont plus simples si lon considre Z = X 3 . En effet, pour tout z R,
nous avons
FZ (z) = P(X 3 z) = P(X z 1/3 ) = FX (z 1/3 ).
La simplicit de ce calcul vient du fait que z 3 est injective, alors que la non-injectivit
de z 2 crait quelques difficults dans lexemple prcdent. Si X admet une fonction
de densit continue par morceaux, Z = X 3 admet la fonction de densit
fX (z 1/3 )
.
3z 2/3
Notons que cette fonction nest pas dfinie en z = 0, mais a nest pas un problme puisque des fonctions de densit gales sauf sur un ensemble de longueur nulle
fZ (z) =

28

3. LOI ET ESPRANCE DUNE VARIABLE ALATOIRE

(Lebesgue-presque partout) correspondent la mme loi, voir la Proposition 3.43


plus bas.
3.8. Egalit en loi
Cette notion est spcifique la thorie des probabilits.
Dfinition 3.41 (Egalit en loi). Deux variables alatoires X1 et X2 construites
respectivement sur (1 , P1 ) et (2 , P2 ) sont gales en loi si et seulement si elles ont la
L
mme loi : PX1 = PX2 . On note dans ce cas : X1 = X2 .
Cela ne signifie pas que
(1) X1 = X2 ni mme que
(2) P(X1 = X2 ) = 1, mme lorsque (1 , P1 ) = (2 , P2 ).
Bien sr, (1) implique (2) qui implique lgalit en loi.
Lgalit en loi est la notion la plus faible permettant didentifier deux phnomnes
alatoires.
Exemples 3.42.
(1) On joue deux fois de suite pile ou face de sorte que 1 = {pp, pf, f p, f f } et
P1 = 14 (pp +pf +f p +f f ). On considre X1 dfini par : X1 (pp) = X1 (pf ) = 3

et X1 (f p) = X1 (f f ) = 5.
On lance un d de sorte que 2 = {a, b, c, d, e, f } avec P2 = 61 (a + b + c +
d + e + f ). On considre
X2 dfini par X2 (a) = X2 (b) = X2 (c) = 3 et
X2 (d) = X2 (e) = X2 (f ) = 5.
L
On voit que PX1 = PX2 = 21 (3 + 5 ), cest--dire X1 = X2 .
(2) Soit X la variable de lExemple 2.6 dont la loi est 14 0 + 21 1 + 41 2 . Montrer que
L

X = 2 X.

(3) Soit X une variable alatoire continue dont la densit est une fonction paire ;
L
fX (x) = fX (x), x. Alors nous avons X = X. En effet, pour tout rel y nous
avons
FX (y) = P(X y)
Z +
=
fX (x) dx
y
Z y
(a)
=
fX (z) dz

Z y
(b)
=
fX (z) dz

= FX (y)

o lgalit (a) sobtient avec le changement de variable z = x et (b) est une


consquence de la parit de fX .
Nous avons dj remarqu que les donnes de FX et PX sont quivalentes. On en
dduit le rsultat suivant.

3.9. DFINITION ABSTRAITE DE LA LOI DUNE VARIABLE ALATOIRE

29

Proposition 3.43. Deux variables alatoires X1 et X2 construites respectivement


sur (1 , P1 ) et (2 , P2 ) sont gales en loi si et seulement si elles ont la mme fonction
de rpartition :
FX1 = FX2 .
Si elles sont discrtes, cela
P signifie quil existe une suite (ventuellement finie) (xn )nN
de rels distincts telle que nN P1 (X1 = xn ) = 1 et
P1 (X1 = xn ) = P2 (X2 = xn ),

n N

Si elles sont continues, cela signifie que leurs densits ont le mme ensemble de points
de discontinuit (Cf. les Dfinitions 2.15 et 3.17) et quelles sont gales partout sauf
ventuellement sur cet ensemble de "longueur nulle". On dit alors quelles sont gales
Lebesgue-presque partout et on note
fX1 = fX2 ,

Lebesgue-p.p.

3.9. Dfinition abstraite de la loi dune variable alatoire


Spcifier compltement le comportement dune variable alatoire X devrait permettre
en principe dvaluer les quantits P(X B) pour toute partie B de R. Mais cela nest
possible que si lensemble {X B} est un vnement, cest--dire un lment de la tribu
A.
Lorsque X est une variable discrte, on peut prendre dnombrable et A = 2 de
sorte que pour tout B R, {X B} est un vnement.
Lorsque X est une variable alatoire continue, comme nous lavons dj voqu la
Remarque 2.24, les choses se compliquent du point de vue mathmatique : on ne peut
pas prendre nimporte quelle partie B. Les "bonnes" parties B de R sont celles de la
tribu de Borel.
Dfinition 3.44. La tribu de Borel de R est la plus petite tribu contenant lensemble
I de tous les intervalles de R. On la notera B.
Exercice 3.45. Montrer que si (A , T) est une collection quelconque de tribus
sur le mme ensemble , alors lensemble A constitu des parties de qui se
trouvent dans toutes les tribus A lorsque parcourt lensemble dindices , est aussi
une tribu.
La plus petite tribu contenant lensemble I de tous les intervalles de R est par dfinition lintersection de toutes les tribus contenant I. Cette intersection existe puisque
2R est une tribu qui contient I, de plus en tant quintersection de tribus, cest une tribu
daprs lexercice prcdent. Ceci justifie la dfinition de la tribu de Borel B.
On peut montrer, mais a nest pas simple, quil existe des parties de R qui ne sont
pas dans B.
On retiendra que la tribu de Borel contient toutes les runions dnombrables dintervalles.
F
Avec B = n1 In o les In sont des intervalles disjoints, nous avons
X
(3.46)
P(X B) =
P(X In ).
n1

30

3. LOI ET ESPRANCE DUNE VARIABLE ALATOIRE

(Notons que si B est la runion finie de N intervalles, on peut toujours prendre In =


pour n > N ). Or cette quantit est entirement dtermine par la fonction de rpartition
FX de X comme le montre la Proposition 2.9.
Dfinition 3.47. La loi de la variable alatoire (quelconque) X est la mesure de
probabilit PX sur (R, B) dfinie par
PX (B) = P(X B),

B B.

La connaissance de PX sur tous les intervalles de la forme ]a, b] permet de retrouver


FX (x) = P(X ] , x]) = limn PX (] n, x]), x R.
Rciproquement, si on se donne FX , grce la Proposition 2.9, PX est connue sur tous les
intervalles et par suite, grce (3.46), sur toutes les runions dnombrables dintervalles.
On peut montrer, mais cest assez dlicat et dpasse le niveau de ce cours, quen fait FX
spcifie PX compltement sur B.
En rsum, FX et PX encodent la mme information sur le comportement alatoire
de X.
De plus, PX nest autre que limage sur (R, B) de la mesure de probabilit P sur
(, A) par lapplication X :
PX = X#P.
La notion de mesure image est prsente lAnnexe ??.

CHAPITRE 4

Variables alatoires usuelles


Nous prsentons ici les lois des variables alatoires les plus usites. Certaines, comme
la loi normale, sont extrmement importantes tant sur le plan thorique que pratique
(utilisation trs frquente en statistique).

4.1. Exemples de variables alatoires discrtes


Nous prsentons dans cette section les lois de Bernoulli, binomiales, de Poisson et
gomtriques.
Loi de Bernoulli. Il sagit dune des lois les plus simples. La variable alatoire X
suit la loi de Bernoulli B(p) de paramtre 0 p 1 si sa loi est
PX = q0 + p1 .
Ceci signifie que X peut prendre les valeurs 0 et 1 avec les probabilits respectives
q = 1 p et p. On obtient immdiatement que EX = q0 + p1 = p et que puisque X 2 = X
sous cette loi, E(X 2 ) = p. Par consquent, VarX = p p2 = pq.
Une variante immdiate de cette loi est PY = qa + pb avec a, b rels. On a immdiatement EY = qa + pb et du fait que Y = a + (b a)X avec X B(p), VarY =
(b a)2 VarX = (b a)2 pq, grce la Proposition 3.32.
Loi binomiale. La variable alatoire X suit la loi binomiale B(n, p) de paramtres
n 1 et 0 p 1 si sa loi est
PX =

n  
X
n
k=0

pk q nk k

o comme prcdemment onpose


 q = 1 p. Ceci signifie que X peut prendre les valeurs
n k nk
0, 1, . . . , n avec P(X = k) =
p q
pour 0 k n. On constate quavec n = 1, on
k
retrouve B(1, p) = B(p).
Exercice 4.1.
(a) Vrifier que PX est une mesure de probabilit.
(b) Montrer que EX = np et VarX = npq.
31

32

4. VARIABLES ALATOIRES USUELLES

Solution. Nous donnons seulement la solution de EX = np. Nous avons


n
X
n!
pk q nk
EX =
k
k!(n k)!
k=0
n
X

(n 1)!
pk1 q nk
(k

1)!(n

k)!
k=0

n 
X
(a)
n 1 l n1l
= np
pq
l
= np

l=0

(b)

= np(p + q)n1
= np

o lon a effectu le changement de variable l = k1 en (a) (on notera que nk = n1l)


et utilis la formule du binme de Newton en (b).
Une indication pour calculer VarX : commencer par calculer E[X(X 1)] en procdant
dans le mme esprit que ce que nous venons de faire.

Loi gomtrique. La variable alatoire X suit la loi gomtrique G(p) de paramtre
0 < p 1 si sa loi est

X
PX =
q k1 pk
k=1

o comme prcdemment on pose q = 1 p. Ceci signifie que X peut prendre les valeurs
1, 2, . . . avec P(X = k) = q k1 p pour k 1.
Exercice 4.2.

(a) Vrifier que PX est une mesure de probabilit.


(b) Montrer que EX = 1/p.
P
k
Solution. P
On pose (q) =
k=0 q , 0 q < 1. On sait que
n
k
q n+1 )/(1 q) = 1/(1 q).
(q) = limn k=0 qP= limn (1
P
k1
k
De ce fait, PX (N) = p
=p
k=1 q
k=0 q = p/(1 q) = 1, ce qui montre (a).
GrcePau Thorme de drivation
sous le signe somme B.3, en drivant terme terme la
P
d
k
k1
(1/(1q)) = 1/(1q)2 ,
srie
q
on
obtient
kq
= (q) et puisque (q) = dq
k=0
k=1
P
on voit que EX = k=1 kq k1 p = p/(1 q)2 = 1/p.

Loi de Poisson. La variable alatoire X suit la loi de Poisson P() de paramtre
> 0 si sa loi est

X
k
e k .
PX =
k!
k=0

Ceci signifie que X peut prendre les valeurs 0, 1, 2, . . . avec P(X = k) = e k /k! pour
k 0 avec la conventions habituelles 0 = 1 et 0! = 1 de sorte que P(X = 0) = e .
Exercice 4.3.

(a) Vrifier que PX est une mesure de probabilit.


(b) Montrer que EX = VarX = .

4.2. EXEMPLES DE VARIABLES ALATOIRES CONTINUES

33

Solution. Commenons par rappeler que pour tout rel x


ex =

(4.4)

X xl
l

l0

On en dduit immdiatement que PX (N) = e


Montrons que EX = . Nous avons
EX =

ke

k0

= e
= e

k0

k /k! = e e = 1.

k X k
=
ke
k!
k!
k1

X k1
(k 1)!
k1
X l
l0

l!

= e e =

o lon a effectu le changement de variable l = k 1 et utilis la formule (4.4).


Calculons de faon similaire
E[X(X 1)] =

X
k0

k(k 1)e

= 2 e
= 2 e

k!

X k2
(k 2)!
k2
X l
l0

l!

X
k2

k(k 1)e

k!

= 2 e e = 2

On en dduit que VarX = E[X(X 1)] + EX (EX)2 = 2 + 2 = .

Exercice 4.5. En vous inpirant de la solution prcdente, montrer que pour tout
entier k 1, E[X(X 1) (X k + 1)] = k .
4.2. Exemples de variables alatoires continues
Nous prsentons dans cette section les lois uniformes, exponentielles, normales, Gamma
et de Cauchy.
Loi uniforme. Nous avons dj rencontr la variable U de loi uniforme sur [0, 1].
Ses fonctions de rpartition et de densit sont

0 si u 0
u si 0 u 1
FU (u) =
et fU (u) = 1(0u1) , u R.
1 si u 1

34

4. VARIABLES ALATOIRES USUELLES

z
1

z = FU (u)

1 u

z = fU (u)

Une variable alatoire X suit une loi uniforme sur [a, b] si elle a la mme loi (cest--dire
la mme fonction de rpartition) que a + (b a)U. Ses fonctions de rpartition et de
densit (voir (3.38)) sont

si x a
0
1(axb)
(x a)/(b a) si a x b
F (x) =
et f (x) =
, x R.
1
b

a
si x b
z

1/(b a)
|

z = F (x)

z = f (x)

On note U(a, b) la loi uniforme sur [a, b]. Nous avons donc
(4.6)

a + (b a)U U(a, b)

lorsque U U(0, 1).


Exercice 4.7. Vrifier que E(X) = (a + b)/2 et que Var(X) = (b a)2 /12.
Loi exponentielle. Une variable alatoire X suit la loi exponentielle de paramtre
, note E(), si ses fonction de rpartition et fonction de densit sont

0
si x 0
F (x) =
et f (x) = 1(x0) ex , x R.
1 ex si x 0
z

z
|

z = F (x)

z = f (x)

Exercice 4.8. Vrifier que E(X) = 1/ et que Var(X) = 1/2 .

4.2. EXEMPLES DE VARIABLES ALATOIRES CONTINUES

35

Cette variable alatoire sert souvent modliser des temps dattente. Elle intervient
de faon fondamentale dans la construction des processus de Markov temps continu que
lon rencontre lors de la modlisation de systme de files dattente (rseaux informatiques,
guichets, etc. . .).
Loi normale. Cest probablement la loi continue la plus importante. On lappelle
aussi loi de Gauss ou loi gaussienne. On dit quune variable alatoire Z suit une loi
normale centre rduite si sa fonction de densit est
 2
z
1
fZ (z) = exp
, zR
2
2
Cette loi est note N (0, 1).

v
|

1/ 2

z
2
1
1
2
0
Reprsentation graphique de v = fZ (z)
Il nexiste pas dexpression analytique de la fonction de rpartition de Z. On la note
traditionnellement
 2
Z y
z
1
exp
(4.9)
(y) = P(Z y) =
dz.
2
2

R
Toutefois,
on peut vrifier que limy+ (y) = R fZ (z) dz = 1. Pour cela posons
R
I = R fZ (z) dz. Nous avons par un simple jeu dcriture sur les variables dintgration
Z
Z
ZZ
2
I =
fZ (x) dx fZ (y) dy =
fZ (x)fZ (y) dxdy
R
R
R2
ZZ
ZZ
1
1
2
2
x2 /2 y 2 /2
=
e
e
dxdy =
e(x +y )/2 dxdy
2
2
R2
R2

 Z
Z 2
Z 2 Z
1
1
(a)
r 2 /2
r 2 /2
e
rdrd =
e
rdr
d
=
2 0
2
0
0
0
Z
(b)
=
eu du
0

= 1

36

4. VARIABLES ALATOIRES USUELLES

o nous avons effectu


en (a) : le changement de variables en coordonnes polaires : x = r cos , y = r sin
avec r 0 et 0 < 2 de sorte que r2 = x2 + y 2 et dxdy est remplac par rdrd;
en (b) : le changement de variable u = r2 /2.
Puisque I > 0 et I 2 = 1, nous venons de montrer que
Z
Z
1
z 2 /2

e
dz =
fZ (z) dz = 1.
(4.10)
2 R
R

Exercice 4.11. Vrifier que E(Z) = 0 et que Var(Z) = 1.


R
Solution. Lintgrale EZ = R zfZ (z) dz est nulle car la fonction z 7 zfZ (z) est
R
2
impaire et intgrable. Donc EZ = 0 et VarZ = EZ 2 = 12 R z 2 ez /2 dz. On effectue une
R
R
2
intgration par parties uv = [uv] u v avec u (z) = zez /2 et v(z) = z. Nous avons
R
R
2
2
2
2
+ R ez /2 dz =
u(z) = ez /2 et v (z) = 1, de sorte que R z 2 ez /2 dz = [zez /2 ]+

R
0 + 2 R fZ (z) dz. On en dduit avec (4.10) que EZ 2 = 1.

L

Exercice 4.12. Montrer que Z = Z.

R
Solution. Pour tout rel y, FZ (y) = P(Z y) = P(Z y) = y fZ (z) dz =
R
R
Ry
f (z) dz = y fZ (x) dx = fZ (x) dx = FZ (y) o nous avons utilis succesy Z
sivement la parit de fZ : fZ (z) = fZ (z) et le changement de variable x = z. Par
consquent Z et Z ont la mme fonction de rpartition.

Dfinition 4.13. De manire gnrale, une variable alatoire X est dite centre si
E(X) = 0 et rduite si Var(X) = 1.
Une variable alatoire X suit une loi normale de paramtres et 2 ( R, > 0)
note N (, 2 ), si elle peut scrire sous la forme
(4.14)

X = + Z

o Z suit une loi N (0, 1). Cette loi est note N (, 2 ).


Exercice 4.15. Vrifier que E(X) = et que Var(X) = 2 .
La fonction de rpartition de X est
F (x) = P(X x) = P( + Z x) = P(Z (x )/)
= ((x )/),

de sorte quavec f (x) = F (x), nous obtenons lexpression de la fonction de densit de


X suivante :


(x )2
1
exp
, x R.
(4.16)
f (x) =
2 2
2 2
La figure suivante donne la reprsentation graphique des densits de probabilit des lois
N (, 12 ) et N (, 22 ) avec 0 < 1 < 2 . On constate que ces densits sont symtriques
par rapport la moyenne et que les aires situes entre les courbes et laxe des x sont
les mmes pour les deux densits. De plus, la densit de N (, 12 ) est plus concentre
autour de la moyenne que celle de N (, 22 ).

4.2. EXEMPLES DE VARIABLES ALATOIRES CONTINUES

37

N (, 12 )

N (, 22 )

1
2
|

+ 1
+ 2

Lexercice suivant permet de donner une approximation de la fonction de rpartition


dfinie en (4.9) bien quon nen connaisse pas dexpression analytique exacte.
Exercice 4.17. Pour tout y > 0, nous avons
(a) P(Z y) = 1 (y)
(b) P(|Z| y)

/2
ey

y 2

et

/2
2ey

.
y 2

Solution. En remarquant que z/y 1 pour tout z y, nous avons


Z
1
2
ez /2 dz
P(Z y) =
2
y
Z
Z
1
1 z z2 /2
2

zez /2 dz
e
dz =

2 y
y 2 y
y
2

1
ey /2
2
= [ez /2 ]
y =
y 2
y 2
ce qui prouve (a). On en dduit (b) en remarquant que P(|Z| y) = P(Z y)+P(Z
y) = P(Z y)+P(Z y) = 2P(Z y) puisque Z a la mme loi que Z, voir lExercice
4.12.

Notons que les majorations de lexercice prcdent sont trs mauvaises pour y proche
de 0, puisquelles sont en 1/y au voisinage zro. En revanche ces estimes samliorent
beaucoup pour des grandes valeurs de y. On trouve P(|Z| 3) 0, 0533 ainsi que
P(|Z| 4) 0, 0021, P(|Z| 5) 3 105 et P(|Z| 6) 2 107 . En pratique,
cest--dire plus de 997 fois sur 1000, Z prend ses valeurs entre -4 et 4.

CHAPITRE 5

Fonctions gnratrices et caractristiques


Nous allons prsenter des mthodes efficaces pour calculer les moments de certaines
lois, ainsi que les lois de sommes de variables indpendantes. Nous commenons par tudier les variables alatoires valeurs entires, puis les variables gnrales.
Rappelons que le moment dordre k de la variable alatoire X est E(X k ), voir la Dfinition 3.33. Les principaux rsultats abstraits concernant les moments sont prsents en
Chapitre 13.
Dans ce qui suit on notera f (k) la drive dordre k de la fonction f.
5.1. Le cas des variables entires
On dit quune variable alatoire X est entire si elle prendPses valeurs dans lensemble
N des nombres entiers. sa loi est donc de la forme PX = n0 pn n . Cest le cas des
variables binomiales, gomtriques et de Poisson.

Dfinition 5.1. Soit X une variable entire. Sa fonction gnratrice est dfinie pour
tous 0 t 1 par GX (t) = E(tX ).

On remarque que puisque 0 t 1 et X est entier, nous avons 0 tX 1 de sorte


que 0 E(tX ) 1 est bien dfini. En notant pn = P(X = n), n N, nous obtenons bien
sr
X
X
(5.2)
GX (t) =
pn tn = p0 +
pn tn , 0 t 1
n0

n1

avec GX (1) = E(1) = 1 et GX (0) = p0 . Cette dernire galit est une convention puisque
GX (0) = p0 00 : nous avons choisi de prendre 00 = 1. Cette convention est justifie du
fait quelle garantit la continuit de GX (t) en t = 0. EnP
effet, grce au Thorme
B.2,
P
puisque 0 tX 1 est born, limt0 GX (t) = p0 + limt0 n=1 pn tn = p0 + n=1 0 = p0 .
Proposition 5.3. Pour tout entier k 1 tel que E(X k ) < , nous avons
(k)

(k)

E[X(X 1) (X k + 1)] = GX (1)

o GX (1) est la drive gauche dordre k de GX en 1.


On remarque que puisque X ne prend que des valeurs entires, X(X 1) (X
k + 1) = 0 si X {0, . . . , k 1} de sorte que X(X 1) (X k + 1) 0.
On appelle E[X(X 1) (X k + 1)] le k-ime moment factoriel de X.

Dmonstration. Du fait que E(X k ) < , nous avons aussi grce la Proposition
3.34 : E(X l ) < pour tous 1 l k. Ce qui implique clairement que E[X(X
1) (X l + 1)] < pour tous 1 l k.
Commenons par le cas k = 1 sous lhypothse EX < . On peut donc appliquer
le thorme de drivation sous le signe somme nonc au Thorme B.3 pour obtenir
39

40

5. FONCTIONS GNRATRICES ET CARACTRISTIQUES

P
P
P
GX (1) = n1 pn ntn1 |t=1 = n1 pn n puisque EX = n1 pn n < . En recommenP
P

n2
ant, on montre
de
mme
que
G
(1)
=
p
=
n n(n 1)t
|t=1
X
n2
n2 pn n(n 1) sous
P
lhypothse n2 pn n(n 1) = E[X(X 1)] < . En drivant k fois, nous obtenons
X
(k)
GX (1) =
pn n(n 1) (n k + 1) = E[X(X 1) (X l + 1)]
nk

sous lhypothse E[X(X 1) (X l + 1)] < .

Exemples 5.4.
(a) La loi de Bernoulli B(p) de paramtre 0 p 1 est PX = q0 + p1 o q = 1 p.
Par consquent, pour tout 0 t 1, GX (t) = qt0 + pt1 = q + pt. On a bien sr,
GX (0) = q, GX (1) = q + p = 1 et EX = GX (1) = p.
 
Pn
n k nk
(b) La loi binomiale B(n, p) de paramtres n 1 et 0 p 1 est k=0
p q k
k
Pn
P
de sorte que GX (t) = k=0 pk q nk tk = nk=0 (pt)k q nk = (q + pt)n en utilisant la
formule du binme de Newton. Avec n = 1, on retrouve la formule prcdente pour
B(p).
On obtient EX = GX (1) = np(q + pt)n1 t=1 = np(q + p) = np ainsi que E[X(X
1)] = GX (1) = n(n 1)p2 (q + pt)n2 t=1 = n(n 1)p2 . On en dduit que Var(X) =
E[X(X 1)] + EX (EX)2 = n(n 1)p2 + np (np)2 = npq.
P
n
/n! n de sorte que
(c) La loi de Poisson P() de paramtre > 0 est
n0 e
P
P

n
n

n
t
GX (t) = e
e = e(t1) . On a EX =
n0 /n! t = e
n0 (t) /n! = e
GX (1) = e(t1) |t=1 = , ainsi que E[X(X 1)] = GX (1) = 2 e(t1) |t=1 = 2 . On
en dduit que Var(X) = E[X(X 1)] + EX (EX)2 = 2 + 2 = .
P
P
(d) La loi gomtrique G(p) est n1 q n1 pn . Par consquent GX (t) = n1 q n1 ptn =
P
P
pt n1 (qt)n1 = pt n0 (qt)n = pt/(1 qt). On obtient donc EX = GX (1) =
[p(1 qt) + pqt]/(1 qt)2 |t=1 = 1/p.
Comme le montre le rsultat suivant, la fonction gnratrice permet de retrouver la
loi de X.
Proposition 5.5. Soit X une variable alatoire entire de fonction gnratrice GX .
Nous avons
(n)
pn = GX (0)/n!, n 0
(n)

o GX (0) est la drive n-ime droite de GX en 0.


Dmonstration. La preuve est analogue celle de la Proposition 5.3. En drivant n
P
(n)
kn
fois terme terme la srie (5.2), on obtient GX (t) =
=
k=n pk k(k1) (kn+1)t
P
(n)
kn
et en t = 0 : GX (0) = pn n! + 0.

pn n! + k=n+1 pk k(k 1) (k n + 1)t

De ce fait GX caractrise la loi de la variable entire X.


P
(n)
Un dveloppement illimit formel en t = 0 de GX donne GX (t) = n0 GX (0)/n! tn
(un tel dveloppement sappelle un dveloppement en srie entire). La proposition prcdente exprimeP
que lon peut identifier terme terme cette srie formelle avec la srie
(5.2) : GX (t) = n0 pn tn .

5.2. FONCTIONS CARACTRISTIQUES

41

5.2. Fonctions caractristiques


On considre maintenant une variable X gnrale. On cherche une fonction analogue
GX qui permette de calculer aisment laide de drivations successives les moments
de X. La gnralisation naturelle de la fonction X 7 tX lorsque X peut prendre des
valeurs non-entires sobtient en posant t = es ce qui nous donne X 7 esX . De sorte que
la gnralisation de GX (t) = EtX est LX (s) = EesX .
Dfinitions 5.6.
(1) La transforme de Laplace de la loi de X est dfinie par
s R 7 LX (s) = EesX [0, ]
(2) La transforme de Fourier de la loi de X est dfinie par
s R 7 X (s) = EeisX C

o i est le nombre imaginaire tel que i2 = 1. On appelle aussi X la fonction


caractristique de la loi de X.
Remarques 5.7.
(1) Puisque esX 0, son esprance LX (s) = EesX est toujours dfinie dans [0, ]
(en incluant la valeur +).
(2) De mme, eisX = cos(sX) + i sin(sX) est une variable borne et son esprance
X (s) = EeisX = E[cos(sX)] + iE[sin(sX)] est un nombre complexe bien dfini
puisque ses parties relle et imaginaire sont intgrables puisque bornes.
(3) En particulier, la fonction caractristique X (s) est dfinie pour tout rel s alors
quon peut avoir LX (s) = + pour tout s non nul comme par exemple lorsque
X suit une loi de Cauchy, voir (??).
(4) Lorsque X est une variable entire, nous avons LX (s) = GX (es ) et X (s) =
GX (eis ), s R.
Thorme 5.8.
(1) On suppose quil existe so > 0 tel que Eeso |X| < . Alors, pour tout k 1,
E|X|k < et
(k)

E(X k ) = LX (0).

(2) Sous les mmes hypothses quen (1), nous avons


(ln LX ) (0) = EX

et (ln LX ) (0) = VarX.

(3) Si E|X|k < alors X est k fois diffrentiable et


(k)

EX k = (i)k X (0).
La premire assertion du thorme montre que lhypothse Eeso |X| < faite en (1) et
(2) est bien plus restrictive que celle faite en (3). Ceci justifie lusage de la fonction caractristique plutt que celui de la transforme de Laplace dans certaines situations. Notons
que les calculs sont essentiellement les mmes avec LX et X du fait que formellement
X (s) = LX (is).

42

5. FONCTIONS GNRATRICES ET CARACTRISTIQUES

Dmonstration. Cest une application directe du Thorme B.3 de drivation sous


le signe somme.
Preuve de (1). Pour tout k, il existe c > 0 tel que |x|k c + eso |x| , x R. Par
consquent, E|X|k c + Eeso |X| < .
La drive k-ime de s 7 esX est X k esX . Or nous avons |X k esX | = |X|k esX c+eso |X|
ds que |s| s1 avec 0 < s1 < so pour une certaine constante c. Sous notre hypothse,
nous avons E|X k esX | c + Eeso |X| < pour tout s tel que |s| s1 , ce qui permet
dappliquer le Thorme B.3 de drivation en s = 0 (avec Y = c + eso |X| ). Ceci nous
(k)
donne LX (0) = E(X k e0.X ) = EX k qui est le rsultat annonc.
2
Preuve de (2). Nous avons (ln LX ) = LX /LX et (ln LX ) = LX /LX L2
X /LX . En
particulier en 0, nous obtenons grce (1), (ln LX ) (0) = LX (0)/LX (0) = EX puisque
2
2
2
LX (0) = 1 et (ln LX ) (0) = LX (0)/LX (0) L2
X (0)/LX (0) = EX (EX) = VarX.

Preuve de (3). Elle est analogue celle de la seconde partie de (1). La drive k-ime
de s 7 eisX est ik X k eisX . Or nous avons |ik X k eisX | = |X|k pour tout s et nous faisons
lhypothse que E|X|k < . laide du Thorme B.3 de drivation en s = 0 nous
(k)
obtenons X (0) = E(ik X k e0.X ) = ik EX k qui est le rsultat annonc.

P
(k)
Remarque 5.9. Le dveloppement formel en srie entire de LX : LX (s) = k0 LX (0)sk /k!,
(k)
peut nous permettre didentifier rapidement les drives LX (0) lorsquon en connat lexP
(k)
pression LX (s) = k0 ak sk . Nous avons alors LX (0) = k!ak , k 0.
Un raisonnement analogue fonctionne
lorsquon ne connat quun dveloppement limit
P
k
en 0 lordre K : LX (s) = K
a
s
+
sk (s), pour identifier les K premires drives
k=0 k
en 0 de LX .

Exemples 5.10.
(a) Loi de Poisson P(). En reprenant lExemple 5.4-(c), avec la Remarque 5.7-(4) nous
obtenons LX (s) = exp((es 1)) donc ln LX (s) = (es 1) de sorte que (ln LX ) (s) =
(ln LX ) (s) = es . Avec le Thorme 5.8-(2) on retrouve EX = VarX = .
(b) Loi gomtrique G(p). En reprenant lExemple 5.4-(d), avec la Remarque 5.7-(4) nous
obtenons LX (s) = pes /(1 qes ) donc ln LX (s) = ln p + s ln(1 qes ) de sorte que
s
s )+q 2 e2s
. Avec le Thorme
(ln LX ) (s) = 1 + qes /(1 qes ) et (ln LX ) (s) = qe (1qe
(1qes )2
2
5.8-(2) on retrouve EX = 1/p et on obtient VarX = (qp + q )/p2 = (1 p)/p2 .
R sx x
x,
dx =
(c) Loi
exponentielle
E().
Puisque
f
nous
avons
L
X (x) = 1{x0} e
X (s) = 0 e e
R (s)x
0 e
dx. Cette intgrale est convergente si et seulement si s < et dans ce
cas LX (s) = /( s). Nous sommes bien dans les conditions dapplication
P du Thorme 5.8-(1). Lorsque |s|/ < 1, nous avons LX (s) = 1/(1 s/) = k0 (s/)k =
P
(k)
sk k!
k
k0 k! k . En tenant compte de la Remarque 5.9, nous obtenons LX (0) = k!/ ,
donc EX k = k!/k .
Compte tenu de limportance des variables alatoires normales nous isolons le calcul
de leurs transformes de Laplace et fonctions caractristiques.

Proposition 5.11.
(1) Soit Z une variable alatoire normale standard : Z N (0, 1). Nous avons pour
2
2
tout rel s, LZ (s) = es /2 et Z (s) = es /2 .

5.2. FONCTIONS CARACTRISTIQUES

43

(2) Soit X une variable alatoire normale de loi N (, 2 ). Nous avons pour tout rel
2 2
2 2
s, LX (s) = es+ s /2 et X (s) = eis s /2 .
Dmonstration. Preuve de (1). Nous ne donnons que la preuve concernant LZ
en admettant que le lien formel X (s) = LX (is) est rigoureux dans ce cas. Cette identit
ncessite la notion de prolongement analytique (prolongement de R C) qui nest pas
du niveau de ce cours.
Pour tout rel s,
Z
1
2
esz ez /2 dz
LZ (s) =
2
ZR
1 szz2 /2
e
=
dz
2
R
Z
1 2
1
2
2
e 2 (z 2sz+s ) es /2 dz
=
2
R
Z
1
1
2
2
e 2 (zs) dz
= es /2
2
R
s2 /2
= e
R
1
2
o la dernire galit provient de R 12 e 2 (zs) dz = 1, la condition de normalisation
de la densit N (s, 1), voir (4.16).
2
En admettant Z (s) = LZ (is), on voit que Z (s) = es /2 .
Preuve de (2). Grce (4.14) nous avons X = +Z de sorte que LX (s) = Ees(+Z) =
es LZ (s) et X (s) = Eeis(+Z) = eis Z (s).


CHAPITRE 6

Couples alatoires
Beaucoup dnoncs probabilistes intressants sexpriment laide dune paire de
variables alatoires X, Y. Nous allons tudier le problme de leur variation conjointe sur
le mme domaine . Dans tout ce qui va suivre, les variables alatoires sont dfinies sur
le mme espace probabilis (, A, P).
6.1. Lois jointe et marginales
La loi du couple (X, Y ) est la mesure de probabilit PX,Y sur R2 qui est spcifie par
PX,Y (A B) = P(X A et Y B)

pour tous intervalles A et B. On appelle lois marginales du couple (X, Y ) les lois PX et
PY de X et de Y. Nous avons pour tous intervalles A et B,
PX (A) = PX,Y (A R)
PY (B) = PX,Y (R B)

Pour distinguer la loi PX,Y des lois marginales, on lappelle parfois la loi jointe de (X, Y ).
Exemple 6.1. Soit un couple alatoire (X, Y ) qui prend les valeurs (1, 3), (1, 4) et
(2, 4) avec les probabilits respectives 1/4, 1/8 et 5/8.
y
(3/4) 4
(1/4) 3

(1/8) (5/8)
b

(1/4)

1
2
(3/8) (5/8)

Sa loi est PX,Y = 41 (1,3) + 81 (1,4) + 58 (2,4) . Ses lois marginales sont PX = 83 1 + 85 2 et
PY = 14 3 + 43 4 .
6.2. Fonction de rpartition
Nous introduisons une notion de fonction de rpartition dun couple de variables
alatoires analogue celle des variables relles.
Dfinitions 6.2. Une application (X, Y ) : R2 est un couple alatoire si pour
tout x, y R, lensemble { ; X() x et Y () y} appartient A.
La fonction de rpartition jointe de (X, Y ) est la fonction FX,Y : R2 [0, 1] donne par
FX,Y (x, y) = P(X x, Y y).
45

46

6. COUPLES ALATOIRES

On montre aisment que pour tous a b, c d R

P(a < X b, c < Y d)


= FX,Y (b, d) FX,Y (a, d) FX,Y (b, c) + FX,Y (a, c).

+
b

En dautres termes, nous pouvons valuer la probabilit que le point alatoire (X, Y )
"tombe" dans la rgion rectangulaire ]a, b]]c, d] du plan R2 . En travaillant de faon
analogue la Proposition 2.9, on rcupre les probabilits de tomber dans des rgions
rectangulaires quelconques, puis leurs runions dnombrables, etc. . . De fil en aiguille,
il est possible de montrer, grce aux proprits des mesures de probabilit, lassertion
suivante :
Proposition 6.3. FX,Y spcifie de manire unique P((X, Y ) C) pour toutes les
parties ouvertes C de R2 . En dautres termes, FX,Y spcifie entirement le loi jointe PX,Y .
Les fonctions de rpartition marginales de X et de Y sont
FX (x) = P(X x) = lim P(X x et Y n)
n

= FX,Y (x, ) := lim FX,Y (x, y),


y

FY (y) = P(Y y) = lim P(X n et Y y)


n

= FX,Y (, y) = lim FX,Y (x, y),


x

On constate que, mme sur lExemple 6.1 qui est trs simple, la fonction de rpartition
FX,Y est pnible expliciter. En effet, elle ncessite de dcouper le plan en 5 zones
rectangulaires. Nous nemploierons donc que trs peu souvent les fonctions de rpartition
dans les calculs explicites.
6.3. Indpendance
Deux variables alatoires discrtes X et Y sont dites indpendantes si pour tous
x, y R, P(X = x et Y = y) = P(X = x)P(Y = y). Nous revisiterons plus en dtail
cette notion importante au Chapitre 9.

6.3. INDPENDANCE

47

Il est clair que cette dfinition de lindpendance ne peut pas tre conserve si lune
au moins des variables (par exemple X) est continue, puisque dans ce cas P(X = x) = 0,
pour tout x R. Nous adopterons la dfinition gnrale suivante.
Dfinition 6.4. Les variables alatoires X et Y sont dites indpendantes si
P(X x et Y y) = P(X x)P(Y y),

x, y R.

On vrifie que pour des variables alatoires discrtes, cette dfinition de lindpendance est quivalente celle rappele plus haut.
Une formulation quivalente est : X et Y sont indpendantes si et seulement si
FX,Y (x, y) = FX (x)FY (y),

x, y R.

Proposition 6.5. Soient X et Y deux variables alatoires indpendantes. Alors pour


toute runion dnombrable dintervalles A et B, nous avons
P(X A et Y B) = P(X A)P(Y B)

et pour toutes fonctions numriques continues par morceaux et , les variables alatoires (X) et (Y ) sont indpendantes.
Notons que lorsque X et Y sont des variables discrtes dont toutes les valeurs sont
isoles, toutes les fonctions et sont continues (en restriction X() et Y ()).
Ide de la preuve. Nous navons pas les outils suffisants pour donner une preuve
complte (donc une preuve) de ce rsultat. Notons toutefois quil est possible de montrer,
de faon similaire la preuve de la Proposition 6.3, que X et Y sont indpendantes si
et seulement si pour toutes runions dnombrables de parties ouvertes A et B de R,
P(X A et Y B) = P(X A)P(Y B).
Maintenant, nous pouvons crire pour toute paire douverts A, B :




1
1
P (X) A et (Y ) B = P X (A) et Y (B)

 

= P X 1 (A) P Y 1 (B)
= P((X) A)P((Y ) B)

o lavant-dernire galit est une consquence de lindpendance de X et Y et du fait que


et sont continues par morceaux, les ensembles 1 (A) et 1 (B) sont des runions
dnombrables douverts.

Cette notion mathmatique de lindpendance est cohrente avec la notion intuitive
que nous en avons. Pour tayer cette affirmation, donnons-en une illustration simple.
Exemple 6.6. Nous avons deux urnes contenant des boules de couleur numrotes.
La premire urne contient 5 boules numrotes : 1,2,3,4 et 5. Les boules 1,2,3 sont
jaunes et les boules 4,5 sont rouges.
La deuxime urne contient 3 boules numrotes : a,b,c. Les boules a,b sont vertes
et la boule c est bleue.
On note X et Y les numros alatoires des boules tires au hasard dans la premire et
la seconde urne. On suppose que ces tirages sont uniformes sur {1, 2, 3, 4, 5} et {a, b, c}.
De mme, on note U et V les couleurs alatoires des boules tires au hasard dans la
premire et la seconde urne : U = (X) et V = (Y ) avec (1) = (2) = (3) = jaune,

48

6. COUPLES ALATOIRES

(4) = (5) = rouge, (a) = (b) = vert et (c) = bleu. On a donc P(X = jaune) = 3/5,
P(X = rouge) = 2/5 ainsi que P(Y = vert) = 2/3, P(Y = bleu) = 1/3.
Si de plus ces tirages sont indpendants (au sens habituel du terme), on navantage aucun
couple de boules au dtriment dautres : la loi de (X, Y ) est uniforme sur {1, 2, 3, 4, 5}
{a, b, c}. On constate qualors X et Y sont des variables alatoires indpendantes au sens
mathmatique. En effet, pour tous A {1, 2, 3, 4, 5} et B {a, b, c},
#(AB)
#({1, 2, 3, 4, 5} {a, b, c})
#(A)#(B)
=
#({1, 2, 3, 4, 5}) #({a, b, c})
#(A) #(B)
=

5
3
= P(X A)P(Y B)

P((X, Y ) AB) =

En particulier, en prenant A = 1 (jaune) = {1, 2, 3} et B = 1 (vert) = {a, b} on


obtient
P(U = jaune, V = vert) = P((X, Y ) {1, 2, 3}{a, b})
= P(X {1, 2, 3})P(Y {a, b})
= P(U = jaune)P(V = vert)
et de mme pour les autres couleurs. Ce qui prouve lindpendance mathmatique de U
et V. Mais il est clair que si les tirages dans les deux urnes sont indpendants (au sens
habituel) il en est de mme pour les couleurs des boules tires.
Exercice 6.7. Soient X et Y deux variables alatoires indpendantes de fonctions
de rpartition FX et FY . Dterminer les lois de U = max(X, Y ) et V = min(X, Y ).
Solution. Du fait que pour tout t R, max(x, y) t (x t et y t),
FU (t) =
=
=
=

P(max(X, Y ) t)
P({X t} {Y t})
P(X t)P(Y t)
FX (t)FY (t)

o lon a fait usage de lindpendance dans lavant-dernire galit.


De mme, pour tout t R, min(x, y) > t (x > t) et (y > t), donc
1 FV (t) =
=
=
=

P(min(X, Y ) > t)
P({X > t} {Y > t})
P(X > t)P(Y > t)
[1 FX (t)][1 FY (t)]

do
FV (t) = 1 [1 FX (t)][1 FY (t)], t R.

ce qui dtermine la loi de V.

6.4. COUPLES DISCRETS

49

Exemple 6.8. On se donne deux variables alatoires X et Y indpendantes de lois


exponentielles E() et E(). Calculons laide de lexercice prcdent les lois de U =
max(X, Y ) et V = min(X, Y ).
Nous avons pour tout t 0, FX (t) = FY (t) = 0 et pour tout t 0, FX (t) = 1 et ,
FY (t) = 1 et . Par consquent pour tout t > 0,
fU (t) = FU (t) = fX (t)FY (t) + FX (t)fY (t)

= et (1 et ) + et (1 et )
et
1 FV (t) = [1 FX (t)][1 FY (t)]
= et et = e(+)t

Pour tout t 0, FU (t) = FV (t) = 0.


On constate que V = min(X, Y ) admet la loi exponentielle E( + ).
6.4. Couples discrets
Soit un couple de variables alatoires (X, Y ) prenant ses valeurs dans lensemble
produit X Y avec X = {x1 , . . . , xL } et Y = {y1 , . . . , yK }. Pour tout indice n = (l, k)
N := {1, . . . , L} {1, . . . , K}, on note zn = (xl , yk ). Cet ensemble tant fini, le couple
Z = (X, Y ) est une variable
valeurs dans X Y. Elle est donc de
P
P alatoire discrte
la forme PX,Y = PZ = nN pn zn = 1lL,1kK pl,k (xl ,yk ) avec pl,k = P((X, Y ) =
(xl , yk )) = P(X = xl et Y = yk ). Pour plus de clart, on note pl,k = pX,Y (xl , yk ) et on
peut regrouper lensemble de ces probabilits lmentaires en un tableau matriciel :
y1
y2

pX,Y (x1 , y1 ) pX,Y (x1 , y2 )


pX,Y (x2 , y1 ) pX,Y (x2 , y2 )
..
..
.
.

yK
Y
x1
pX,Y (x1 , yK ) pX (x1 )
x2
pX,Y (x2 , yK ) pX (x2 )
..
..
..
.
.
.
xL pX,Y (xL , y1 ) pX,Y (xL , y2 ) pX,Y (xL , yK ) pX (xL )
X
pY (y1 )
pY (y2 )

pY (yK )
1

dont lintrieur dcrit la loiPjointe de (X, Y ). Les lois marginales sont donnes par PX =
P
1lL pX (xl )xl et PY =
1kK pY (yk )yk avec
X
pX (xl ) =
pX,Y (xl , yk ), 1 l L
1kK

pY (yk ) =

1lL

pX,Y (xl , yk ),

1kK

puisque
pX (xl ) = P(X = xl ) = P(X = xl et Y Y) = P((X, Y ) {xl } Y) =
P
1kK P(X = xl et Y = yk ) et de mme pour pY (yk ).
Par consquent la dernire ligne du tableau est constitue des sommes par colonnes et
la dernire colonne des sommes par lignes : les marges du tableau spcifient les lois
marginales PX et PY .
De faon plus gnrale, soient X et Y deux variables alatoires valeurs dans des
ensembles dnombrables X et Y. Alors le couple (X, Y ) est valeurs dans lensemble

50

6. COUPLES ALATOIRES

dnombrable X Y (voir la Proposition A.4) et sa loi jointe est de la forme


X
PX,Y =
pX,Y (x, y)(x,y) .
xX ,yY

et on montre comme prcdemment la


Proposition 6.9. Les lois marginales sont PX =
avec
X
pX (x) =
pX,Y (x, y),
yY

pY (y) =

pX,Y (x, y),

xX

xX

pX (x)x et PY =

yY

pY (y)y

xX
y Y.

Exemple 6.10. Considrons les deux lois jointes spcifies par les tableaux suivants :
1
3 Y
-1
0,1 0,2 0,3
2 0,45 0,25 0,7
X 0,55 0,45
1

1
3 Y
-1
0,2 0,1 0,3
2 0,35 0,35 0,7
X 0,55 0,45
1

On constate que ces deux lois jointes sont distinctes bien quelles possdent les mmes
lois marginales. Par consquent la loi jointe PX,Y nest pas spcifie par la donne des
deux lois marginales PX et PY . Il y a plus dinformation dans lintrieur du tableau que
sur les marges.
P
Proposition 6.11. Soit (X, Y ) de loi PX,Y = xX ,yY pX,Y (x, y)(x,y) . Les variables
X et Y sont indpendantes si et seulement sil existe deux fonctions q : X [0, 1] et
r : Y [0, 1] telles que pour tous x X et y Y nous avons pX,Y (x, y) = q(x)r(y).
Dans ce cas, nous avons aussi
pX,Y (x, y) = pX (x)pY (y),

x X , y Y.

Dmonstration. Cest une consquence directe de la Proposition 6.5 en prenant


A = {x} et B = {y} avec x X et y Y.
Notons
aussi que lorsque pX,Y (x, y) = q(x)r(y), pX (x) = P
aq(x) pour toutP
x avec a =
P
r(y).
De
mme
pour
tout
y,
p
(y)
=
br(y)
avec
1
=
p
(y)
=
b
Y
yY
yY Y
yY r(y) =
ab. Finalement, r(x)q(y) = pX (x)pY (y)/(ab) = pX (x)pY (y).

Exemple 6.12. Considrons la loi jointe spcifie par le tableau
1
3
Y
-1 0,165 0,135 0,3
2 0,385 0,315 0,7
X 0,55 0,45
1
On constate quil possde la structure produit pX,Y (x, y) = pX (x)pY (y), x, y. Les variables X et Y sont donc indpendantes. On note que les lois marginales PX et PY sont
les mmes que celles de lExemple 6.10.

6.4. COUPLES DISCRETS

51

Puisque le couple discret (X, Y ) est une variable discrte valeurs dans lensemble
dnombrable X Y (voir la Proposition A.4) lesprance de (X, Y ) est donne par le
Thorme 3.10 qui dans ce cas prcis scrit
X
(6.13)
E(X, Y ) =
(x, y)pX,Y (x, y)
xX ,yY

et qui est correctement


dfinie ds lors que
P
E|(X, Y )| = xX ,yY |(x, y)|pX,Y (x, y) < .
On obtient immdiatement la

Proposition 6.14 (Linarit et croissance).


(1) En particulier, avec (x, y) = ax + by, nous obtenons la linarit de lesprance
E(aX + bY ) = aEX + bEY, a, b R

pour toute variables alatoires X et Y telles que E|X| < et E|Y | < .
Plus gnralement pour toutes fonctions et telles que E|(X, Y )| < et
E|(X, Y )| < et tous rels a, b, nous avons
E[a(X, Y ) + b(X, Y )] = aE(X, Y ) + bE(X, Y ).

(2) Si les fonctions , : X Y R sont telles que , alors E(X, Y )


E(X, Y ).
Dfinition 6.15. Nous dfinissons la covariance de (X, Y ) par
cest--dire

Cov(X, Y ) := E[(X EX)(Y EY )]


Cov(X, Y ) =

xX ,yY

(x EX)(y EY )pX,Y (x, y).

On dit que X et Y sont dcorelles si Cov(X, Y ) = 0.


Noter que,P
tout comme lesprance, la covariance nest pas toujours dfinie. Il faut
pour cela que xX ,yY |(x EX)(y EY )|pX,Y (x, y) < . On montrera au Corollaire
6.37 quune condition suffisante est que E(X 2 ) < et E(Y 2 ) < .
Un simple calcul nous mne
Cov(X, Y ) = E(XY ) E(X)E(Y ).

Proposition 6.16. Soient X et Y deux variables alatoires discrtes indpendantes.


(1) Pour toutes fonctions sur X et sur Y telles que E|(X)| < et E|(Y )| <
, nous avons
E[(X)(Y )] = E[(X)]E[(Y )].

(2) Si E|X| < et E|Y | < alors Cov(X, Y ) = 0.

Dmonstration. Preuve de (1). Avec la Proposition 6.11 nous avons


X
E[(X)(Y )] =
(x)(y)pX (x)pY (y)
xX ,yY

xX

(x)pX (x)

X
yY

= E[(X)]E[(Y )]

(y)pY (y)

52

6. COUPLES ALATOIRES

qui est le rsultat annonc.


Preuve de (2). Grce (1), nous avons E(XY ) = E(X)E(Y ) cest--dire Cov(X, Y ) =
0.

Lexercice suivant montre que la rciproque de lassertion (2) de cette proposition est
fausse.
Exercice 6.17.
(a) On considre le couple alatoire (X, Y ) dont la loi est uniforme sur les quatre points
du plan (1, 0), (0, 1), (1, 0) et (0, 1). Montrer que Cov(X, Y ) = 0 mais que X et
Y ne sont pas indpendantes.
(b) On considre le couple alatoire (X, Y ) dont la loi est uniforme sur les huits points
du plan daffixes eik/4 , 0 k 7.
1

/4

Montrer que Cov(X, Y ) = 0 mais que X et Y ne sont pas indpendantes.


Solution. Nous ne donnons que la solution de (a). Nous avons PX = PY = 14 1 +
1
+ 1 de sorte que EX = EY = 0. De plus XY = 0, donc EXY = 0 et Cov(X, Y ) = 0.
2 0 4 1
Dautre part X et Y ne sont pas des variables indpendantes puisque P(X = 1)P(Y =
0) = 14 21 = 1/8 6= 1/4 = P((X, Y ) = (1, 0)).

6.5. Couples continus
Par analogie avec les variables alatoires continues, nous introduisons la notion suivante.
Dfinition 6.18. Un couple alatoire (X, Y ) de fonction de rpartition jointe FX,Y
est dit continu, sil existe une fonction intgrable fX,Y : R2 [0, [ telle que
Z x Z y
FX,Y (x, y) =
fX,Y (s, t) dsdt, x, y R.

Dans ce cas, la fonction fX,Y est appele fonction de densit jointe du couple alatoire
(X, Y ).
On dduit de cette dfinition que si FX,Y est continment drivable alors
2
FX,Y (x, y).
xy
Proposition 6.20. Les lois marginales PX et PY admettent les densits
Z
fX (x) =
fX,Y (x, y) dy, x R
R
Z
fY (y) =
fX,Y (x, y) dx, y R

(6.19)

fX,Y (x, y) =

6.5. COUPLES CONTINUS

53

Dmonstration. Nous avons vu que les fonctions de rpartition marginales de X


 FX,Y (x, ) et FY (y) = FX,Y R(, y). En dautres termes, FX (x) =
Retx de RY sont FX (x) =
f (s, y) dy ds do il vient que fX (x) = R fX,Y (x, y) dy. De
R X,Y

R la mme manire,
nous obtenons que la fonction de densit marginale de Y est fY (y) = R fX,Y (x, y) dx. 

Dfinition 6.21. Par analogie avec (6.13) et la dfinition (3.18) qui est justifie par
le Thorme C.10, nous dfinissons (sans plus de justification cette fois-ci) lesprance
de la variable alatoire (X, Y ) par
ZZ
E(X, Y ) :=
(x, y)fX,Y (x, y) dxdy
R2
RR
pour toute fonction : R2 R telle que ||fX,Y soit intgrable et R2 |(x, y)|fX,Y (x, y) dxdy <
.
On dduit immdiatement de cette dfinition la

Proposition 6.22 (Linarit et croissance).


(1) En particulier, avec (x, y) = ax + by, nous obtenons la linarit de lesprance
E(aX + bY ) = aEX + bEY, a, b R

pour toute variables alatoires X et Y telles que E|X| < et E|Y | < .
Plus gnralement pour toutes fonctions et telles que E|(X, Y )| < et
E|(X, Y )| < , nous avons
E[(X, Y ) + (X, Y )] = E(X, Y ) + E(X, Y ).

(2) Si les fonctions , : R2 R sont telles que , alors E(X, Y )


E(X, Y ).
Comme pour les couples discrets nous dfinissons la covariance de (X, Y ) par
Cov(X, Y ) := E[(X EX)(Y EY )]
ZZ
=
(x EX)(y EY )fX,Y (x, y) dxdy.
R2

Noter que, tout comme lesprance, la covariance nest pas toujours dfinie. Nous verrons
au Corollaire 6.37 quil suffit pour cela E(X 2 ), E(Y 2 ) < .
Comme le montre la proposition suivante, la fonction de densit jointe dun couple
alatoire continu de variables indpendantes a une forme produit.
Proposition 6.23.
(1) Soit (X, Y ) un couple alatoire continu de fonction de densit jointe fX,Y . Sil
existe des fonctions g et h telles que
fX,Y (x, y) = g(x)h(y), x, y R,

alors X et Y sont des variables alatoires indpendantes. De plus, la fonction


de densit jointe scrit alors : fX,Y (x, y) = fX (x)fY (y).
(2) Soient X et Y des variables alatoires indpendantes qui admettent des fonctions
de densit fX et fY continues par morceaux. Alors la fonction de densit jointe
de (X, Y ) est
fX,Y (x, y) = fX (x)fY (y),

x, y R.

54

6. COUPLES ALATOIRES

Dmonstration. Preuve de (1). La premire partie de la proposition est presque


immdiate. La forme fX,Y (x, y) = fX (x)fY (y) sobtient par un raisonnement analogue
celui de la preuve de la Proposition 6.11.
Preuve de (2). Du fait des hypothses, FX et FY sont des fonctions drivables partout
sauf en un nombre fini de points. De ce fait, la fonction de rpartition jointe FX,Y (x, y) =
FX (x)FY (y) est partout drivable, sauf sur la runion dun nombre fini de droites (dont
laire est nulle et que lon peut exclure des intgrales doubles). En dehors de cet ensemble,
on peut appliquer (6.19) qui nous donne fX,Y (x, y) = FX (x)FY (y) = fX (x)fY (y). Ce qui
achve la preuve.

Le rsultat suivant est une consquence immdiate de la proposition prcdente.
Corollaire 6.24. Soit (X, Y ) un couple alatoire continu de variables indpendantes.
(1) Si E|X|, E|Y | < , alors Cov(X, Y ) = 0.

(2) Si E|(X)|, E|(Y )| < , alors E[(X)(Y )] = E(X)E(Y ).

Dmonstration. Immdiate.

Attention : Il existe des couples alatoires continus (X, Y ) de covariance nulle dont les
composantes X et Y ne sont pas indpendantes.
Exercice 6.25. Montrer, sans calculs explicites, que cest le cas pour le tirage alatoire uniforme dun point (X, Y ) du disque unit.
Au fait, quelle peut bien tre la fonction de densit jointe de ce couple alatoire ?
Exemple 6.26 (Laiguille de Buffon). Les lignes dquations y = n (n Z), sont
traces sur un plan et une aiguille de longueur unit est jete sur ce plan. Quelle est
la probabilit quelle intersecte lune des lignes ? On suppose que laiguille na pas de
prfrence de position ni de direction.
Cherchons la solution de ce problme. Soient (X, Y ) les coordonnes du centre de
laiguille et langle, modulo , de laiguille avec laxe des x. On note Z = Y Y
(Y est la partie entire de Y ) la distance du centre de laiguille la ligne immdiatement
en-dessous de lui. Nos hypothses se traduisent par
(a) Z est distribu uniformment sur [0, 1] : fZ = 1[0,1] .
(b) est distribu uniformment sur [0, ] : f = 1 1[0,] .
(c) Z et sont indpendantes : fZ, (z, ) = fZ (z)f ().
Par consquent, (Z, ) a pour fonction de densit jointe
f (z, ) =

1
1(0z1,0) .

A laide dun dessin, on constate quil y a intersection si et seulement si Z I avec




1
1
I = (z, ) [0, 1] [0, ]; z sin ou 1 z sin .
2
2

6.5. COUPLES CONTINUS

55

z
1
1 (sin )/2
(sin )/2

1/2

Le lieu des centres possibles de laiguille impliquant une intersection est en rouge.
Par consquent,
ZZ
P(intersection) =
f (z, ) dzd
I
!
Z 1
Z
Z 1 sin
2
1
=
dz +
dz d
0
1 21 sin
0
= 2/.
Buffon a effectivement mis en place cette exprience pour obtenir une valeur approche
de .
Exemple 6.27 (Loi normale bivarie). Soit f : R2 R la fonction dfinie par


1
1
2
2
(x 2xy + y )
f (x, y) = p
exp
2(1 2 )
2 1 2

o 1 < < RR
1. On vrifie que f est bien une fonction de densit jointe, cest--dire :
f (x, y) 0 et R2 f (x, y) dxdy = 1.
Exercice 6.28.
RR
(a) Vrifier que R2 f (x, y) dxdy = 1.

(b) Montrer que les lois marginales de X et de Y sont des lois normales centres rduites.
RR
(c) Montrer que Cov(X, Y ) = R2 xyf (x, y) dxdy = .
La fonction de densit jointe dune loi normale bivarie gnrale est plus complique.
On dit que (X, Y ) suit une loi normale bivarie de moyennes 1 et 2 , de variances 12
et 22 et de corrlation avec 1 < < 1, si sa fonction de densit jointe est donne par


1
1
p
(6.29)
f (x, y) =
exp Q(x, y)
2
21 2 1 2

o 1 , 2 > 0 et Q est la forme quadratique :


"
2

 
2 #

x 1
y 2
y 2
x 1
1
+
2
.
Q(x, y) =
1 2
1
1
2
2
Exercice 6.30. Montrer que

56

6. COUPLES ALATOIRES

(a) X N (1 , 12 ) et Y N (2 , 22 ),

(b) Cov(X, Y ) = 1 2 .

A laide de la Dfinition 6.36 plus bas du coefficient de corrlation Cor(X, Y ), lnonc


de (b) est Cor(X, Y ) = .
Proposition 6.31. Soit (X, Y ) un couple alatoire normal. Si Cov(X, Y ) = 0 alors
X et Y sont des variables alatoires indpendantes.
Ce rsultat est remarquable car en gnral la dcorrlation (covariance nulle) nimplique pas lindpendance, voir lExercice 6.17. Cest une proprit spcifique des couples
alatoires normaux.
Dmonstration. Compte tenu de lexercice prcdent, nous avons = 0. En injectant = 0 dans la formule (6.29), on obtient f (x, y) = fX (x)fY (y) (avec X N (1 , 12 )
et Y N (2 , 22 )) et on conclut avec la Proposition 6.23.


Exercice 6.32. Soit (X, Y ) un couple alatoire de fonction de densit jointe




x
1
f (x, y) = 1{x,y>0} exp y
, x, y R.
y
y
Trouver la loi marginale de Y.
R
Solution. Pour tout y 0, fY (y) = R f (x, y) dx = 0 et pour tout y > 0,


Z
Z
1
x
fY (y) =
f (x, y) dx =
exp y
dx = ey
y
y
R
0
 
1
puisque lon reconnat que x 7 1{x>0} y exp xy est la fonction de densit dune loi
(exponentielle). Par consquent Y E(1).

6.6. Fonctions caractristiques
On les dfinit de faon analogue aux transformes de Laplace et de Fourier des variables relles, voir la Dfinition 5.6.
Dfinitions 6.33.
(1) La transforme de Laplace de la loi de (X, Y ) est dfinie par
(s, t) R2 7 LX,Y (s, t) = EesX+tY [0, ]

(2) La fonction caractristique de la loi de (X, Y ) est dfinie par


(s, t) R2 7 X,Y (s, t) = Eei(sX+tY ) C

o i est le nombre imaginaire tel que i2 = 1.

On peut montrer, mais cette preuve est au del du niveau de ce cours, que la fonction
caractristique caractrise la loi PX,Y . Cest--dire que si nous connaissons X,Y , on
peut calculer PX,Y et quil ny a quune seule loi PX,Y qui admet X,Y comme fonction
caractristique. Un rsultat analogue est valide pour la transforme de Laplace sous
lhypothse que LX,Y est finie sur un voisinage ouvert de (0, 0).
Proposition 6.34. Soient (X, Y ) un couple discret ou continu.

6.7. INGALIT DE CAUCHY-SCHWARZ

57

(1) Les variables X et Y sont indpendantes si et seulement si la fonction caractristique de (X, Y ) satisfait
XY (s, t) = X (s)Y (t),

s, t R.

(2) Si les transformes de Laplace LX et LY sont finies au voisinage de zro, alors


X et Y sont indpendantes si et seulement si
LXY (s, t) = LX (s)LY (t),

s, t R.

Dmonstration. Preuve de (1). Soient X et Y indpendantes. laide de la


Proposition 6.16 et du Corollaire 6.24, on obtient XY (s, t) = Eei(sX+tY ) = E[eisX eitY ] =
EeisX EeitY = X (s)Y (t).
Montrons la rciproque. On se donne (X, Y ) tel que XY (s, t) = X (s)Y (t) pour tous
L
L
s, t. Soit (U, V ) un couple de variables indpendantes telles que U = X et V = Y.
Ceci implique bien sr que U = X et V = Y . Daprs ce que nous venons de
montrer, nous avons U,V (s, t) = U (s)V (t) = X (s)Y (t). Donc, U,V = X,Y . Mais
puisque les fonctions caractristiques caractrisent les lois (rsultat admis), ceci implique
L
(X, Y ) = (U, V ). Do le rsultat annonc.
Preuve de (2). Analogue celle de (1).

6.7. Ingalit de Cauchy-Schwarz


Cette ingalit permet de contrler en esprance les fluctuations jointes de (X, Y )
laide des variances individuelles de X et Y, voir le Corollaire 6.37 plus bas.
Thorme 6.35 (Ingalit de Cauchy-Schwarz). Pour tout couple alatoire discret
ou continu (X, Y ) nous avons

2
E(XY ) E(X 2 )E(Y 2 )

avec galit si et seulement sil existe a, b R dont lun au moins est non nul tels que
P(aX = bY ) = 1.
Il est entendu que dans lnonc de ce thorme que E|XY | < de sorte que les
intgrales qui interviennent sont bien dfinies, ventuellement valeurs infinie.
Dmonstration. On peut supposer sans perte de gnralit que E(X 2 ), E(Y 2 ) <
.
Pour tous a, b R, lesprance de la variable positive (aX BY )2 est positive. Donc


E (aX bY )2 = a2 E(X 2 ) 2abE(XY ) + b2 E(Y 2 ) 0

Si P(X = 0) = 1, lassertion est vidente.


Si P(X = 0) < 1, alors E(X 2 ) > 0 et lingalit ci-dessus peut tre vue comme
une
en a, b fix. Ceci implique que le discriminant rduit :
 inquation du second degr

b2 [E(XY )]2 E(X 2 )E(Y 2 ) est strictement ngatif (si a2 E(X 2 )2abE(XY )+b2 E(Y 2 ) >

0 pour tout a) ou nul (sil existe un a tel que a2 E(X 2 )2abE(XY )+b2 E(Y 2 ) = E (aX

bY )2 = 0).

58

6. COUPLES ALATOIRES

2
2
2
En choisissant b 6= 0, on obtient
 [E(XY )] < E(X )E(Y ) dans le premier cas et
[E(XY )]2 = E(X 2 )E(Y 2 ) lorsque E (aX bY )2 = 0, cest--dire lorsque P(aX bY =
0) = 1.


Dfinition 6.36. Le coefficient de corrlation de (X, Y ) est dfini par


Cov(X, Y )
.
Cor(X, Y ) = p
Var(X)Var(Y )

Pour que cette dfinition soit valide, il est ncessaire que E(X 2 ) < et E(Y 2 ) < et
que VarX, VarY > 0.
Une consquence simple de lingalit de Cauchy-Schwarz est le
Corollaire 6.37.
(1) Pour que Cov(X, Y ) soit dfini, il suffit que E(X 2 ), E(Y 2 ) < .
(2) Soit (X, Y ) tel que 0 < Var(X), Var(Y ) < . Alors
1 Cor(X, Y ) 1.

Dmonstration. Preuve de (1). Cest une consquence immdiate du Thorme


6.35 et du Corollaire 3.35.
Preuve de (2). On applique le Thorme 6.35 avec X EX et Y EY la place de X
et Y.


CHAPITRE 7

Fonctions dun couple alatoire


7.1. Quelques exercices corrigs
Exercice 7.1. Soient X et Y deux variables alatoires indpendantes de lois normales N (0, 1). Calculer la fonction de densit de W = X 2 + Y 2 .
Solution. Pour tout w 0,
ZZ
P(W w) =
(a)

(b)

{x2 +y 2 w}
Z
2
w
0



1
1 2
2
exp (x + y ) dxdy
2
2

1
exp(r2 /2)r drd
2

w/2

eu du

avec le changement de variable en coordonnes polaires en (a) et en posant u = r2 /2 en


u/2
(b). On constate que W admet la fonction de densit f (u) = 1(u0) e 2 . Cest--dire
que W suit une loi exponentielle de paramtre 1/2.

Attention. Ce nest pas parce que X est une variable alatoire continue quil en est
de mme pour Y = (X). Par exemple, considrer (x) = 3, x R.
Exercice 7.2. On se donne un couple alatoire (X1 , X2 ) de fonction de densit jointe
fX1 ,X2 et on considre le couple alatoire (Y1 , Y2 ) tel que
X1 = aY1 + bY2
X2 = cY1 + dY2
avec ad bc 6= 0. Cherchons la loi de (Y1 , Y2 ).

Solution. Pour cela, valuons pour tout ensemble B R2 (suffisamment rgulier)


la probabilit P((Y1 , Y2 ) B). Soit A limage de B par T (y1 , y2 ) = (ay1 + by2 , cy1 + dy2 )
qui est une bijection du fait de lhypothse ad bc 6= 0.
P((Y1 , Y2 ) B) = P((X1 , X2 ) A)
ZZ
=
fX1 ,X2 (x1 , x2 ) dx1 dx2
Z ZA
=
fX1 ,X2 (ay1 + by2 , cy1 + dy2 )|ad bc| dy1 dy2
B

o |ad bc| est la valeur absolue du jacobien de la transformation T. On en dduit que


(Y1 , Y2 ) est un couple alatoire continu de fonction de densit jointe :
fY1 ,Y2 (y1 , y2 ) = |ad bc|fX1 ,X2 (ay1 + by2 , cy1 + dy2 )

ce qui achve lexercice.

59

60

7. FONCTIONS DUN COUPLE ALATOIRE

En fait, le procd est gnral pour toute transformation bijective T.


Exercice 7.3. Soient (X, Y ) deux variables alatoires indpendantes exponentielles
de paramtre . Trouver la fonction de densit jointe de
U = X + Y,

V = X/Y

et montrer que ce sont des variables alatoires indpendantes.


Solution. On considre la transformation S donne par
S(x, y) = (x + y, x/y), x, y > 0.
Elle est bijective et son inverse S 1 donne par


uv
u
1
,
, u, v > 0
(x, y) = S (u, v) =
1+v 1+v
a pour jacobien




J(u, v) =

x
u

y
u

x
v

y
v




u
=
.

(1 + v)2

Par consquent, avec la formule de changement de variables


dxdy = |J(u, v)|dudv,
nous obtenons pour tout B R2 (suffisamment rgulier),

P((U, V ) B) = P(S 1 (U, V ) S 1 (B))


= P((X, Y ) S 1 (B))
ZZ
=
1(x>0,y>0) 2 exp((x + y)) dxdy
1
S (B)
ZZ
u
dudv
=
1(u>0,v>0) 2 exp(u)
(1 + v)2
B
Par consquent, (U, V ) admet la densit
u
fU,V (u, v) = 1(u>0,v>0) 2 exp(u)
(1 + v)2


1
2
= [ 1(u>0) u exp(u)] 1(v>0)
(1 + v)2
o la forme produit de la densit nous indique lindpendance de U et V.

7.2. Somme de deux variables alatoires indpendantes


Soient X et Y deux variables alatoires continues indpendantes de fonctions de densit fX et fY . Dterminons la loi de S = X + Y. Pour cela nous effectuons le changement

7.2. SOMME DE DEUX VARIABLES ALATOIRES INDPENDANTES

de variables

s = x+y

t = x

61

x = t
qui nous donne dsdt = dxdy et
y = st

FS (u) = P(X + Y u)
ZZ
=
1(x+yu) fX (x)fY (y) dxdy
R2
ZZ
=
1(su) fX (t)fY (s t)
R2

Z u Z
=
fX (t)fY (s t) dt ds

cette dernire galit est de au thorme de Fubini. Par consquent, S est une variable
alatoire continue de fonction de densit
Z
fX+Y (s) =

fX (x)fY (s x) dx.

Dfinition 7.4. Soient f et g deux fonctions numriques,


Z
f g(s) =
f (x)g(s x) dx, s R
R

est la convolue de f et g (si cette intgrale est bien dfinie). Lopration est le produit
de convolution.
On constate facilement que f g = g f. On vient de montrer le rsultat suivant.

Proposition 7.5. Soient X et Y deux variables alatoires continues indpendantes


de fonctions de densit fX et fY . Alors la somme X + Y est une variable alatoire
continue de fonction de densit
fX+Y = fX fY
Exercice 7.6. Soient X et Y deux variables alatoires indpendantes de lois respectives N (0, 2 ) et N (0, 2 ). Montrer que X + Y suit une loi N (0, 2 + 2 ).
Solution. Pour tout s R,

fX+Y (s) = fX fY (s)


Z
1
1
2
2
2
2

ex /(2 )
e(sx) /(2 ) dx
=
2
2
2
2


ZR
1 2 2
1
2
2
exp [x / + (s x) / ] dx
=
2
R 2
2 + 2
(x
2 2

Or, x2 / 2 + (s x)2 / 2 =

2
s)2
2 + 2

s2
.
2 + 2

Par consquent,





Z
1
1 s2
2
1 2 + 2
2
fX+Y (s) =
exp 2
(x 2
s)
exp
dx
2
2 + 2
2 2 2
+ 2
R


1
s2
= p
exp
2( 2 + 2 )
2( 2 + 2 )

puisque

2 2+
2



1 2 + 2
2
2
exp
dx = 1
(x 2
s)
2 2 2
+ 2
R

62

7. FONCTIONS DUN COUPLE ALATOIRE


2

2 2

en tant que fonction de densit de la loi N ( 2+ 2 s, 2 +


2 ).

On en dduit le rsultat suivant.

Proposition 7.7. Soient X1 et X2 des variables alatoires indpendantes de lois


respectives N (1 , 12 ) et N (2 , 22 ), alors X1 + X2 suit une loi N (1 + 2 , 12 + 22 ).

Dmonstration. La loi de (X1 , X2 ) est gale celle de (1 + 1 Z1 , 2 + 2 Z2 ) o


(Z1 , Z2 ) est un couple alatoire normal standard. Ce que nous crivons rapidement
L

(X1 , X2 ) = (1 + 1 Z1 , 2 + 2 Z2 ).
L

Par consquent, X1 + X2 = (1 + 2 ) + 1 Z1 + 2 Z2 . Mais, nous venons de montrer que


L p

1 Z1 + 2 Z2 = 12 + 22 Z avec Z N (0, 1). Ce qui achve la preuve.

Thorme 7.8. Soient X et Y deux variables alatoires (discrtes ou continues)


indpendantes de fonctions caractristiques X , Y et de transformes de Laplace LX et
LY .
(1) La fonction caractristique de X + Y est
X+Y (t) = X (t)Y (t),

t R.

(2) Si LX et LY sont finies au voisinage de zro, la transforme de Laplace de X +Y


est
LX+Y (t) = LX (t)LY (t), t R.

Dmonstration. Daprs la Proposition 6.34, X+Y (t) = X,Y (t, t) = X (t)Y (t)
et LX+Y (t) = LX,Y (t, t) = LX (t)LY (t).

Exercice 7.9 (Suite de lExercice 7.6). On reprend lExercice 7.6 laide du Thorme 7.8.
2 2

2 2

Solution. Grce la Proposition 5.11, X (t) = e t /2 et Y (t) = e t /2 . Le


2 2
2 2
2
2 2
Thorme 7.8 nous donne X+Y (t) = e t /2 e t /2 = e( + )t /2 qui est la fonction
caractristique de N (0, 2 + 2 ).


CHAPITRE 8

Conditionnement
8.1. Probabilit conditionnelle
Soit V A tel que P(V ) > 0. La probabilit de U conditionnelle V est dfinie par
la formule de Bayes
P(U V )
P(U |V ) :=
, U A.
P(V )
Puisque P(V |V ) = 1, lunivers de P(|V ) est restreint V .

U V
U

Proposition 8.1. La fonction densemble U 7 P(U |V ) est une mesure de probabilit


sur la tribu A ainsi que sur la tribu AV := {U V ; U A}, trace de A sur V. De plus,
AV A.
Dmonstration.
En effet, P(|V )F= P(V |V ) = 1 et si (Un )n1 est une suite de
F
1.9
U telle que n1 Un = , nous Favons n1 (Un FV ) = V et daprs la Dfinition
P
dune mesure
Pde probabilit, P( n1 Un |V ) = P( n1 (Un V ))/P(V ) = n1 P(Un
V )/P(V ) = n1 P(Un |V ); ce qui prouve que P(|V ) est une mesure de probabilit. 
Puisque P(|V ) est une mesure de probabilit, on peut dfinir la loi de (X, Y ) sous
P(|V ) par
PX,Y |V (C) := P((X, Y ) C|V )
pour C dans la tribu de Borel de R2 , ainsi quune esprance par rapport P(|V )
Z
E((X, Y )|V ) :=
(x, y) PX,Y |V (dxdy).
R

On voit aisment que


(a) lorsque (X, Y ) est un couple alatoire discret de loi
X
PX,Y =
pX,Y (x, y)(x,y)
xX ,yY

on a

PX,Y |V

E((X, Y )|V ) =

xX ,yY

1{(x,y)X(V )Y (V )}
pX,Y (x, y) (x,y)
P(V )

(x, y)

xX(V ),yY (V )

63

pX,Y (x, y)
;
P(V )

64

8. CONDITIONNEMENT

(b) lorsque (X, Y ) est un couple alatoire continu de loi


PX,Y (dxdy) = fX,Y (x, y) dxdy
on a
1{xX(V ),yY (V )}
fX,Y (x, y) dxdy
P(V )
ZZ
fX,Y (x, y)
E((X, Y )|V ) =
(x, y)
dxdy.
P(V )
X(V )Y (V )
PX,Y |V (dxdy) =

On note PX|V (dx) et PY |V (dy) les lois marginales de PX,Y |V (dxdy).


8.2. Conditionnement dans le cas discret
P
Soit (X, Y ) un couple alatoire discret de loi PX,Y = xX ,yY pX,Y (x, y)(x,y) . En
prenant V = {Y = y} avec y Y tel que pY (y) > 0, on obtient X(V ) Y (V ) = X {y}
et
X pX,Y (x, y)
PX,Y |Y =y =
(x,y)
p
Y (y)
xX
de sorte que

PX|Y =y =

pX|Y =y (x) x

avec

xX

(8.2)
(8.3)

pX,Y (x, y)
= P(X = x|Y = y) et
pY (y)
X
E((X)|Y = y) =
(x)pX|Y =y (x).
pX|Y =y (x) =

xX

De faon analogue, on montre que pour tout x X tel que pX (x) > 0,
X
PY |X=x =
pY |X=x (y) y avec
yY

(8.4)
(8.5)

pX,Y (x, y)
= P(Y = y|X = x) et
pX (x)
X
E((Y )|X = x) =
(y)pY |X=x (y).
pY |X=x (y) =

yY

On remarque quil suffit que E|(X)| < et E|(Y )| < pour que ces sommes soient
absolument convergentes.
Exemple 8.6. On reprend la loi jointe de lExemple 6.10 :
1
3 Y
-1
0,1 0,2 0,3
2 0,45 0,25 0,7
X 0,55 0,45
1

0,1
0,45
On voit que PX|Y =1 = 0,55
1 + 0,55
2 = 0, 1818 1 + 0, 8182 2 et que PY |X=2 =
0,25
= 0, 6429 1 + 0, 3571 3 .
0,7 3

0,45
0,7

1 +

8.3. CONDITIONNEMENT DANS LE CAS CONTINU

65

On a aussi E(X 2 |Y = 1) = 0, 1818 (1)2 + 0, 8182 22 = 3, 4546 et E(Y |X = 2) =


0, 64291 + 0, 35713 = 1, 7142.
Dfinition 8.7. Pour toutes fonctions et telles que E|(X)| < et E|(Y )| <
, on dfinit les variables alatoires
X
E((X)|Y ) =
1{Y =y} E((X)|Y = y)
yY

E((Y )|X) =

xX

1{X=x} E((Y )|X = x)

et on les appelle esprance de (X) sachant Y et esprance de (Y ) sachant X.


On note que E((X)|Y ) = (Y ) est la fonction de Y qui vaut E((X)|Y = y)
lorsque Y = y et E((Y )|X) = (X) est la fonction de X qui vaut E((Y )|X = x)
lorsque X = x.
Proposition 8.8. Pour toutes fonctions et telles que E|(X)| < et E|(Y )| <
, nous avons
E[E((X)|Y )] = E(X) et E[E((Y )|X)] = E(Y ).

Dmonstration. Nous avons


E[E((X)|Y )] =

pY (y)E((X)|Y = y)

yY

pY (y)

yY

(x)pX|Y =y (x)

xX

pY (y)

yY

XX

(x)

xX

pX,Y (x, y)
pY (y)

(x)pX,Y (x, y)

yY xX

(a)

XX

(x)pX,Y (x, y)

xX yY

(x)

xX
(b)

pX,Y (x, y)

yY

(x)pX (x)

xX

= E(X)
Nous avons pu commuter les sommes en (a) car la srie est absolument convergente. En
(b), nous avons fait usage de la Proposition 6.9. La seconde galit se prouve de faon
analogue.

8.3. Conditionnement dans le cas continu
Soit (X, Y ) un couple alatoire continu de loi PX,Y (dxdy) = fX,Y (x, y) dxdy. On ne
peut plus considrer aussi simplement que dans le cas discret le conditionnement par
Y = y car pour tout y nous avons P(Y = y) = 0 du fait que Y est une variable continue.

66

8. CONDITIONNEMENT

Nous allons donc introduire des notions analogues aux quantits discrtes sans les justifier
dans un premier temps. Nous en donnerons une justification un peu plus bas.
Pour tout y rel tel que fY (y) > 0, on dfinit les lois, densits et esprance conditionnelles

(8.9)
(8.10)

PX|Y =y (dx) = fX|Y =y (x) dx avec


fX,Y (x, y)
et
fX|Y =y (x) :=
fY (y)
Z
E((X)|Y = y) :=
(x)fX|Y =y (x) dx.
R

De faon analogue, on dfinit pour tout x rel tel que fX (x) > 0,

(8.11)
(8.12)

PY |X=x (dy) = fY |X=x (y) dy avec


fX,Y (x, y)
fY |X=x (y) :=
et
fX (x)
Z
E((Y )|X = x) :=
(y)fY |X=x (y) dy.
R

On remarque quil suffit que E|(X)| < et E|(Y )| < pour que ces intgrales
soient absolument convergentes.
Exemple 8.13. Le couple (X, Y ) suit la loi uniforme sur le domaine T = {(x, y)
R ; 0 x y 1}, cest--dire que sa loih est PiX,Y (dxdy) = fX,Y (x, y) dxdy avec
R1
R1 R1
R
fX,Y (x, y) = 2 1T (x, y) puisque T dxdy = 0 x dy dx = 0 (1 x) dx = [x x2 /2]10 =
1/2 : laire du triangle T vaut 1/2.
2

1
x

1x

R
Calculons la densit marginale fX . Pour tout x, fX (x) = 2 R 1((x,y)T ) dy. Donc, pour
x 6 [0, 1], (x, y) 6 T, y
R 1R et fX (x) = 0. Alors que pour tout 0 x 1, (x, y) T
x y 1 et fX (x) = 2 x dy = 2(1 x). On a donc fX (x) = 1{0x1} 2(1 x), x R.
1
Par consquent, si 0 x < 1, fY |X=x (y) = {xy1}
, y R. La loi de Y sachant X = x est
2(1x)
donc la loi uniforme sur [x, 1]. On en dduit que pour 0 x < 1, E(Y |X = x) = (1+x)/2.
Dfinition 8.14. Pour toutes fonctions et telles que E|(X)| < et E|(Y )| <
, on dfinit les variables alatoires
E((X)|Y ) = (Y ) o (y) = E((X)|Y = y), y R
E((Y )|X) = (X) o (x) = E((Y )|X = x), x R
et on les appelle esprance de (X) sachant Y et esprance de (Y ) sachant X.

8.3. CONDITIONNEMENT DANS LE CAS CONTINU

67

Proposition 8.15. Pour toutes fonctions et telles que E|(X)| < et E|(Y )| <
, nous avons
E[E((X)|Y )] = E(X) et E[E((Y )|X)] = E(Y ).

Dmonstration. Nous avons Z


E[E((X)|Y )] =
fY (y)E((X)|Y = y) dy
y
Z

Z
=
fY (y)
(x)fX|Y =y (x) dx dy
y
x
Z

Z
fX,Y (x, y)
=
fY (y)
(x)
dx dy
fY (y)
y
x
ZZ
=
(x)fX,Y (x, y) dxdy
R2
Z

Z
=
(x)
pX,Y (x, y) dy dx
x
y
Z
=
(x)fX (x) dx
x

= E(X)

Nous avons pu commuter les intgrales laide de leur convergence absolue. La seconde
galit se prouve de faon analogue.

Lensemble des dfinitions introduites en (8.9), (8.10), (8.11) et (8.12) est justifi par
lobtention de la Proposition 8.15 dont lnonc est analogue celui de la Proposition
8.8.
Exemple 8.16 (Suite deR lExemple 8.13). En appliquant
la Proposition
8.15, on
R1
R 1 1+x
obtient EY = E[E(Y |X)] = R (1 + x)/2fX (x) dx = 0 2 2(1 x) dx 0 (1 x2 ) dx =
[x x3 /3]10 = 2/3.
Dautre part, par symtrie on voit que fY (y) = fX (1 y) = 2y1{0y1} de sorte quon
R1
R
retrouve EY = R yfY (y) dy = 0 2y 2 dy = [2y 3 /3]10 = 2/3.

CHAPITRE 9

Indpendance (revisite)
Nous revenons dans ce chapitre sur la notion importante dindpendance que nous
avons dj aborde au Chapitre 6.
Lorsque je lance deux fois de suite une pice de monnaie en la faisant chaque fois
tourner sur elle-mme un grand nombre de fois, je peux me dire avec confiance que ces
deux expriences sont indpendantes lune de lautre. En revanche, si en guise de second
lancer je me contente de retourner la pice lissue du premier lancer, il est clair que les
deux expriences ne sont pas indpendantes.
Je lance maintenant ma pice n fois conscutivement de sorte que je peux de prendre
pour univers de lexprience = {p,f}n . On suppose que chaque lancer est indpendant
des autres, au sens habituel du terme. Ceci se traduit par le fait que chaque suite de lancers a la mme chance de se produire quune autre. On fait ici un raisonnement
intuitif liant la notion ressentie dindpendance celle de symtrie. Ce raisonnement
nest pas mathmatique, mais il simpose notre entendement. Nous devons traduire
lindpendance des lancers en travaillant, mathmatiquement cette fois-ci, avec la probabilit P qui est uniforme sur : P({}) = 2n , .
Exemple 9.1. Jai une pice de monnaie et un d. Je lance dabord la pice, puis
le d. Lunivers de lexprience est = {p,f} {1, 2, . . . , 6}. On suppose que ces deux
lancers sont indpendants lun de lautre de sorte que la probabilit P est uniforme sur
: P((p, 1)) = = P((f, 6)) = 1/12. On construit les variables alatoires X et Y comme
suit :
X() =

0 si {p} {1, 2, . . . , 6}
;
1 si {f} {1, 2, . . . , 6}

Y () =

0 si {p} {1, 2, 3, 4}
.
1 sinon

On voit que {X = 0} et {X = 1} sont respectivement les vnements qui correspondent


4
8
lobtention de pile et face. La loi de X est 12 (0 + 1 ) et celle de Y est 12
0 + 12
1 .
Les variables X et Y ne sont pas indpendantes.
En effet, si je sais que Y () = 0, et quon me demande de parier sur la valeur de X(),
jaurai avantage parier sur pile, cest--dire sur X() = 0. Ceci car Y () = 0 implique
que jai obtenu pile. Par consquent, linformation Y () = 0 ma permis dobtenir une
information sur X().
Voici une autre manire de voir que X et Y ne sont pas indpendantes. On me demande
de parier sur la valeur de Y (). Sans information supplmentaire, jai intrt parier
8
4
0 + 12
1 . En revanche, si je sais que jai obtenu pile, Y
sur 1, puisque la loi de Y est 12
vaudra 0 si mon d me donne 1,2,3 ou 4, soit 4 chances sur 6. Jai donc intrt parier
sur Y () = 0. Une information sur X ma permis de modifier mon pari concernant Y.
Ces deux variables ne sont donc pas indpendantes.
69

70

9. INDPENDANCE (REVISITE)

9.1. Dfinition
laide de lexemple suivant, nous allons justifier la dfinition mathmatique de
lindpendance de deux variables alatoires X et Y.
Exemple 9.2. On joue n + m fois pile ou face. Lunivers de notre exprience
est donc = {p,f}n+m et lon note i {p,f} le rsultat du i-me lancer ainsi que
= (1 , . . . , n+m ) , la description complte de lexprience. Une notation bien
pratique est celle fournie par les variables alatoires Zi : 7 Zi () = i {p,f},
1 i n + m ainsi que Z = (Zi )1in+m . On a videmment Z() = pour tout
et Zi est le rsultat du i-me lancer.
On prend n = 3 et m = 10. Les variables alatoires X et Y sont dfinies par
X =1+

3
X
i=1

i1

1{Zi =p} 2

et Y = 1 +

13
X
j=4

1{Zj =p} 2j1

de sorte que X est une variable discrte uniforme sur {1, . . . , 8} et Y est uniforme sur
{1, . . . , 1024}. Puisque X et Y sont construites respectivements sur des tirages distincts,
les trois premiers pour X et les autres pour Y, ces variables sont indpendantes (au sens
intuitif). La dfinition mathmatique de lindpendance devra donc tre cohrente avec
cette constatation.
Calculons
P(X A et Y B)
avec A {1, . . . , 8} et B {1, . . . , 1024}. Lespace est = {p,f}3+10 = {p,f}13 et
toutes les ralisations ont mme probabilit : P() = 213 , pour tout . Lvnement
(X = 3) est gal (Z1 = f, Z2 = p, Z3 = f). De mme, (Y = 6) = (Z4 = p, Z5 = f, Z6 =
p, Z7 = = Z14 = f). Et en explicitant tous les tirages, nous voyons que
(X = 3) = (Z1 = f, Z2 = p, Z3 = f, Z4 , . . . , Z14 {p, f})
(Y = 6) = (Z1 , Z2 , Z3 {p, f}, Z4 = p, Z5 = f, Z6 = p, Z7 = = Z14 = f)

On en dduit immdiatement que

(X = 3, Y = 6) = (Z1 = f, Z2 = p, Z3 = f, Z4 = p, Z5 = f, Z6 = p, Z7 = = Z14 = f).

Par consquent nous avons P(X = 3) = 23 , P(Y = 6) = 210 et P(X = 3, Y = 6) =


213 . Il en est de mme pour tous les vnements lmentaires (X = x, Y = y), de sorte
quen notant #A et #B les cardinaux de A et B, on obtient
(9.3)

P(X A, Y B) = (#A #B) 213


= (#A 23 ) (#B 210 )
= P(X A)P(Y B).

Maintenant, considrons deux fonctions s : {1, . . . , 8} R et t : {1, . . . , 1024} R ainsi


que les nouvelles variables latoires S = s(X) et T = t(Y ). Puisque S ne dpend que
des trois premiers tirages et T que des autres tirages, ces deux variables alatoires sont
indpendantes (au sens habituel du terme). Pour tous C, D R, en posant A = s1 (C)
et B = t1 (D), nous obtenons (S C) = (X A) et (T D) = (Y B). De sorte que
P(S C, T D) = P(X A, Y B) = P(X A)P(Y B)
= P(S C)P(T D)

9.2. PROPRITS LMENTAIRES

71

o la deuxime galit est (9.3).


Cet exemple a prpar le chemin pour la dfinition mathmatique suivante.
Dfinition 9.4. (Variables indpendantes)
(1) Deux variables alatoires X et Y sont dites indpendantes sous la probabilit P,
si pour toutes les runions dnombrables dintervalles A, B de R,
(9.5)

P(X A, Y B) = P(X A)P(Y B).

(2) Plus gnralement, k variables alatoires X1 , . . . , Xk sont dites mutuellement


indpendantes sous la probabilit P, si pour toutes les runions dnombrables
dintervalles A1 , . . . , Ak de R,
(9.6)

P(X1 A1 , . . . , Xk Ak ) = P(X1 A1 ) P(Xk Ak ).

On omettra en gnral de rappeler que des variables qui sont indpendantes le sont
sous P. Mais il convient de garder lesprit que lindpendance nest pas une proprit
qui ne concerne que les variables alatoires, mais en fait leur lien sous une probabilit P
donne.
Revenons maintenant lExemple 9.1. Puisque (X = 0, Y = 0) = {p} {1, 2, . . . , 6},
nous avons P(X = 0, Y = 0) = 4/12. Dautre part P(X = 0) = 1/2 et P(Y = 0) = 4/12,
de sorte que P(X = 0, Y = 0) 6= P(X = 0)P(Y = 0). On retrouve le fait que X et Y ne
sont pas indpendantes. En effet, il suffit pour cela que (9.5) soit invalid pour un couple
A, B.
Nous aurons besoin par la suite du rsultat prliminaire suivant.
Lemme 9.7. Pour que des variables alatoires X1 , . . . , Xk soient mutuellement indpendantes sous la probabilit P, il suffit que (9.6) soit satisfait pour des intervalles
A1 , . . . , Ak de R.
On peut mme choisir ces intervalles de la forme Ai =] , ai ] avec ai R, 1 i k.
On admet ce lemme dont la preuve est une jonglerie abstraite au sujet de la notion
de tribu.
9.2. Proprits lmentaires
Nous revisitons ici la Proposition 6.5 et sa preuve. Nous commenons par remarquer
que des fonctions de variables indpendantes restent des variables indpendantes.
Proposition 9.8. Soient X et Y des variables indpendantes ainsi que deux fonctions , : R R suffisamment rgulires (continues par morceaux, par exemple) pour
que S = (X) et T = (Y ) soient des variables alatoires. Alors S et T sont des variables
indpendantes.
Dmonstration. Soient C et D deux intervalles de R. On a pris et suffisamment
rgulires pour que 1 (C) R et 1 (D) R puissent tre approchs par des runions
finies dintervalles disjoints. savoir que (nous devons ladmettre au niveau de ce cours,

72

9. INDPENDANCE (REVISITE)

mais ce qui suit est trs naturel) :


P(S C) = P(X 1 (C)) = lim P(X kK IkK ),
K

P(T D) = P(Y (D)) = lim P(Y lL JlL ),


L

P(S C, T D) = lim P(X kK IkK , Y lL JlL ).


K,L

On a donc
P(S C, T D) =
(a)

(b)

lim P(X kK IkK , Y lL JlL )

K,L

lim

K,L

lim

K,L

lim

kK,lL

kK,lL

kK

P(X IkK , Y JlL )


P(X IkK )P(Y JlL )

P(X IkK ) lim

= P(S C)P(T D).

X
lL

P(Y JlL )

Lgalit (a) est satisfaite car les intervalles sont disjoints et lgalit (b) est vrifie grce
lindpendance de X et Y. Ce qui prouve lindpendance sous P de S et T.

Proposition 9.9. Soient X1 , . . . , Xm+n des variables mutuellement indpendantes
ainsi que : Rm R et : Rn R deux fonctions suffisamment rgulires (continues
par morceaux, par exemple) pour que S = (X1 , . . . , Xm ) et T = (Xm+1 , . . . , Xm+n )
soient des variables alatoires. Alors S et T sont indpendantes.
Dmonstration. La preuve de cette proposition est analogue celle de la proposition prcdente, en un peu plus technique. Les intervalles IkK et JlL doivent tre remplacs
par des produits cartsiens dintervalles. Nous omettons les dtails.

On rappelle maintenant le contenu des Propositions 6.16, 6.24 et 6.37.
Proposition 9.10. Soient X et Y deux variables indpendantes, discrtes ou continues.
(1) Alors pour toutes fonctions et telles que E|(X)| < et E|(Y )| < ,
nous avons E|(X)(Y )| < et E[(X)(Y )] = E[(X)]E[(Y )].
(2) Si E|X|2 < et E|Y |2 < alors Cov(X, Y ) = 0.

Proposition 9.11. Soient X1 , . . . , Xm+n des variables mutuellement indpendantes


ainsi que : Rm R et : Rn R deux fonctions telles que E|(X1 , . . . , Xm )| <
et E|(Xm+1 , . . . , Xm+n )| < . Alors, E(|(X1 , . . . , Xm )||(Xm+1 , . . . , Xm+n )|) < et
E[(X1 , . . . , Xm )(Xm+1 , . . . , Xm+n )] = E(X1 , . . . , Xm ) E(Xm+1 , . . . , Xm+n ).

Dmonstration. Cest une consquence directe des Propositions 9.9 et 9.10.

Proposition 9.12. Soient X et Y deux variables alatoires indpendantes telles que


E|X|2 < et E|Y |2 < . Alors, Var(X + Y ) = Var(X) + Var(Y ).
De faon plus gnrale, si X1 , . . . , Xn sont des variables alatoires mutuellement indpendantes telles que E|Xi |2 < pour tout 1 i n, alors Var(X1 + + Xn ) =
Var(X1 ) + + Var(Xn ).

9.3. CHANTILLONS

73

Dmonstration. Il suffit de prouver la premire partie car la seconde sen dduit


e := X EX et Ye := Y EY sont
aisment. Puisque X et Y sont indpendantes, X
indpendantes par la Proposition 9.9. On a donc
e + Ye )2
Var(X + Y ) = E(X
e 2 + 2E(X
e Ye ) + E(Ye )2
= E(X)
(a)

e 2 + 2E(X)E(
e
= E(X)
Ye ) + E(Ye )2

(b)

e 2 + E(Ye )2
= E(X)
= Var(X) + Var(Y )

e et Ye lgalit (a) et E(X)


e = E(Ye ) = 0
o nous avons invoqu lindpendance de X
lgalit (b).

9.3. chantillons
On se donne une loi de variable alatoire dtermine par la fonction de rpartition F
ainsi que X une variable alatoire suivant cette loi.
Dfinitions 9.13.
(1) On appelle copie de X toute variable alatoire X ayant la mme loi que X,
L
cest--dire telle que X = X .
(2) On dit dune suite finie (X1 , . . . , Xn ) quelle est indpendante pour signifier que
X1 , . . . , Xn sont mutuellement indpendantes.
(3) On dit dune suite infinie (Xi )i1 quelle est indpendante pour signifier que
pour tout n 2, la suite finie (X1 , . . . , Xn ) est indpendante.
Dfinitions 9.14.
(1) On dit dune suite finie (X1 , . . . , Xn ) quelle est un n-chantillon de (la loi de)
X si cest une suite indpendante de copies de X.
(2) On dit dune suite infinie (Xi )i1 quelle est un chantillon de (la loi de) X si
pour tout n 2, (X1 , . . . , Xn ) est un n-chantillon de X.
(3) On appelle moyenne empirique de (X1 , . . . , Xn ) la variable alatoire
n

1X
X n :=
Xi .
n i=1

Proposition 9.15. Soit (Xi )i1 un chantillon de la variable X telle que E|X|2 < .
Nous avons pour tout n,
EX n = EX

et VarX n =

VarX
.
n

Dmonstration. Par linarit de lesprance,


n

1
1X
EXi = nEX = EX.
EX n =
n i=1
n

74

9. INDPENDANCE (REVISITE)

Dautre part, avec les Propositions 3.32 et 9.12, nous voyons que
!
n
n
X
1
n
VarX
1 X
.
Xi = 2
VarXi = 2 VarX =
VarX n = 2 Var
n
n i=1
n
n
i=1

Ce qui achve la preuve.

Bien que simple, le lemme suivant a des consquences importantes en thorie des
probabilits.
Lemme 9.16.
(1) Soit Y une variable alatoire positive. Alors, pour tout a > 0,
EY
.
P(Y a)
a
(2) Soit X une variable alatoire de variance 2 finie. On note = EX. Pour tout
> 0,
P(|X | > ) 2 / 2 .

Dmonstration. Preuve de (1). Du fait que Y 0, nous avons a1{Y a} Y. En


en prenant lesprance, nous obtenons E[a1{Y a} ] EY, cest--dire aP(Y a) EY,
qui est le rsultat annonc.
Preuve de (2). Puisque P(|X | > ) = P(|X |2 > 2 ), cest une application directe
de (1) avec Y = |X |2 , de sorte que EY = 2 et a = 2 .


Thorme 9.17 (Loi faible des grands nombres). Soit (Xi )i1 un chantillon de la
variable X de variance 2 finie. On note = EX. Pour tout > 0 et tout n 1,
P(|X n | > )

2
.
n 2

En particulier, pour tout > 0,


(9.18)

P(|X n | > ) 0.
n

Dmonstration. Lingalit est une consquence immdiate de la Proposition 9.15


et du Lemme 9.16. La limite sen dduit.

En passant au complmentaire, on voit que (9.18) quivaut
P(|X n | ) 1,
n

> 0.

Puisque > 0 peut tre choisi arbitrairement petit, ceci nous dit que lorsque n tend vers
linfini, la moyenne empirique X n , qui est une variable alatoire, tend vers la moyenne
thorique = EX, qui est un nombre non-alatoire. Ce rsultat thorique est fondamental, on lappelle la loi des grands nombres.
Il permet entre autre, sur la base de lobservation dun grand chantillon de X destimer la moyenne thorique = EX que lon suppose inconnue laide de la moyenne
empirique observe X n (). Cest le principe de linfrence en statistique mathmatique.
En fait, lobservation dun grand chantillon de X permet aussi destimer la loi de X
et la limite, lobservation dun chantillon infini de X permettrait (en thorie, bien sr)
de reconstruire des approximations arbitrairement fines de la loi de X. Cest ce qunonce
le rsultat suivant.

9.3. CHANTILLONS

75

Thorme 9.19. Soit (Xi )i1 un chantillon de la variable alatoire X sans aucune
hypothse supplmentaire (pas besoin de variance finie, ni mme de E|X| < ). Considrons K intervalles I (1) , . . . , I (K) , par exemple une partition dont la runion recouvre
les valeurs possibles de X. On note pour tout 1 k K et tout n 1,

#{1 i n; Xi I (k) }
n
la proportion observe de valeurs de lchantillon "tombes" dans I (k) . Nous avons la loi
des grands nombres suivante :


(k)
(k)
P max |
pn P(X I )| 1, > 0.
(k)

p(k)
n = Yn =

1kK

Dmonstration. On note pour tout 1 k K et tout i 1,



1 si Xi I (k)
(k)
Yi = 1I (k) (Xi ) =
.
0 sinon
(k)

k fix, la suite (Yi )i1 est un chantillon de la variable Y (k) qui suit la loi de Bernoulli
(k)
(k)
B(p(k) ) avec p(k) = P(X I (k) ) = E(Y (k) ). Dautre part, pn = Y n est la moyenne
(k)
empirique des Yi , elle obit donc la loi des grands nombres nonce au Thorme
9.17. Par consquent, pour tout k,
(k)
P(|
p(k)
)| > ) 0, > 0.
n P(X I
n




(k)
(k)
pn P(X I (k) )| > . Donc,
Or, max1kK |
pn P(X I (k) )| > = 1kK |


X

(k)
(k)
(k)
P max |
pn P(X I )| >

P |
p(k)
)| >
n P(X I
1kK

1kK

0.

Ce qui achve la preuve de la proposition.

Les Thormes 9.17 et 9.19 qui sont des lois faibles des grands nombres, admettent
une amlioration dont la preuve dpasse le niveau de ce cours. Il sagit de la loi forte des
grands nombres.
Thorme 9.20 (Loi forte des grands nombres). Soit (Xi )i1 un chantillon de la
variable alatoire X telle que E|X| < . Alors il existe une partie N A telle que
P(N ) = 0 (dite P-ngligeable) telle que
n

lim X () = EX,

pour tout \ N.

En particulier, sans supposer que E|X| < , en notant pour tout n 1,


#{1 i n; Xi () I}
pn () =
n
la proportion observe de valeurs de lchantillon "tombes" dans un intervalle donn I,
il existe un ensemble P-ngligeable N tel que
lim pn () = P(X I),

pour tout \ N.

CHAPITRE 10

Construction dune variable alatoire relle gnrale


Donnons-nous une fonction F candidate tre une fonction de rpartition, cest-dire qui satisfait les conditions (1), (2) et (4) de la Proposition 2.8. Nous allons dcrire
un espace probabilis (, A, P) et construire explicitement une variable alatoire dont
la fonction de rpartition est effectivement F. Nous commenons par le cas particulier
dune rpartition uniforme sur [0, 1].
10.1. Construction dune variable alatoire continue uniforme
Soit X une variable alatoire uniforme sur lensemble des chiffres : {0, 1, . . . , 9}.
Construisons un chantillon (Xn )n1 de X, cest--dire une suite (Xn )n1 de copies indpendantes de X. Pour cela, on prend pour lensemble des suites = (1 , 2 , . . . )
valeurs dans {0, 1, . . . , 9} et on dfinit
Xn () = n {0, 1, . . . , 9},

, n 1

qui reprsente le rsultat du n-ime tirage. On prend pour A la plus petite tribu qui
contient toutes les parties de de la forme
n
\

i=1

{Xi Ai },

n 1, Ai {0, . . . , 9}, 1 i n

et on choisit une mesure de probabilit P qui satisfait


!
n
n
Y
\
#(Ai )
P
{Xi Ai } =
, n 1, A1 , . . . , An {0, . . . , 9}.
10
i=1
i=1
Cette
des vnements lmentaires, puisquil y a
Qn situation est celle de lquiprobabilit
n
n
i=1 #(Ai ) nombres parmi les 10 nombres entiers de [0, 10 1] dont le i-me chiffre
est dans Ai pour tout 1 i n.
On admet quune telle mesure de probabilit sur (, A) existe et est unique.
Pour tout n 1, on dfinit la variable alatoire
Un () = 0, 1 . . . n
n
X
i 10i
=

(dveloppement dcimal)

i=1

Il est clair que Un peut prendre 10n valeurs dans [0, 1[. Calculons sa fonction de rpartition. Bien sr, FUn (u) = 0, si u < 0 et FUn (u) = 1 si u 1. Soit maintenant 0 u < 1.
77

78

10. CONSTRUCTION DUNE VARIABLE ALATOIRE RELLE GNRALE

En notant u = 0, x1 x2 . . . son dveloppement dcimal,


FUn (u) = P(Un u)


= P { ; 0, 1 . . . n 0, x1 . . . xn xn+1 . . .}

= P {X1 x1 1} [{X1 = x1 } {X2 x2 1}]

[{X1 = x1 } {Xn1 = xn1 } {Xn xn 1}]



[{X1 = x1 } {Xn = xn }]

= 101 x1 + 102 x2 + + 10n xn + 10n


= 0, x1 x2 . . . xn + 10n .
1
FUn

10n
FU

1
u

0 si u 0
u si 0 u 1 , u R. Posons
Par consquent, lim FUn (u) = G(u) :=
n
1 si u 1
0

(10.1)

U () = lim Un () = 0, 1 2 . . . ,
n

Puisque sup |Un () U ()| 10n , pour tout > 0 et tout entier n suffisamment
grand pour que 10n , nous avons : {Un u } {U u} {Un u + }. Do
il vient que FUn (u ) FU (u) FUn (u + ). Ce qui en faisant tendre n vers linfini
nous donne G(u ) FU (u) G(u + ), puis en faisant tendre vers zro, nous donne
FU = G. Soit

0 si u 0
u si 0 u 1 , u R.
FU (u) =
1 si u 1
La loi de U, spcifie par sa fonction de rpartition FU , est appele loi uniforme sur [0, 1].
Sa fonction de densit est donne par

1 si u [0, 1]
fU (u) =
, u R.
0 sinon
On vient de construire U laide dune infinit dnombrable de tirages indpendants
uniformes dans {0, . . . , 9}.

Remarque 10.2. Lors de la preuve de la Proposition A.8, on montre que le procd


de construction (10.1) atteint tous les rels de [0, 1] une seule fois lexception de certains
qui sont atteints deux fois : les lments de D, lensembles des nombres dans [0, 1] qui
admettent un dveloppement
P il est aussi prouv que D est dnombrable
P dcimal fini. Or,
vient
de sorte que P(U D) = xD P(U = x) = xD 0 = 0 o lavant-dernire galitP
de P(U = x) = 0 pour tout x et la dernire a du sens car D tant dnombrable, xD
est une srie numrique.

10.2. CONSTRUCTION DUNE VARIABLE ALATOIRE RELLE GNRALE

79

10.2. Construction dune variable alatoire relle gnrale


La variable alatoire U va nous permettre de construire toutes les autres variables
alatoires sur (, A, P). Le procd de construction est le suivant.

Thorme 10.3. Soit une fonction F : R [0, 1], croissante et continue gauche
telle que limx F (x) = 0 et limx F (x) = 1. On dfinit son inverse sur ]0, 1[ par
(10.4)

F 1 (u) := inf{x R; F (x) u}, u ]0, 1[.

On considre U U(0, 1) une variable alatoire sur (, A, P) de loi uniforme sur ]0, 1[.
Alors
X = F 1 (U )

(10.5)

est une variable alatoire sur (, A, P) de fonction de rpartition F.

1
F
F 1

0
1

Preuve du Thorme 10.3. Rappelons que pour tout 0 u 1, FU (u) = P(U


u) = P(U < u) = u.
Si x est un point de continuit de F, alors F 1 (u) x u F (x), de sorte que
FX (x) = P(X x) = P(F 1 (U ) x) = P(U F (x))
= FU (F (x)) = F (x)

On note F (x+ ) et F (x ) les limites droite et gauche de F en x (ces limites existent


puisque F est suppose croissante). Si x est un point de discontinuit de F, alors F (x ) <
F (x) = F (x+ ), F 1 (u) < x u < F (x ) et F 1 (u) = x F (x ) u F (x).
Donc,
FX (x) = P(F 1 (U ) < x) + P(F 1 (U ) = x)
= P(U < F (x )) + P(F (x ) U F (x))
= F (x ) + [F (x) F (x )] = F (x).

Ce qui achve la preuve de FX = F et donc de la proposition.

Remarquons que nous avons dj montr la Proposition 2.8 que toute fonction de
rpartition jouit des proprits imposes F dans le Thorme 10.3. Nous en dduisons
le rsultat suivant.

80

10. CONSTRUCTION DUNE VARIABLE ALATOIRE RELLE GNRALE

Corollaire 10.6. Une fonction F est la fonction de rpartition dune variable alatoire si et seulement si F : R [0, 1] est croissante, continue gauche et satisfait
limx F (x) = 0 et limx F (x) = 1.
Exemples 10.7.
(a) Loi de Bernoulli B(p). Nous avons F (x) = q1[0,1[ (x) + p1[1,[ (x) avec p + q = 1, dont
linverse est F 1 (u) =
 1]q,1] (u), 0 u 1.
0 si U [0, q]
suit la loi B(p). On remarque que la longueur
Par consquent X =
1 si U ]q, 1]
de [0, q] est q = P(X = 0) et que celle de ]q, 1] est 1 q = p = P(X = 1).

(b) Loi exponentielle E(). Nous avons F (x) = 1{x0} (1 ex ) de sorte que F 1 (u) =
ln(1 u)/, u [0, 1[. On voit donc que X = ln(1 U )/ suit la loi E(). Or
L
U = 1 U, donc X = ln(U )/ E().
Attention, dans (10.5) F 1 nest pas linverse traditionnel de F mais seulement son
inverse gnralis. En particulier il nest pas vrai en gnral que F (X) = U, cest--dire
que F (X) soit une variable alatoire uniforme sur (0, 1).
Exercice 10.8.
(a) Soit X B(2, 1/2) la variable alatoire de lExemple 2.1, montrer que F (X) nest
pas uniforme sur (0, 1).
Calculer sa loi.
(b) Soit X une variable alatoire continue de fonction de rpartiton F, montrer que F (X)
est uniforme sur (0, 1).
Solution. Solution de (a). Puisque #(X()) = #({0, 1, 2}) = 3 et #(U ()) =
#([0, 1]) = , #(F (X())) 3 donc F (X) ne peut pas avoir la mme loi que U.
Plus prcisment, PX = 14 F (0) + 21 F (1) + 14 F (2) = 41 1/4 + 21 3/4 + 14 1 .
Solution de (b). Au dbut de la preuve du Thorme 10.3, nous avons vu que si x est
un point de continuit de F, alors pour tout 0 u 1, F 1 (u) x u F (x). Or,
sous notre hypothse, F est continue partout, donc pour tout 0 u 1,
P(F (X) u) = P(X F 1 (u))
(a)

= P(X > F 1 (u))

(b)

= 1 F (F 1 (u))

(c)

= 1u

o lgalit (a) est vraie car X est une variable continue, (b) vient de la dfinition de la
fonction de rpartition F et (c) se vrifie comme suit.
Pour tout 0 u 1, F (F 1 (u)) = F (inf{x; F (x) u}) = limx F (x) := F ( ) o
est lunique nombre tel que F ( ) u F (). Or F est suppose continue, donc
F ( ) = F (), ce qui implique que F ( ) = u et F (F 1 (u)) = u.
On en dduit que P(F (X) u) = 1 limvu (1 v) = 1 (1 u) = u pour tout
0 u 1, ce qui montre que F (X) suit une loi uniforme sur (0, 1).


CHAPITRE 11

Simulation dune variable alatoire


Il existe des algorithmes qui gnrent des suites de tirages pseudo-alatoires indpendants de loi U(0, 1) uniforme sur [0, 1]. La plupart des calculettes permettent dexcuter
de tels programmes, souvent baptiss rand1. En gnral leur conception repose sur des
proprits arithmtiques de certaines suites rcurrentes. Ces algorithmes sont dterministes, cest--dire quil nont rien dalatoire. Si vous utilisez le mme algorithme avec la
mme donne initiale, il vous donnera toujours la mme suite de nombres. De plus, ces
suites de tirages de valeurs numriques sont priodiques, mais avec une priode extrmement grande. Cest la raison pour laquelle ces gnrateurs sont appels pseudo-alatoires
plutt qualatoires.
11.1. Description rapide de certains gnrateurs
Une famille de gnrateurs populaire est celle des gnrateurs congruentiels linaires.
Ils gnrent des suites de nombres entiers (xn )n1 dans lensemble {0, . . . , m 1} o m
est un grand nombre. Il suffit ensuite de prendre un = xn /m pour obtenir une suite de
tirages (un )n1 dans [0, 1[ dont les valeurs sont des nombres arrondis avec une prcision
de lordre de 1/m. La suite (xn )n1 est solution de lquation de rcurrence
xn+1 = axn + b modulo m,

n0

en partant dune donne initiale entire x0 . On rappelle que x = r modulo m signifie


que r est le reste de la division euclidienne (celle de la petite cole) de x par m. En
dautres termes x = qm + r avec un quotient q entier et 0 r m 1. On constate
immdiatement quune telle suite est priodique (de priode au plus m). Il faut donc que
m soit trs grand. En choisissant intelligemment a et b, cette priode est effectivement
m. Dautre part il faut aussi choisir adquatement les nombres a, b et m pour que la
suite simule correctement de trs longues squences (de lordre de m/10) de tirages
uniformes et indpendants. En fait, le choix de ces paramtres est loin dtre vident et
est encore lobjet de recherche. La fonction rand de Scilab utilise les valeurs m = 231 ,
a = 843314861 et b = 453816693. La fonction grand de Scilab est base sur un type
de gnrateur dterministe plus performant dont la priode 219937 1 est fabuleuse. La
plupart des gnrateurs utilise la date et lheure de votre ordinateur pour dcider de la
valeur initiale x0 .
11.2. Simulation. Principe et applications
Nous appellerons U le rsultat dun tirage de loi U(0, 1). Puisque les ordinateurs
ont une prcision finie, les valeurs un que nous fournit notre gnrateur sont des tirages
1En

anglais, au hasard se dit at random qui vient de lancienne expression franaise "aller randon"
qui signifie avancer de faon dsordonne et que lon retrouve dans randonne.
81

82

11. SIMULATION DUNE VARIABLE ALATOIRE

uniformes sur un ensemble de grand cardinal et nous utilisons en fait une approximation
Um de la variable U dans le mme esprit que (10.1).
Principe gnral de la simulation. Ce principe est une application directe du
Thorme 10.3. Soit U1 , U2 , . . . un chantillon de la loi uniforme U(0, 1). Alors, grce
au Thorme 10.3, on sait que, F 1 dsignant linverse gnralis de la fonction de
rpartition F de la loi de X, voir (10.4),
Xi := F 1 (Ui ),

i1

dfinit un chantillon de la loi de X. Cest--dire une famille de copies indpendantes de


X. Ce principe sapplique donc lorsquon connat une expression de F 1 .
Variables discrtes. Dans le cas dune variable discrte, le principe prcdent correspond une manipulation intuitivement claire que nous allons dcrire. La mthode est
simple.
La variable discrte X que nous souhaitons
simuler prend ses valeurs dans {xk ; k K}
P
avec K {1, 2, . . .}. Sa loi scrit kK pk xk . On suppose sans perte de gnralit que
pk > 0 pout tout k.
On partitionne lintervalle ]0, 1] de sorte que
G
]0, 1] =
]uk1 , uk ]
kK

p1

p2

| |

||

0 u1
P

u2

kK

pk = 1
pk

| |

| |

uk1 uk

avec u0 = 0 et uk = 1ik pi , k K. La probabilit que la variable U de loi uniforme


sur (0, 1) tombe dans k-ime bote Bk =]uk1 , uk ] est
La variable

P(U Bk ) = P(uk1 < U uk ) = uk uk1 = pk ,

(11.1)

X=

kK

k K.

xk 1{U Bk }

qui vaut xk si et seulement si U Bk , k K a pour loi

kK

pk xk .

Exercice 11.2. Montrer que la variable X dfinie par (11.1) satisfait lgalit (10.5) :
X = F 1 (U ), du Thorme 10.3.
Exemples 11.3.

(a) Pour simuler un tirage du jeu de pile ou face il suffit de dcider pile si U [0, 1/2[ et
face si U [1/2, 1[.

(b) Pour simuler la variable alatoire X de lExemple 2.6, on dcide par exemple :
X() = 0 si U () [0, 1/4[, X() = 1 si U () [1/4, 3/4[, X() = 2 si U ()
[3/4, 1[.

11.2. SIMULATION. PRINCIPE ET APPLICATIONS

83

Ou bien, X() = 0 si U () [0, 1/8[[3/4, 7/8[, X() = 1 si U () [1/8, 1/2[[7/8, 1[,


X() = 2 si U () [1/2, 3/4[. Mais cest moins pratique.

(c) Pour simuler le premier instant X dapparition de pile lors dune suite de lancers
indpendants dune pice que nous avons rencontr lExemple 2.12-(b), on peut
inverser la fonction de rpartition : X() = 0 si U () [0, 1/2[, X() = 1 si
U () [1/2, 3/4[, X() = 2 si U () [3/4, 7/8[, . . .
Ou bien on peut dcomposer U () en base 2 et choisir pour X() la place de la
premire apparition de 1 dans cette dcomposition.
Variables exponentielles et variables de Poisson. Nous avons vu lExemple
10.7-(b) que
(11.4)

T = ln(U )/

suit une loi exponentielle E() lorsque U est une variable uniforme sur [0, 1]. Or le
gnrateur rand produit des ralisations indpendantes U1 , U2 , . . . de variables de loi
U(0, 1) uniforme sur [0, 1]. Par consquent (Ti )i1 , o Ti = ln(Ui )/, est une suite de
variables indpendantes de loi E(). La suite croissante (Sn )n1 dfinie par
n
X
Ti
Sn =
i=1

dcrit ce quon appelle un processus de Poisson de paramtre . Les Sn sont les instants
de ralisations de certains vnements alors que les Ti sont les temps dattente entre deux
vnements conscutifs.
Par exemple, les instants de dsintgration dun corps constitu dun lment radioactif
de composition pure sont trs bien dcrits par une telle suite alatoire. Le paramtre de
frquence est alors proportionnel la masse du corps et inversement proportionnel
la priode de demi-vie de llment.
Soit N le nombre doccurences dvnement pendant lintervalle de temps [0, 1]. En
dautres termes, N est spcifi par :
(11.5)

SN 1 < SN +1 .

On peut montrer que N est une variable alatoire de Poisson de paramtre . De faon
plus gnrale, le nombre dvnements pendant un intervalle de temps [s, t] est une
variable de Poisson de paramtre (ts). Cette proprit permet de simuler une variable
N de Poisson P(). En effet, (11.5) quivaut
N
+1
Y
i=1

Ui < e

N
Y

Ui .

i=1

De sorte que N + 1 est le nombre de fois quil faut multiplier entre eux des Ui U(0, 1)
indpendants, pour passer pour la premire fois en dessous de e .
Cette mthode de simulation dune variable de Poisson est plus performante que celle
base sur le principe gnral que nous avons prsente la Section 11.2.
Variables normales. On appelle couple alatoire normal standard un couple (X, Y )
de variables alatoires indpendantes normales standard X, Y N (0, 1). Lapplication
directe du Thorme 10.3 est compromise par le fait quil nexiste pas dexpression analytique de la fonction de rpartition de N (0, 1). A fortiori, nous navons pas dexpression

84

11. SIMULATION DUNE VARIABLE ALATOIRE

explicite de sa fonction rciproque. Nous allons toutefois contourner ce problme en rsolvant lexercice suivant.
Exercice 11.6. Soit (X, Y ) un couple normal standard. On dfinit (R, ) comme
tant les coordonnes polaires de (X, Y ), cest--dire

X = R cos
Y = R sin
avec R 0 et 0 < 2.
(X, Y )

Montrer que R et sont des variables indpendantes telles que R2 E(1/2) et


U(0, 2).
2

1 (x +y )/2
e
et notons
Solution. La densit de la loi de (X, Y ) est fX,Y (x, y) = 2
g(r, ) celle de (R, ), si elle existe. Soit T la transformation inverse de (r, ) 7 (x, y) =
(r cos , r sin ) de sorte que (R, ) = T (X, Y ).
On se donne une fonction borne rgulire quelconque sur [0, [[0, 2[. Nous avons

E(R, ) = E(T (X, Y ))


ZZ
1
2
2
=
(T (x, y)) e(x +y )/2 dxdy
2
2
Z ZR
1
2
=
(r, ) er /2 rdrd
2
[0,[[0,2[
ZZ
=
(r, )g(r, ) drd
R2

1
1[0,2[ () et gR (r) = 1[0,[ (r)rer /2 , en effectuant
avec g(r, ) = g ()gR (r) o g () = 2
un changement de variables en coordonnes polaires lavant-dernire galit. Puisque
g a la forme produit, R et sont indpendantes de densit gR et g . Les variables
R2 et sont donc aussi indpendantes.
Clairement, U(0, 2) et pour tout t 0,

R t r2 /2
Rt
2
P(R t) = P(R t) = 0 e
rdr = 0 es/2 ds/2 en faisant le changement de
variable s = r2 . On voit donc que la densit de la loi de S = R2 est 1[0,[ (s) 21 es/2 ,
cest--dire R2 E(1/2).


Il suffit maintenant de simuler (R, ) laide dun couple (U, V ) de variables indpendantes distribues uniformment sur [0, 1] dont la ralisation est donne par deux
valeurs conscutives du programme rand. On prend alors


2 ln U
R =
= 2V

11.3. HISTOGRAMMES

85

o lon a utilis (11.4) dans le calcul de R et (4.6) dans celui de . Finalement, nous
venons de montrer que le couple (X, Y ) donn par


X = 2 ln U cos(2V )
2 ln U sin(2V )
Y =
est un couple normal standard. Bien sr, avec un chantillon (Ui )i1 de U(0, 1),
p
p
2 ln U1 cos(2U2 ), 2 ln U1 sin(2U2 ),

p
p
2 ln U3 cos(2U4 ), 2 ln U3 sin(2U4 ), . . .

forme un chantillon de N (0, 1).


Dautre part, si Z N (0, 1), on sait que X = m + Z suit la loi normale N (m, 2 ). On
en dduit que

p
p
m + 2 ln U1 cos(2U2 ), m + 2 ln U1 sin(2U2 ),

p
p
m + 2 ln U3 cos(2U4 ), m + 2 ln U3 sin(2U4 ), . . .
forme un chantillon de N (m, 2 ).

11.3. Histogrammes
Un gnrateur rand parfait devrait produire une suite de ralisations de variables
alatoires
(1) de loi U(0, 1)

(2) qui sont mutuellement indpendantes.


Mais quest-ce que cela signifie et comment sen assurer ? En ce qui concerne lindpendance, le problme est assez dlicat et nous ne laborderons pas ici. Disons seulement
quil existe des tests statistiques dindpendance et quil est recommand que les gnrateurs pseudo-alatoires passent ces tests avec de faibles erreurs de premire et seconde
espces.
Revenons au premier point, savoir que la loi du pseudo-chantillon soit bien uniforme.
Puisque nous ne sommes pas en mesure de produire un argument de symtrie comme
lors dun jeu de pile ou face, notre seule faon de comprendre ce que signifie suivre une
loi donne (ici, uniforme) est de se rfrer une interprtation frquentielle. savoir que
si lon est face un trs grand nombre de ralisations conscutives, ces tirages se laisseront classs avec des proportions observes qui sont proches des proportions thoriques
attendues. Par exemple, si lon dcoupe le segment [0, 1] en 100 sous-intervalles de mme
longueur et quon observe 40 000 de ralisations, on sattend ce quil y ait peu prs
40 000/100=400 nombres dans chacuns des sous-intervalles, et ce avec des fluctuations
typiques de ce que la thorie des probabilits prvoit, ici de lordre de 20 ; on pense en
particulier au thorme central limite qui quantifie ces fluctuations lorsque la taille n de
lchantillon est grande.
Dans le sous-intervalle [a, b[ on attend donc une proportion (b a)/(1 0) = b a de
tirages U(0, 1) lorsque n est grand. Cest ce dont nous assure la loi des grands nombres
et que allons tester en construisant des histogrammes.

86

11. SIMULATION DUNE VARIABLE ALATOIRE

On partitionne un intervalle contenant toutes les valeurs possibles de la variable X


en un nombre fini K de sous-intervalles [ak1 , ak [, 1 k K. Les sous-intervalles (ou
classes) sur les bords pouvant ventuellement ne pas tre borns. Par exemple, si X est
une variable binomiale B(m, p), elle prend a priori les valeurs {0, 1, . . . , m} et on pourra
considrer les classes [0.5, 0.5[, [0.5, 1.5[, . . . [m 0.5, m + 0.5] qui encadrent de faon
symtrique les valeurs effectives de X.
On observe un chantillon de X de taille n, cest--dire les ralisations x1 = X1 (), . . . , xn =
Xn () de la suite de copies indpendantes X1 , . . . , Xn de X. On note pk la proportion
de xi dans la k-ime classe [ak1 , ak [, soit
n

pk (x1 , . . . , xn ) =

1X
1{xi [ak1 ,ak [} ,
n i=1

1 k K.

k est calcul de
Par dfinition, lhistogramme des observations est la figure suivante, o h
telle sorte que laire au-dessus de la k-ime classe soit pk .

k
h
pk

...

ak1

...

ak ak+1

Histogramme dun chantillon


Cest--dire
(11.7)

k (x1 , . . . , xn ) = pk (x1 , . . . , xn ) ,
h
ak ak1

1 k K.

Supposons que X soit une variable de densit fX . On sait que


Z ak
pk := P(X [ak1 , ak [) =
fX (x) dx,
ak1

de sorte que pk = (ak ak1 )hk en posant


R ak
fX (x) dx
a
,
(11.8)
hk = k1
ak ak1

1 k K,

qui nest autre que la valeur moyenne de fX sur la classe [ak1 , ak [. En traant le graphe
des hk en fonctions des classes [ak1 , ak [, on obtient lhistogramme thorique suivant.

11.3. HISTOGRAMMES

87

fX
hk

pk

...

...

ak ak+1

ak1

Histogramme thorique
La similarit des formules (11.7) et (11.8) justifie le mode de construction des histogrammes dchantillon. En effet, la courbe de lhistogramme thorique h est une simplification de la courbe de densit fX qui ne retient que linformation dappartenance aux
classes [ak1 , ak [. Dautre part, avec la loi forte des grands nombres nonce au Thorme
9.20, on sait que pour tout 1 k K, et P-presque toute ralisation ,
k (X1 (), . . . , Xn ()) = hk .
lim h

Par consquent, lorsque n et K sont grands, lhistogramme observ


X
1 , . . . , Xn )(x) =
k (X1 , . . . , Xn )1[a ,a [ (x)
x 7 h(X
h
k1 k
1kK

est proche de la densit thorique x 7 fX (x).

On voit donc que si lon sait que les (Xi )1in sont bien des copies indpedantes de
la loi de X, lhistogramme donne une approximation raisonnable de la densit fX lorsque
K et n sont grands.
Les figures suivantes sont les histogrammes 20 classes quilibres de 100, 1000,
10 000 et 100 000 tirages uniformes effectus laide du gnrateur rand de Scilab.
2.5

2.0
1.0

1.5

1.0
0.5

0.5

0.0
0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

0.0
0.0

0.1

0.2

n = 100

0.4

0.5

0.6

0.7

0.8

0.9

1.0

0.7

0.8

0.9

1.0

n = 1000

1.2

1.2

1.0

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.0
0.0

0.3

0.2

0.1

0.2

0.3

0.4

0.5

0.6

0.7

n = 10 000

0.8

0.9

1.0

0.0
0.0

0.1

0.2

0.3

0.4

0.5

0.6

n = 100 000

88

11. SIMULATION DUNE VARIABLE ALATOIRE

La ligne horizontale est laltitude 1, cest la densit thorique de U(0, 1). Attention,
les chelles verticales diffrent dune figure lautre.
Exemple 11.9. Soit la variable alatoire X valeurs dans [0, 2] de densit
x R.

fX (x) = 1[0,2] (x)x/2,

Sa fonction de rpartition vaut FX (x) = x2 /4 pour 0 x 2 et sa fonction rciproque

est FX1 (u) = 2 u, 0 u 1. De ce fait , avec U U(0, 1), la variable alatoire 2 U


L
a mme loi que X, ce qui scrit X = 2 U . Les histogrammes suivants de 100, 1000 et
30 000 copies indpendantes de X ont t obtenus avec rand.
1.2

1.0

1.0
0.8

0.6

0.5
0.4

0.2

0.0
0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

0.0
0.0

2.0

0.2

0.4

0.6

n = 100

0.8

1.0

1.2

1.4

1.6

1.8

2.0

n = 1000
1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

n = 30 000
On constate nouveau que plus n est grand, plus lhistogramme est proche du graphe
de la densit fX , qui est ici reprsent par le segment de droite oblique dquation y =
x/2.

CHAPITRE 12

Convergence des variables alatoires

89

CHAPITRE 13

Ingalits de convexit
On sintresse ici un lien entre les probabilits et les fonctions convexes. Les notions
de base concernant la convexit sont rappeles lAnnexe D.
Soient x, y 
Rd et 0 t 1. La mesure de probabilit sur Rd : (1 t)x + ty est
x avec la probabilit (1 t)
, voir les Remarques 3.7-(2&3) au sujet
la loi de Zt =
y avec la probabilit t
des variables discrtes valeurs dans un espace vectoriel. On a E(Zt ) = (1 t)x + ty, de
sorte que la dfinition (D.3) de la convexit de la fonction sur la partie convexe C de
Rd se rcrit
(EZt ) E(Zt ),
pour tout 0 t 1. Cette ingalit est en fait un cas particulier du rsultat gnral
nonc plus bas en (13.4).
Lemme 13.1 (Variable discrte). Soit X une variable alatoire discrte valeurs
dans une partie convexe C de Rd telle que EkXk < . Si de plus lune des proprits
suivantes est satisfaite
C est un ouvert
C est un ferm
X prend un nombre fini de valeurs
alors, EX C.
P
Dmonstration. Si X prend un nombre fini de valeurs, EX = nN pn xn est une
combinaison
linaire finie et on montre par rcurrence laide de la dfinition (D.2) que
P
nN pn xn C. Par exemple avec N = {1, 2, 3},


p2
p3
p1 x1 + p2 x2 + p3 x3 = p1 x1 + (p2 + p3 )
x2 +
x3
p2 + p3
p2 + p3
|
{z
}
C
{z
}
|
C

et ainsi de suite pour un nombre


LorsqueP
N = {1, 2, .P
. .} est infini,
Pm fini de valeurs.
P
m
nous avons en posant m = n=1 pn , EX = n1 pn xn = n=1 pn xn + n>m pn xn =
P
Pm pn
Pm pn
P
pn
x
+
x

C
puisque
p
x
.
Or,
m m
n
n
n
n
n=1 m = 1, limm m = 1
n>m
n=1 m
n=1 mP
et limm n>m pn xn = 0. Donc, EX appartient la fermeture de C dans Rd .
Si C est ferm, nous venons de montrer que EX C.
Si C est ouvert, il estP
gal son intrieur. Donc x1 est dans lintrieur de C. On en
dduit que EX = p1 x1 + n>1 pn xn est dans lintrieur de C; donc dans C.

Exercice 13.2. Justifier les dernires lignes de la preuve prcdente.

Proposition 13.3 (Ingalit de Jensen). Soient : C R une fonction convexe


diffrentiable sur la partie ouverte convexe C de Rd et X une variable alatoire valeurs
91

92

13. INGALITS DE CONVEXIT

dans C telle que E|(X)| < et EkXk < . Alors,

(13.4)

(EX) E(X).

Dmonstration. Du fait des hypothses E|(X)| < et EkXk < les esprances que nous considrons sont bien dfinies. Nous avons avec la Proposition D.5 :
(x) (a) + h (a), x ai pour tous x, a C. Puisque C est un ensemble convexe,
le Lemme 13.1 nous dit que EX appartient aussi C. En prenant a = EX dans lingalit prcedente, nous obtenons (X) (EX) + h (EX), X EXi. En prenant
les esprances, la linarit et la croissance de lesprance nous assurent de E(X)
(EX) + h (EX), E(X EX)i = (EX) puisque E(X EX) = 0. Ce qui achve la
dmonstration.

Remarques 13.5.
(1) Le Lemme 13.1 reste vrai pour toute partie convexe C de Rd . La preuve de
cette extension ncessite une tude des proprits lmentaires des ensembles
convexes de Rd que nous ne ferons pas ici.
(2) Lingalit de Jensen reste vraie lorsque la fonction convexe nest pas diffrentiable et C nest pas un ouvert. Il suffit pour cela de tenir compte de
la remarque (1) prcdente et de remplacer (x) (a) + h (a), x ai par
(x) (a) + h, x ai o = (a) + h, u ai, avec Rd , est lquation en
(u, ) Rd R dun hyperplan "tangent" au graphe de en a. Cest--dire un
hyperplan passant par (a, (a)) et tel que le graphe de soit entirement dans
le demi-espace "suprieur" dlimit par cet hyperplan.
En dimension 1 avec (x) = x2 , on retrouve E(X 2 ) (EX)2 , cest--dire Var(X) 0.
Avec (x) = eax , on obtient ln EeaX aEX, a R.
En appliquant lingalit de Jensen la fonction convexe (x) = kxkp , x Rd avec
p 1 (voir lExercice D.7), on obtient kEXkp E[kXkp ], p 1. Avec p = 1, nous avons
kEXk EkXk et en regroupant ces rsultats :
kEXk EkXk E[kXkp ]1/p ,

p 1.

Corollaire 13.6. Soient 0 < p q et X une variable alatoire sur Rd telle que
E[kXkq ] < . Alors,
E[kXkp ]1/p E[kXkq ]1/q .

Dmonstration. La fonction (y) = y q/p , y 0 est convexe puisque q/p 1.


Avec Y = kXkp , nous avons kXkq = (Y ) et avec lingalit de Jensen : E[kXkp ]q/p =
(EY ) E(Y ) = E[kXkpq/p ] = E[kXkq ] qui est le rsultat annonc.

En particulier, avec 1 = p q nous retrouvons EkXk E[kXkq ]1/q .

ANNEXE A

Dnombrabilit
Un ensemble est dnombrable si on peut le dnombrer, cest--dire coller un numro
distinct sur chacun de ses lments. Lensemble de tous les numros possibles tant
lensemble N des entiers naturels, nous arrivons la dfinition abstraite suivante.
Dfinition A.1. Un ensemble E est dit dnombrable sil existe une injection de E
dans N.
Remarques A.2.
(1) Appelons : E N une telle injection. Alors son application rciproque 1 :
(E) E est une bijection, cest lapplication qui tout numro pris dans
(E) N associe un lment unique de E.
(2) Bien sr, tout ensemble fini est dnombrable et N est dnombrable.
(3) De mme, tout sous-ensemble dun ensemble dnombrable est dnombrable et
par contraposition, tout ensemble contenant une partie non-dnombrable est
non-dnombrable.
(4) Si deux ensembles sont en bijection, ils sont soit dnombrables tous les deux,
soit non-dnombrables tous les deux.
Exercice A.3. Montrer que Z est dnombrable.
Solution. On numrote les entiers relatifs dans lordre suivant :
0, 1, 1, 2, 2, 3, . . . , n, n, . . . Il sagit de lapplication f : Z N := {1, 2, . . .} dfinie
par f (n) = 2n et f (n) = 2n + 1 pour tout n 1 et f (0) = 1. Elle est bijective de Z
sur N .


Proposition A.4. Le produit cartsien dun nombre fini densembles dnombrables


est dnombrable.

Dmonstration. Par rcurrence, il suffit de montrer ce rsultat pour le produit


de deux ensembles dnombrables. Compte tenu de la dfinition de la dnombrabilit, il
suffit pour cela de montrer que N2 est dnombrable. Le procd de numrotation de N2
suivant
N
b

2 b

1 b

b
b

3
93

94

A. DNOMBRABILIT

permet de voir que N2 est en bijection avec N.

Lexercice et la proposition prcdents nous permettent de voir que pour tout d 1,


Z est dnombrable. On en dduit que lensemble des nombres rationnels Q est aussi
dnombrable. En effet, tout x Q on associe le couple dentiers (p, q) Z N tels
que x = p/q soit une fraction irrductible. Cette application est clairement une injection
de Q dans Z N Z2 qui est dnombrable.
d

Proposition A.5. Une runion dnombrable densembles dnombrables est dnombrable.


Dmonstration. Soient (Ei )iI une collection dnombrable (lensemble I des indices est dnombrable) densembles dnombrables. On peut sans perte de gnralit
prendre I N. Dautre part chacun des Ei est enS injection dans N : on peut dcrire
Ei = {xij ; j J(i)} avec J(i) N. Par consquent iI Ei = {xij ; (i, j) : i I, j J(i)}.
S
Lapplication qui tout x de iI Ei associe un couple (i, j) tel que xij = x est une
S
injection de iI Ei dans {(i, j) : i I, j J(i)} S
N2 . Puisque, daprs la Proposition
A.4, N2 est dnombrable, il en est de mme pour iI Ei .


Nous allons voir la Proposition A.8 plus bas quaucun intervalle rel dintrieur nonvide nest dnombrable. Pour cela nous aurons besoin du rsultat prliminaire suivant.

Lemme A.6. Soit X un ensemble non vide et 2X lensemble de toutes les parties de
X . Il nexiste pas dinjection de 2X dans X .
Dmonstration. On fait une preuve par labsurde. Supposons quil existe une injection de 2X dans X . Alors, il existe une partie Y de X et une application P : Y 2X
qui est bijective. Lapplication P permet de nommer les parties de X laide des lments du sous-ensemble Y de X .
Considrons la partie
A = {y Y; y 6 P (y)}

ainsi que llment z = P 1 (A) Y.


Soit z A = P (z), mais ceci est impossible par dfinition de A;
Soit z 6 A = P (z) et par dfinition de A : z P (z), ce qui est contradictoire.
Les deux cas sont exclus, par consquent notre hypothse de dpart est impossible : il
nexiste donc aucune injection de 2X dans X .

Cette preuve est due Bertrand Russel, philosophe, humaniste et grand mathmaticien britannique du XX-ime sicle. Elle est base sur le paradoxe suivant, nonc par
lui : "Le barbier rase tous les hommes de son village qui ne se rasent pas eux-mmes".
Lemme A.7. Soit A un ensemble fini contenant au moins deux lments.
(1) Lensemble des suites finies composes dlments de A est dnombrable.
(2) Lensemble AN des suites infinies composes dlments de A est non-dnombrable.
On peut voir A comme un alphabet : un ensemble de lettres et toute suite finie comme
un mot de taille finie compos avec cet alphabet. Les suites infinies sont des mots de
taille infinie. ce sont toutes les applications de N dans A.

A. DNOMBRABILIT

95

Dmonstration. Preuve de (1). En notant Sn lensemble des suites de longueur


n et Sf lensemble des suites finies, on a Sf = n1 Sn qui est dnombrable daprs la
Proposition A.5, puisque runion dnombrable densembles finis : #(Sn ) = #(A)n < .

Preuve de (2). Du fait que #(A) 2, il suffit de montrer que lensemble {0, 1}N des
suites infinies composes de 0 et de 1 nest pas dnombrable. En effet, en choisissant deux
lments distincts a0 et a1 de A, on voit immdiatement que lapplication qui la suite
(n )nN dans {0, 1}N associe la suite (an )nN dans {a0 , a1 }N est une bijection de {0, 1}N
sur {a0 , a1 }N . Cest donc une injection de {0, 1}N dans AN .
Or {0, 1}N est en bijection avec lensemble 2N des parties de N : la suite (n )nN
on associe la partie {n N; n = 1}. Mais on a vu au Lemme A.6 que 2N nest pas
dnombrable, donc {0, 1}N ne lest pas non plus.

Nous somme maintenant en mesure de prouver la

Proposition A.8. Tout intervalle dintrieur non-vide (i.e. de la forme (a, b) avec
a < b +) est non-dnombrable. En particulier, R nest pas dnombrable.

Dmonstration. Il suffit de montrer que le segment [0, 1] nest pas dnombrable.


Car alors la bijection x [0, 1] 7 + ( )x [, ] nous assure quil en est de mme
pour [, ]. Tout intervalle dintrieur non-vide (a, b) contient un tel segment [, ] (il
suffit pour cela que a < < < b) et est de ce fait non-dnombrable.
Montrons que [0, 1] nest pas dnombrable. Tout x [0, 1] admet un dveloppement
dcimal x = 0, x1 x2 x3 infini (avec ventuellement xn = 0 pour tout n partir dun
certain rang) o lon adopte la convention que si le dveloppement se termine par une
succession infinie de 9, cest--dire si x = a1 ak 9999 avec 0 ak 8, on remplace ce dveloppement dcimal par 0, a1 ak1 (ak + 1)0000 En effet 0, 9999 =
P
1/10
9 n1 (1/10)n = 9 11/10
= 1 = 1, 0000 On note D(x) = (x1 , x2 , . . . ) {0, . . . , 9}N
la suite correspondant ce dveloppement dcimal unique.
Notons G lensemble des suites finies (a1 , . . . , ak ) dlments de {0, 1, . . . , 9} dont le
dernier terme ak est diffrent de 9. Lensemble des x concerns par la modification prcdente du dveloppement dcimal est lensemble des x de la forme x = a1 ak 9999 .
Il est clairement en bijection avec G. Par consquent, D : [0, 1] {0, . . . , 9}N \ G est
une bijection. Or, daprs la Proposition A.7, {0, . . . , 9}N est non-dnombrable et G
est dnombrable (en tant que sous-ensemble des suites finies) donc {0, . . . , 9}N \ G est
non-dnombrable et il en est de mme pour [0, 1].


ANNEXE B

lments de thorie de lintgration


Nous reprenons la notion desprance en introduisant (sans preuves) les rsultats
fondamentaux de la thorie de lintgrale de Lebesgue.
Notations. Nous avons dj rencontr les esprances des variables alatoires discrtes
X
E(X) =
xpX (x)
xX

et des variables alatoires continues

E(X) =

xfX (x) dx.

Dans les deux cas, la fonction de rpartition FX permet le calcul :


X
E(X) =
xFX (x) o FX (x) = FX (x) FX (x )
Z
E(X) =
xdFX (x) o dFX (x) = fX (x) dx
R

Ceci nous suggre la notation unifie

E(X) =

x dFX (x).

(x) dFX (x).

Ainsi, nous obtenons aussi


E((X)) =

Intgration abstraite. Lesprance de X est dtermine par la fonction de rpartition FX et puisque FX est elle-mme spcifie par la donne de X et de (, A, P) on
sattend ce quune notion gnrale desprance de X puisse tre dfinie partir des
donnes (, A, P) et X : R.
La variable alatoire X : R est dite simple si elle prend un nombre fini de
valeurs. Les variables simples scrivent donc
X=

n
X

xi 1Ai

i=1

o A1 , . . . , An est une partition de . On dfinit lintgrale de X, note E(X), par


E(X) =

n
X
i=1

97

xi P(Ai ).

98

B. LMENTS DE THORIE DE LINTGRATION

Toute variable alatoire positive X : [0, [ est limite croissante dune suite (Xn )n1
de variables alatoires simples. Cest--dire : Xn () X() pour tout . On dfinit
alors lintgrale de X par
E(X) = lim E(Xn ) [0, ].
n

Cette quantit, qui est ventuellement infinie, existe en tant que limite dune suite croissante et est non-ambige : on peut montrer quelle ne dpend pas de la suite croissante
approximante (Xn )n1 .
Pour toute variable alatoire X, notons pour tout ,
X + () = max(X(), 0) et X () = max(X(), 0)

de sorte X = X + X avec X + , X 0.
Si E(X + ) et E(X ) ne sont pas infinis simultanment, on dfinit
E(X) = E(X + ) E(X ) [, +].

Cest en particulier le cas lorsque

E(|X|) = E(X + + X ) < .

En thorie de la mesure on note

E(X) =

X() P(d) =

X dP.

Lopration E est donc un oprateur qui agit sur lensemble des variables alatoires X
telles que E(|X|) < . On montre que pour de telles variables alatoires X, Y et pour
tous a, b R,
E(aX + bY ) = aE(X) + bE(Y )
cest--dire que lensemble des variables alatoires X telles que E(|X|) < est un espace
vectoriel et que E est une forme linaire qui agit sur cet espace vectoriel.
Les proprits de continuit de lesprance mathmatique sont les suivantes.
Thorme B.1 (Thormes de continuit de E.). Soit (Xn )n1 une suite de variables
alatoires qui converge simplement vers X : limn Xn () = X(), pour tout ,
alors
(1) (convergence monotone) si (Xn )n1 est une suite positive et croissante, alors
lim E(Xn ) = E(X) [0, ];

(2) (convergence domine)


alors

si |Xn ()| Y (), pour tout et E(Y ) < ,


lim E(Xn ) = E(X) R;

(3) (convergence borne)


alors

sil existe c R tel que |Xn ()| c, pour tout ,


lim E(Xn ) = E(X) R.

La convergence borne est bien sr un cas particulier de convergence domine.


Des consquences directes du thorme de convergence domine sont les deux rsultats
suivants.

B. LMENTS DE THORIE DE LINTGRATION

99

Thorme B.2 (Continuit par rapport au paramtre). Soit X(t, ) une fonction sur
R telle que pour tout t R, X(t, ) soit P-intgrable et pour tout , t 7 X(t, ) R
soit continue en to .
Si de plus, il existe > 0 et une variable alatoire Y 0 telle que E(Y ) < et
supt[to ,to +] |X(t, )| Y (), pour tout , alors
t 7 E(X(t, )) R

est continue en to .

Thorme B.3 (Drivation sous le signe somme). Soient T un ensemble ouvert de


R et X(t, ) une fonction sur T telle que pour tout t T, X(t, ) soit P-intgrable
et pour tout , t T 7 X(t, ) R soit drivable. On note dtd X(t, ) cette drive.
Si de plus, il existe > 0 et une variable alatoire Y 0 telle que E(Y ) < et
supt[to ,to +] | dtd X(t, )| Y (), pour tout , alors
G : t T 7 E(X(t, )) R

est drivable en to et sa drive est donne par


d
G (to ) = E( X(t, )|t=to ).
dt
Intgrale de Lebesgue-Stieltjes. Elle peut apparatre comme le cas particulier de
lintgrale abstraite (de Lebesgue) avec = R. Plus precisment, soit X une variable
alatoire de fonction de rpartition F. On fabrique partir de F une mesure de probabilit
F sur la tribu de Borel de R comme suit.
(a) dfinir F (]a, b]) = F (b) F (a),
(b) tendre le domaine de dfinition de F la plus petite tribu de R contenant
tous les intervalles : la tribu de Borel B.
Ainsi, (R, B, F ) est un espace de probabilit et
Z
dF
est appele lintgrale de Lebesgue-Stieltjes de par rapport F . On la note habituellement
Z
Z
dF ou
(x) dF (x).
Si X est une variable alatoire discrte ou continue, on reconnat alors
Z
E((X)) = (x) dF (x).

On prend cette galit comme la dfinition gnrale de lesprance de la variable alatoire


(X) (que X soit discrte, continue ou autre).
Une notation bien pratique, avec A B :
Z
Z
Z
E(1{XA} (X)) =
1{XA} (X) dP =
(X) dP =
(x) dF (x).

On remarque en passant que

{XA}

E(1{XA} ) = P(X A) = F (A).

ANNEXE C

Esprance mathmatique sans thorie de lintgration


La notion desprance mathmatique a t introduite sans ambigut dans le cadre des
variables alatoires discrtes, voir (6.13). Rappelons
alatoire discret
P que pour tout coupleP
2
(X, Y ) prenant ses valeurs dans R et telles que xX |x|pX (x) < et yY |y|pY (y) <
, lesprance mathmatique de aX + bY est dfinie par
X
E(aX + bY ) =
(ax + by)pX,Y (x, y).
xX ,yY

Elle possde les proprits suivantes :


(C.1)
(C.1)
(C.1)

E(aX + bY ) = aEX + bEY, a, b R


si X 0, EX 0

E(1) = 1

(linarit)

(positivit)

(normalisation).

Notre but est de construire une extension de loprateur : X 7 E(X), une classe
de variables alatoires X valeurs relles plus gnrale que celle des variables discrtes.
Nous allons montrer que lorsquon impose cette extension de satisfaire les proprits
(C.1), elle est unique sur la classe considre.
Soit X 7 E(X) une extension de lesprance qui possde les proprits (C.1). Cet
oprateur est croissant au sens o :
(C.2)

X Y = E(X) E(Y ).

En effet, avec (C.1) et (C.1) : E(Y ) E(X) = E(Y X) 0. On en dduit que


(C.3)

|E(X)| E(|X|).

Pour dcrire la classe sur laquelle lextension de lesprance est calcule, nous introduisons
lensemble fonctionnel suivant.
Dfinition C.4. La classe est lensemble des fonctions de ]0, 1[ dans R qui sont
bornes et dont lensemble des points de discontinuit est dnombrable et admet un
nombre fini de points daccumulation.
Thorme C.5. Soit X 7 E(X) un oprateur qui prolonge lesprance mathmatique
des variables alatoires discrtes des variables alatoires plus gnrales et qui possde
les proprits (C.1). Soit U une variable alatoire de loi uniforme sur [0, 1]. Alors, pour
toute fonction dans ,

 Z 1
E (U ) =
(u) du.
0

101

102

C. ESPRANCE MATHMATIQUE SANS THORIE DE LINTGRATION

Dmonstration. On se replace dans le cadre de la suite des tirages indpendants


uniformes sur {0, . . . , 9} tudi au Chapitre 10. On considre maintenant les approximations discrtes de U dfinies pour tout n 0 par
Un () = 0, 1 . . . n .
Cette variable alatoire est discrte : elle prend chacune des 10n valeurs un,k = 10n k,
(0 k 10n 1) avec la probabilit 10n . Soit une fonction numrique quelconque
sur ]0, 1[. Son esprance mathmatique est
X
E((Un )) =
10n (un,k ).
0k10n 1

Cette somme est lintgrale de Riemann dune fonction en escalier qui approxime . On
en dduit que si est intgrable au sens de Riemann,
Z 1
(C.6)
lim E((Un )) =
(u) du.
n

On suppose pour le moment que :]0, 1[7 R est continue et borne. Puisquelle admet
un prolongement continu sur le compact [0, 1]; elle est absolument continue, cest--dire
que w () := sup{|(u)(v)|; u, v tels que |uv| < } tend vers zro lorsque dcrot
vers zro. Dautre part, puisque supn0 |U Un | 10n ,
avec (C.1)

|E[(U )] E[(Un )]| = |E[(U ) (Un )]|

avec (C.3)

E[|(U ) (Un )|]

E[w (sup |U Un |)]

avec (C.2)

E[w (10

avec (C.2)

n0
n

)]

= w (10n )

avec (C.1) et (C.1)

Do il vient que
(C.7)

E[(U )] = lim E[(Un )].


n

En rapprochant cette identit de (C.6), nous obtenons le rsultat dsir lorsque est
continue :

 Z 1
(u) du.
E (U ) =
0

Il reste tendre cette identit au cas gnral : .


Soit . Son ensemble de points de discontinuit est tel que pour tout > 0, il
existe une runion finie dintervalles qui le recouvre, que nous noterons A et dont la longueur totale |A | est infrieure . Il est clair que la restriction de au complmentaire
de A admet un prolongement continu sur [0, 1] (on peut procder une srie dinterpolations linaires entre les bornes de A ). Notons cette approximation continue de
. Puisque est borne, cest--dire : := sup0u1 |(u)| < , on peut choisir de
mme borne que et nous obtenons
|(u) (u)| 21(uA ) , u ]0, 1[.

C. ESPRANCE MATHMATIQUE SANS THORIE DE LINTGRATION

103

Par consquent,








E[(U )] E[ (U )] = E[1(U 6A ) ((U ) (U ))] + E[1(U A ) ((U ) (U ))]




= E[1(U A ) ((U ) (U ))]
2P(U A )
= 2|A |
2

o lon a fait usage darguments similaires ceux invoqus lors de la preuve de (C.7),
ainsi que de E[1(U A ) ] = P(U A ) (1(U A ) est une variable discrte dont on connat
lesprance) et de P(U A ) = |A | (puisque P(a U b) = b a).
Des arguments analogues nous mnent
Z 1
Z 1



(u) du 2,
(u) du

0

de sorte que pour tout ,


Z


E[(U )]

Z




(u) du E[ (U )]

= 4,



(u) du + 4

puisque, tant continue, nous avons montr plus haut que E[ (U )] =


preuve sachve en faisant tendre vers zro.

R1
0

(u) du. La


Nous allons donner plus bas une dfinition de lesprance mathmatique pour une
classe de variables alatoires continues assez gnrale. Compte tenu du Thorme 10.3,
toute variable alatoire X admet le mme comportement alatoire (la mme loi) que
FX1 (U ). Par consquent, tant une fonction numrique, il est loisible dcrire E((X)) =
E( FX1 (U )). Le Thorme C.8 plus bas est une consquence immdiate du Thorme
C.5.
Nous sommes en mesure dnoncer le thorme suivant.
Thorme C.8. Soit X 7 E(X) un prolongement de lesprance des variables alatoires discrtes une classe plus gnrale de variables alatoires qui satisfait les proprits (C.1). Soit X une variable alatoire de fonction de rpartition FX et une fonction
numrique. Si FX1 est dans la classe , alors
Z 1
E((X)) =
FX1 (u) du.
0

Cest en particulier le cas lorsque


par morceaux.

FX1

est dans la classe et est borne et continue

Remarque C.9 (Au sujet des points de discontinuit de FX1 .). La fonction FX1 est
croissante et continue gauche. Nous notons hFX1 (u)i lintervalle semi-ouvert [FX1 (u), FX1 (u+ )[.
Il est non vide si et seulement si u est un point de discontinuit de FX1 . Dans ce cas nous
disons que hFX1 (u)i est un intervalle dabsence de X. Cette terminologie est justifie
par la constatation que lorsque au := FX1 (u) < FX1 (u+ ) := bu , la fonction FX est plate
sur lintervalle [au , bu [, plus prcisment : [au , bu [ {x R; FX (x) = u} [au , bu ]. Ceci

104

C. ESPRANCE MATHMATIQUE SANS THORIE DE LINTGRATION

implique que P(X [au , bu [) = 0, et que pour tout > 0, P(X ]au , bu [) > 0 et
P(X ]au , bu + [) > 0.

La formule assez gnrale du Thorme C.8 nest pas trs parlante. Nous allons llucider les variables alatoires continues. Pour une variable alatoire continue, un intervalle
dabsence correspond un intervalle maximal (composante connexe) de lensemble des
points dannulation de fX . Pour que FX1 soit dans la classe , il suffit que X admette un
nombre fini dintervalles dabsence. On en dduit que si lensemble {x R; fX (x) = 0}
est une runion finie dintervalles, la fonction FX1 est dans la classe .
Supposons maintenant que X admette une fonction de densit fX continue par morceaux. Dans ce cas, FX est partout continue donc x = FX1 (u) u = FX (x); de plus,
sauf en un nombre fini de points, nous avons FX (x) = fX (x).
La formule de changement de variable dans lintgrale, nous permet en posant
R 1x =

FX1 (u) "dinjecter"


du
=
F
(x)dx
=
f
(x)dx.
Ce
qui
nous
donne
E((X))
=

X
X
0
R
1
FX (u) du = (x)fX (x) dx. Lensemble de ces considrations nous amnent au rsultat suivant.

Thorme C.10. Soit X 7 E(X) un prolongement de lesprance des variables


alatoires discrtes une classe plus gnrale de variables alatoires qui satisfait les
proprits (C.1). Soit X une variable alatoire continue dont la densit fX est continue
par morceaux et telle que {x R; fX (x) = 0} est une runion finie dintervalles. Soit
une fonction numrique borne et continue par morceaux, alors

 Z
E (X) =
(x)fX (x) dx.
R

ANNEXE D

Convexit
On se place dans lespace vectoriel Rd .
Dfinitions D.1 (Ensemble et fonction convexes). Pour tous x, y Rd , on note
[x, y] le segment qui relie x et y, cest--dire [x, y] = {(1 t)x + ty; 0 t 1}.
(1) On dit quune partie C de Rd est convexe si

x, y Rd , x, y C [x, y] C.

(D.2)

(2) On dit que la fonction : C R est convexe sur lensemble convexe C si


(D.3)

x, y C, 0 t 1, ((1 t)x + ty) (1 t)(x) + t(y).

Dans la figure suivante, C est une partie convexe du plan alors que A ne lest pas
puisque [a, b] 6 A bien que a, b A :
C

y
x

b
convexe

non convexe

Exercice D.4. Montrer que les parties convexes de R sont les intervalles.
La proprit (D.3) signifie que toutes les cordes liant deux points du graphe de la
fonction convexe sont situes au-dessus du graphe. Cest ce quillustre la figure suivante.
corde
(y)
graphe de

(1 t)(x) + t(y)
(x)
y

(1 t)x + ty
Dans la figure suivante, le graphe de gauche est celui dune fonction convexe puisque
toutes ses cordes sont situes au-dessus, alors que celui de droite est celui dune fonction
non-convexe.
105

106

D. CONVEXIT

C
convexe
non convexe
Deux graphes fonctionnels

Proposition D.5. Soit : C R une fonction drivable sur une partie ouverte et
convexe C de Rd . Les assertions suivantes sont quivalentes.
(a) est convexe sur C.
(b) Pour tous x, y C, (y) (x) + h (x), y xi

(x), . . . , x
(x)) est le gradient de en x et hu, vi est le produit scalaire
o (x) = ( x
1
d
d
de u et v dans R .
Dans le cas particulier o Rd = R, si de plus est une fonction sur un intervalle
ouvert I R, deux fois continment diffrentiable (de classe C 2 ), alors les assertions
(a) et (b) sont aussi quivalentes

(c) Pour tout x I, (x) 0.


La partie C est suppose ouverte pour pouvoir dfinir sans encombre la drive de .
La proprit (b) signifie que le graphe de se situe au-dessus de tous ses hyperplans
tangents.
graphe de
b
b

Dmonstration. Preuve de (a) (b). (a) exprime que pour tous x, y C et


tout 0 t 1, (x + t(y x)) (x) + t[(y) (x)]]. Do en prenant t > 0,
[(x + t(y x)) (x)]/t (y) (x), et en le faisant tendre vers 0 : h (x), y xi
(y) (x), cest--dire (b).
Preuve de (b) (a). Par labsurde. Supposons que (b) soit satisfait et que (a) ne le
soit pas. Nous allons montrer une contradiction. Puisque (a) nest pas satisfait, il existe
0 < t < 1 tel que
(D.6)

(xt ) > (1 t)(x) + t(y).

Lhyperplan tangent au graphe de en xt := (1 t)x + ty a pour quation avec les


coordonnes (u, ) Rd R : = (xt ) + h, u xt i o = (xt ) Rd . Puisque (b)
est suppos vrai, nous avons en x :
(X)

(xt ) + h, x xt i = (xt ) h, t(y x)i (x)

D. CONVEXIT

107

et en y :
(Y)

(xt ) + h, y xt i = (xt ) + h, (1 t)(y x)i (y)

En faisant (1 t)(X) + t(Y), nous obtenons (xt ) (1 t)(x) + t(y) qui contredit
(D.6).
Preuve de (b) (c). Prenons y x = th avec t > 0 de sorte que (b) nous donne
(x + th) (x) (x)th 0. Dautre part, puisque est C 2 , il existe 0 1 tel
que (x + th) (x) (x)th = (x + th)t2 /2. On en dduit que (x + th) 0 et
en faisant tendre t vers 0, nous obtenons grce la continuit de que (x) 0.

Preuve
et pour tous x y, (y) =
R yde (c) (b). Puisque
R y 0, est croissante

(x) + R x (z) dz (x) + R x (x) dz = (x) +R (x)(y x). Lorsque y x, (y) =


y
x
x
(x) + x (z) dz = (x) y (z) dz (x) + y (x) dz = (x) + (x)(y x). Ce
qui prouve (b) et achve la preuve de la proposition.


Dans la figure suivante, le graphe de gauche est celui dune fonction convexe puisque
toutes ses tangentes sont situes au-dessous, alors que celui de droite est celui dune
fonction non-convexe.

C
convexe
non convexe
Deux graphes fonctionnels

Exercice D.7. Montrer que les fonctions suivants sont convexes.


(a) (x) = ax + b, x R, avec a, b R.

(b) (x) = |x|p , x R, avec p 1.

(c) (x) = xp , x [0, [, avec 0 p < 1.

(d) (x) = eax , x R, avec a R.


(e) (x) = x ln x x + 1, x > 0.
(f) (x) = ln x, x > 0.

(g) (x) = kxk, x Rd une norme sur Rd .


Par exemple, kxk = (x21 + +x2d )1/2 ou kxk = |x1 |+ +|xd | ou kxk = max1id |xi |.

(h) (x) = (kxk), x Rd o k k est une norme sur Rd et est une fonction convexe
croissante sur [0, [.
En particulier, (x) = kxkp , x Rd , avec p 1.

Index

2A , ensemble des parties de A, 2


A, voir tribu
A \ B, diffrence densembles, 2
AB, diffrence symtrique, 2
A B, runion disjointe, 3
Ac , complmentaire, 1
x , masse de Dirac en x, Df. 1.12, 4
, voir univers
P, voir probabilit
complmentaire, voir Ac
diffrence densembles, voir A \ B
diffrence symtrique, voir AB
Dirac (masse de), voir x
espace de probabilit, 4
vnement, 1, 3
certain, 2
complmentaire, voir Ac
disjoints, 4
impossible, 2
incompatibles, 2
probabilit (mesure de), Df. 1.9, 3
ralisation, 1
tribu, 3
univers, 1

109

S-ar putea să vă placă și