Variable Aléatoire

Variables aléatoires. Chapitre 10 : cours complet.
1. Variable aléatoire discrète.
Définition 1.1 : variable aléatoire discrète.

Théorème 1.1 : image réciproque d’une partie de E.
Théorème 1.2 : probabilité attachée à une variable aléatoire discrète.
Définition 1.2 : loi de probabilité d’une variable aléatoire discrète.
Théorème 1.3 : système complet induit par une variable aléatoire discrète.
Théorème 1.4 : caractérisation d’une loi de variable aléatoire discrète à l’aide d’événements élémentaires.
Théorème 1.5 : (admis) existence d’une probabilité pour (xn) et (pn) données.
2. Fonction de répartition d’une variable aléatoire discrète, lois classiques.
Définition 2.1 : fonction de répartition d’une variable aléatoire discrète réelle.

Définition 2.2 : (hors programme) histogramme d’une variable aléatoire discrète réelle.
Théorème 2.1 : propriétés d’une fonction de répartition d’une variable aléatoire réelle discrète.
exemples : fonctions de répartition et histogrammes des lois uniforme, de Bernoulli, binomiale.
Définition 2.3 : loi géométrique.
Théorème 2.2 : loi géométrique ⇔ variable aléatoire discrète sans mémoire.
Définition 2.4 : loi de Poisson.
Théorème 2.3 : approximation d’une loi binomiale par une loi de Poisson.
3. Espérance d’une variable aléatoire discrète.
Définition 3.1 : espérance d’une variable aléatoire discrète.

Théorème 3.1 : (admis) ordre des termes pour le calcul d’une espérance.
Théorème 3.2 : espérance d’une variable aléatoire discrète à valeurs dans .
Théorème 3.3 : (admis) formule du transfert.
Théorème 3.4 : (admis) linéarité de l’espérance.
Théorème 3.5 : premières propriétés de l’espérance.
Théorème 3.6 : espérance d’une variable aléatoire suivant une loi géométrique G(p).
Théorème 3.7 : espérance d’une variable aléatoire suivant une loi de Poisson P(λ).
Théorème 3.8 : espérance d’une variable aléatoire prenant un nombre fini de valeurs.
Rappel : espérance des lois uniforme, de Bernoulli et binomiale.
Théorème 3.9 : inégalité de Markov.
4. Couple et famille de variables aléatoires, indépendance.
Théorème 4.1 et définition 4.1 : couple de variables aléatoires discrètes.

Définition 4.2 : loi conjointe et lois marginales d’un couple de variables aléatoires discrètes.
Théorème 4.2 : lien entre loi conjointe et lois marginales d’un couple de variables aléatoires.
Définition 4.3 : lois conditionnelles.
Théorème 4.3 : lien entre loi conjointe, loi marginale et loi conditionnelle.
Définition 4.4 : couple de variables aléatoires indépendantes.
Théorème 4.4 : (admis) indépendance et événements non élémentaires.
Théorème 4.5 : (admis) espérance d’un produit de variables aléatoires discrètes indépendantes.
Théorème 4.6 : images de deux variables aléatoires discrètes indépendantes.
Définition 4.5 : famille finie de variables aléatoires discrètes mutuellement indépendantes.
Définition 4.6 : suite de variables aléatoires discrètes mutuellement indépendantes.
Théorème 4.7 : (admis) existence d’un modèle pour des lois de probabilité données.
Théorème 4.8 : somme de deux variables aléatoires indépendantes suivant une loi de Poisson.
5. Variance et covariance.
Théorème 5.1 : lien entre espérance de X et de X2.

Définition 5.1 : variance d’une variable aléatoire discrète réelle.
Théorème 5.2 : autre expression de la variance.
Théorème 5.3 : propriétés élémentaires de la variance.
Définition 5.2 : écart-type d’une variable aléatoire discrète réelle.
Chapitre 10 : Variables aléatoires – Cours complet. -1-
Théorème 5.4 : variance d’une variable aléatoire prenant un nombre fini de valeurs.
Exemple : variance d’une variable aléatoire suivant une loi uniforme, de Bernoulli, binomiale.
Théorème 5.5 : variance d’une variable aléatoire suivant une loi géométrique.
Théorème 5.6 ; variance d’une variable aléatoire suivant une loi de Poisson.
Théorème 5.7 : inégalité de Bienaymé-Tchebytchev.
Théorème 5.8 : inégalité de Cauchy-Schwarz.
Théorème 5.9 et définition 5.3 : covariance d’un couple de variables aléatoires discrètes réelles.
Théorème 5.10 : covariance d’un couple de variable aléatoires discrètes réelles indépendantes.
Définition 5.4 et théorème 5.11 : coefficient de corrélation d’un couple de variables aléatoires discrètes
réelles.
Théorème 5.12 : variance d’une somme finie de variables aléatoires discrètes réelles.
Théorème 5.13 : variance d’une somme de deux variables aléatoires discrètes réelles indépendantes.
Théorème 5.14 : loi faible des grands nombres.
6. Fonctions génératrices des variables aléatoires à valeurs dans .
Définition 6.1 : fonction génératrice d’une variable aléatoire à valeurs dans .

Théorème 6.1 : rayon de convergence et propriétés d’une fonction génératrice.
Remarque : fonction génératrice d’une variable aléatoire prenant un nombre fini de valeurs.
Théorème 6.2 : lien réciproque entre fonction génératrice et variable aléatoire.
Théorème 6.3 : fonction génératrice d’une variable suivant une loi géométrique.
Théorème 6.4 : fonction génératrice d’une variable suivante une loi de Poisson.
Théorème 6.5 : (admis) espérance de X et dérivabilité de GX en 1.
Théorème 6.6 : (admis) variance de X et dérivabilité seconde de GX en 1.
Théorème 6.7 : fonction génératrice d’une somme de deux variables indépendantes à valeurs dans .
7. Annexe 1 : caractéristiques des lois classiques.
8. Annexe 2 : (hors programme) familles sommables de réels.
Définition 8.1 : famille sommable de réels positifs, somme d’une telle famille sommable.
Théorème 8.1 : dénombrabilité des éléments non nuls d’une famille sommable de réels positifs.
Théorème 8.2 : lien entre famille sommable de réels positifs et série.
Théorème 8.3 : opérations sur les familles sommables de réels positifs.
Théorème 8.4 : sous-familles d’une famille sommable de réels positifs.
Théorème 8.5 : sommation par paquets d’une famille sommable de réels positifs.
Définition 8.2 : famille sommable de réels quelconques, somme d’une famille sommable.
Théorème 8.6 : définition équivalente de la sommabilité d’une famille de réels.
Théorème 8.7 : sommabilité et séries absolument convergentes, convergence commutative.
Théorème 8.8 : sous-familles de familles de réels sommables.
Théorème 8.9 : linéarité.
Théorème 8.10 : sommation par paquets d’une famille sommable de réels.
Théorème 8.11 : théorème de Fubini pour les familles sommables de réels.

Variables aléatoires. Chapitre 10 : cours complet.
1. Variable aléatoire discrète.
Définition 1.1 : variable aléatoire discrète.

Soient (Ω,A) un ensemble muni d’une tribu, et E un ensemble quelconque.
On dit que X est une variable aléatoire discrète (ou v.a.d.) sur (Ω,A) (ou sur Ω) à valeurs dans E si et
seulement si :
• X est une application de Ω dans E,
• l’ensemble des valeurs prises par X sur Ω (soit l’ensemble X(Ω)) est au plus dénombrable,
• ∀ x ∈ E, X-1({x}) ∈ A, autrement dit X-1({x}) est un évènement.
Pour : x ∈ E, on notera (X = x) ou {X = x} l’évènement X-1({x}).
Théorème 1.1 : image réciproque d’une partie de E.

Soient (Ω,A) un ensemble muni d’une tribu et X une variable aléatoire discrète sur Ω à valeurs dans E.
Alors : ∀ U ⊂ X(Ω), X-1(U) ∈ A, et donc X-1(U) est un évènement.
On notera parfois : X-1(U) = {X ∈ U} = (X ∈ U).
Démonstration :
Puisque X(Ω) est au plus dénombrable, U l’est aussi et on peut énumérer ses éléments :
U = {xn, n ∈ }, où les xn sont deux à deux distincts (la démonstration s’adapte si U est fini).
+∞
 +∞  +∞
Puis : U = U {xn } , et : X −1 (U ) = X −1  U {x n } = U X −1 ({x n }) .
n=0  n=0  n=0
Comme : ∀ x ∈ X(Ω), X-1({x}) ∈ A, et puisque A est une tribu sur Ω, on en déduit que, comme réunion
dénombrables d’éléments de A, X-1(U) est encore un élément de A.
Théorème 1.2 : probabilité attachée à une variable aléatoire discrète.

Soient (Ω,A,P) un espace probabilisé et X une variable aléatoire discrète sur Ω à valeurs dans un
ensemble E.
Alors l’application PX de P(X(Ω)) dans [0,1] définie par :
∀ A ∈ P(X(Ω)), PX(A) = P(X-1(A)),
définit une probabilité sur (X(Ω),P(X(Ω))).
En particulier, si : x ∈ X(Ω), on notera plus simplement P(X = x) la quantité :
P(X = x) = PX(X-1({x})) = P({X = x}).
De même, si : A ⊂ X(Ω), on notera plus simplement P(X ∈ A) la quantité :
P(X ∈ A) = PX(X-1(A)).
Démonstration :
Vérifions les différents points qui garantissent le résultat.
• PX est bien à valeurs dans [0,1].
• PX(X(Ω)) = P(X-1(X(Ω))) = P(Ω) = 1.
• Soit (An) une suite de parties de X(Ω) deux à deux disjointes.
Alors les ensembles {X-1(An), n ∈ } sont deux à deux disjoints, donc la série ∑
P( X −1 ( An )) est
n ≥0
+∞
convergente et : P ( UX −1
( An )) = ∑ P( X −1 ( An )) .
n∉N n =0
−1  
Mais on a de plus : UX ( An ) = X −1  U An  , qu’on vérifie par double inclusion.
n∉N  n∉N 
       +∞ +∞
Donc : PX  U An  = P X −1  U An   = P U X −1 ( An )  = ∑ P ( X −1 ( An )) = ∑ PX ( An ) .
 n∉N    n∉N    n∉N  n =0 n =0
Définition 1.2 : loi de probabilité d’une variable aléatoire discrète.

Soient (Ω,A,P) un espace probabilisé et X une variable aléatoire discrète sur Ω à valeurs dans E.

L’application définie au théorème 1.2 est appelée loi (ou de loi de probabilité) de la variable aléatoire X,
et on la note PX.
Théorème 1.3 : système complet induit par une variable aléatoire discrète.
Alors la famille des parties ({X = xk}, k ∈ ), où (xk) correspond à une énumération de X(Ω), forme un
système complet d’événements.
Démonstration :
Il est clair que ces ensembles sont deux à deux disjoints (un élément ω de Ω ne peut avoir deux images
distinctes par X), et que leur réunion est bien Ω puisque chaque élément ω a une image X(ω) qui se
retrouve dans l’énumération.
Théorème 1.4 : caractérisation d’une loi de variable aléatoire discrète à l’aide d’événements
élémentaires.
Alors la loi de X est entièrement déterminée par la connaissance des P(X = xk), où (xk) correspond à une
énumération de X(Ω).
Démonstration :
Si on connaît la loi de X, on connaît évidemment les P(X = xk), k ∈ .
Réciproquement si on connaît ces probabilités élémentaires, alors :
∀ A ∈ P(X(Ω)), A = {x k } , où K est une partie de .
U
k∈K
Cette réunion étant disjointe, on peut alors écrire : PX ( A) = P ( U {X = x }) = ∑ P( X = x

k∈K
k
k∈K
k ).
Donc on peut ainsi déterminer PX(A) pour tout : A ∈ P(Ω).

Remarque : si : A ∈ P(E), on peut écrire : A = A’ ∪ A’’, avec : A’ ⊂ X(Ω), et : A’’ ⊂ E \ X(Ω).
On peut alors écrire : PX(A) = PX(A’) + 0, et obtenir ainsi PX(A).
Théorème 1.5 : (admis) existence d’une probabilité pour (xn) et (pn) données.
Soient (Ω,A) un ensemble muni d’une tribu et X une variable aléatoire discrète sur Ω à valeurs dans un
ensemble E.
Soient par ailleurs (xn) les valeurs prises par X dans E, et (pn) une suite d’éléments de [0,1] telle que :
+∞
∑p
n =0
n = 1.
Alors il existe une probabilité sur (Ω,A) telle que : ∀ n ∈ , P ( X = x n ) = p n .

Démonstration (hors programme) :
X(Ω) étant au plus dénombrable, on écrit : X(Ω) = {x0, …, xn, …}, et on choisit, pour tout : n ∈ , un
élément ωn dans Ω tel que : X(ωn) = xn.
Pour tout élément A de A, on note ensuite 1A sa fonction indicatrice définie par :
∀ ω ∈ Ω, 1A(ω) = 1, si : ω ∈ A, et : 1A(ω) = 0, si : ω ∉ A.
+∞
Enfin, on définit : ∀ A ∈ A, P ( A) = ∑ p .1
n =0
n A (ω n ) , la somme étant finie si X(Ω) est fini.
Alors P répond au problème, car :

• P est bien à valeurs dans [0,1] puisque les pn sont positifs et donc :
+∞ +∞ +∞
∀ A ∈ A, 0 ≤ P ( A) = ∑ pn .1A (ω n ) ≤ ∑ pn 1 = ∑ pn = 1 .
n =0 n =0 n =0
+∞ +∞ +∞
• P ( Ω) = ∑ p .1
n =0
n Ω (ω n ) = ∑ p n 1 = ∑ p n = 1 .
n =0 n =0
+∞
• Si (Ap) est une suite d’éléments de A deux à deux disjoints, on a : ∀ ω ∈ Ω, 1 + ∞ 
(ω ) = ∑1Ap (ω ) .
 Ap 
 U  p =0
 p =0 
En effet, pour : ω ∈ Ω,
- soit : ∃ p ∈ , ω ∈ Ap, et dans ce cas il n’y a qu’un seul indice p qui a cette propriété car la famille
est formée d’ensembles disjoints.
On a alors : 1 + ∞ 
(ω ) = 1 .
 Ap 
 U 
 p =0 
D’autre part, 1 Ak (ω ) sont nuls sauf pour : k = p, et il vaut alors 1.

Donc la série ∑1
p ≥0
Ap (ω ) converge et sa somme vaut 1, ce qui démontre l’égalité annoncée.
- soit : ∀ p ∈ , ω ∉ Ap, et dans ce cas la série est nulle, de somme 1 d’une part, mais ω
n’appartient pas non plus à la réunion et l’autre terme est nul également d’où à nouveau l’égalité.
Pour : n ∈ , la famille ∑
pn .1Ap (ω n ) est alors sommable car :
n≥0 , p ≥0
- ∀ n ∈ , la famille ∑ p .1
p ≥0
n Ap (ω n ) est sommable de somme 0 ou pn, et : 0 ≤ ∑ p n .1Ap (ω n ) ≤ p n .
p ≥0
 
- la famille ∑  ∑ p .1 n Ap (ω n )  est sommable car la famille ∑p n est elle-même sommable.
n≥0  p ≥0  n ≥0
 
Le théorème de Fubini (th. 8.11) permet d’en déduire que la famille : ∑ P( A
p ≥0
p ) = ∑  ∑ p n .1Ap (ω n )  , et :
p ≥0  n≥0 
+∞ +∞  +∞  +∞  +∞  +∞  +∞ 
∑ P( A p ) = ∑ 
 ∑
n =0  p =0
p n . 1 Ap (ω )
n 
 = ∑ p .
n  ∑ 1 Ap (ω )
n 
 = ∑ p . 1
n  +∞ 
(ω n ) = P  U Ap  .
 p =0 
p =0  n = 0  p =0  n =0  A 
U p
 p =0 
Remarque :
Pratiquement toutes les démonstrations hors programme se réfèrent au paragraphe 8 (familles
sommables).
2. Fonction de répartition d’une variable aléatoire discrète, lois classiques.
Définition 2.1 : fonction de répartition d’une variable aléatoire discrète réelle.

Soient (Ω,A,P) un espace probabilisé et X une variable aléatoire discrète réelle sur Ω.
On appelle fonction de répartition de X la fonction FX définie sur par :
∀ x ∈ , FX ( x ) = P ( X ≤ x ) .
Remarque :
En fait, la connaissance de Ω est très souvent inutile.
En pratique, on se contente souvent de la variable aléatoire X ou de sa loi de probabilité ou encore de sa
fonction de répartition FX.
Un théorème (difficile) assure que si on se donne une (ou des) « bonne(s) » fonctions, on peut trouver
un univers probabilisé et une (ou des) variable(s) aléatoire(s) sur cet univers dont la (les) fonction(s) de
répartition est (sont) la (les) fonction(s) donnée(s) initialement.
Définition 2.2 : (hors programme) histogramme d’une variable aléatoire discrète réelle.
Soit (xn)n∈ une énumération ordonnée des valeurs de X (telle que (xn) est croissante).
On appelle histogramme de X la représentation (en bâtons ou rectangles) de la suite ordonnée
(P(X = xn))n∈ .
Théorème 2.1 : propriétés d’une fonction de répartition d’une variable aléatoire réelle discrète.
Soit F la fonction de répartition de X.
Alors :
• F est croissante sur ,
• lim F ( x) = 1 ,
x → +∞
• lim F ( x) = 0 .
x → −∞

Démonstration :
• Pour : x ≤ y, on a : (-∞,x] ⊂ (-∞,y], et P étant croissante (au sens de l’inclusion), on a :
F ( x) = P ( X ≤ x) ≤ P( X ≤ y ) = F ( y ) .
• F étant croissante et minorée par 0, elle admet une limite en -∞.
De plus, soit (xn) une suite décroissante de réels tendant vers -∞.
+∞
Alors la suite : An = (-∞,xn], est telle que : IA n = ∅, puisque (xn) tend vers -∞, et : An+1 ⊂ An.
n =0
Donc : 0 = P(∅) = P ( I A ) = lim P( A ) = lim P( X ≤ x

n∈N
n
n → +∞
n
n → +∞
n ) = lim F ( x n ) .
n → +∞
Par la caractérisation séquentielle des limites de fonctions, on en déduit que : lim F ( x) = 0 .

x → −∞
• La même démonstration, avec cette fois une suite (xn) qui tend vers +∞ et la même suite (An) montre
que : lim F ( x) = 1 .
x → +∞
exemple 2.1 : variable aléatoire suivant une loi uniforme (tracé ci-dessous fait pour : n = 4).
Fonction de répartition loi uniforme U(4) Histogramme
La fonction de répartition suivant une loi uniforme U(n) sur {0,…,n} est donnée par :
∀x∈ , • (x < 0) ⇒ (F(x) = 0),
k +1
• ∀ 0 ≤ k < n, (k ≤ x < k + 1) ⇒ (F(x) = ),
n +1
• (n ≤ x) ⇒ (F(x) = 1).
exemple 2.2 : variable aléatoire suivant une loi de Bernoulli (tracés ci-dessous faits pour : p = 0.7).
Fonction de répartition loi de Bernoulli B(0.7) Histogramme
La fonction de répartition d’une variable suivant une loi de Bernoulli B(p) est donnée par :
∀x∈ , • (x < 0) ⇒ (F(x) = 0),
• (0 ≤ x < 1) ⇒ (F(x) = p),
• (1 ≤ x) ⇒ (F(x) = 1).

exemple 2.3 : variable aléatoire suivant une loi binomiale (tracés ci-dessous fait pour : (n,p) = (20,0.5), et :
(n,p) = (30,0.8)).
Fonction de répartition loi binomiale B(20,0.5) Histogramme
Fonction de répartition loi binomiale B(30,0.8) Histogramme
La fonction de répartition d’une variable suivant une loi binomiale B(n,p) est donnée par :
∀x∈ , • (x < 0) ⇒ (F(x) = 0),
k
n
• ∀ 0 ≤ k < n, (k ≤ x < k + 1) ⇒ (F(x) = ∑  i . p .(1 − p)
i n −i
),
i =0  
• (n ≤ x) ⇒ (F(x) = 1).
Définition 2.3 : loi géométrique.

Soit (Ω,A,P) un espace probabilisé.
Soit : p ∈ ]0,1[.
On dit qu’une variable aléatoire sur Ω suit la loi géométrique de paramètre p lorsque :
• X(Ω) = *, et :
• ∀ k ∈ *, P ( X = k ) = p.(1 − p ) k −1 .
Une telle loi est notée G(p) et on écrira : X ~ G(p).
Remarques :
• La loi géométrique est la loi de la variable aléatoire qui modélise le premier Pile dans une suite infinie
de tirages à Pile ou Face indépendants et pour une pièce déséquilibrée (c'est-à-dire telle que obtenir Pile
a une probabilité p).
En effet, obtenir un premier Pile au tirage k (pour : k ≥ 1) correspond à avoir obtenu des Face aux
(k – 1) tirages précédents et un Pile au kième, soit bien : P ( X = k ) = (1 − p ) k −1 . p .
• Un événement quelconque n’a pas de probabilité attribuée par cette méthode (d’ailleurs quel est
précisément l’univers de l’expérience ?) et c’est seulement l’événement correspondant à une infinité de
Face successifs à qui il semble naturel d’attribuer la probabilité 0.
• La loi géométrique est aussi appelée « loi du premier succès ».
• La somme des probabilités des événements élémentaires vaut bien :

+∞ +∞
1
∑ P( X = k ) = ∑ p.(1 − p) k −1 = p.
k =1 k =1 1 − (1 − p )
= 1.
exemple 2.4 : variable aléatoire suivant une loi géométrique (tracé ci-dessous fait pour : p = 0.25).
Fonction de répartition loi géométrique G(0.25) Histogramme
La fonction de répartition d’une variable suivant une loi géométrique G(p) est donnée par :
∀x∈ , • (x < 1) ⇒ (F(x) = 0),
n
• ∀ n ∈ *, (n ≤ x < n + 1) ⇒ (F(x) = ∑ p.(1 − p)
k =1
k −1
= 1 − (1 − p ) n ).
Théorème 2.2 : loi géométrique ⇔ variable aléatoire discrète sans mémoire.

Soit X une variable aléatoire discrète réelle sur un espace probabilisé (Ω,A,P).
Si X suit une loi géométrique, alors X est « sans mémoire » à savoir :
∀ (k,l) ∈ *2, P( X > k ) ( X > k + l ) = P ( X > l ) .
Réciproquement, si X est à valeurs entières strictement positives, telle que :
• ∀ k ∈ *, P(X = k) > 0, et :
• ∀ (k,l) ∈ *2, P( X > k ) ( X > k + l ) = P ( X > l ) .
alors X suit une loi géométrique.
Démonstration :
• Commençons par supposer que X soit la loi géométrique G(p).
Alors : ∀ k ∈ *, l’événement {X > k} est l’union disjointe de ({X = i}, i > k).
+∞
1
Donc : P ( X > k ) = ∑ p.(1 − p)
i = k +1
i −1
= p.(1 − p ) k .
1 − (1 − p )
= (1 − p ) k .
Puis : ∀ (k,l) ∈ *2,

P(( X > k + l ) ∩ ( X > k )) P( X > k + l ) (1 − p ) ( k +l )
P( X >k ) ( X > k + l ) = = = = (1 − p ) l = P( X > l ) .
P( X > k ) P( X > k ) (1 − p ) k
• Réciproquement, si X a les propriétés annoncées, notons : P(X = 1) = p.

P(( X > k + 1) ∩ ( X > k )) P( X > k + 1)
On a alors : ∀ k ∈ *, P( X > k ) ( X > k + 1) = = = P( X > 1) .
P( X > k ) P( X > k )
Or : P ( X > 1) = 1 − P ( X ≤ 1) = 1 − P ( X = 1) = 1 − p .
Donc la suite (P(X > k)) est géométrique de raison (1 – p), et :
∀ k ∈ *, P ( X > k ) = (1 − p ) k −1 .P ( X > 1) = (1 − p ) k .
Enfin : ∀ k ∈ *, P ( X = k ) = P ( X > k − 1) − P ( X > k ) = (1 − p ) k −1 − (1 − p ) k = p.(1 − p ) k −1 .
X suit donc bien la loi géométrique G(p).
Remarque :
• La loi est dite alors « sans mémoire » car la connaissance du résultat des k premiers tirages ne modifie
pas les probabilités pour les suivants.
Plus précisément, devoir attendre 5 lancers (au moins) pour voir apparaître un Succès a la même
probabilité que l’on parte du premier tirage ou du millième tirage sachant qu’on n’a pas obtenu de
Succès pour ces mille premiers tirages.

• On peut noter que l’ensemble Ω n’intervient à aucun moment dans la démonstration précédente, ce qui
justifie peu à peu de ne plus le préciser.
Définition 2.4 : loi de Poisson.

Soit X une variable aléatoire discrète réelle sur un espace probabilisé (Ω,A,P).
On dit que X suit la loi de Poisson de paramètre λ, avec : λ ∈ +*, lorsque :
• X(Ω) = ,
−λ λk
• ∀ k ∈ , P( X = k ) = e . .
k!
Une telle loi est notée P(λ) et on écrira : X ~ P(λ).
Remarque :
Là encore, la somme des probabilités des événements élémentaires donne :
+∞ +∞
λk +∞
λk
∑ P( X = k ) = ∑ e
k =0 k =0
−λ
.
k!
= e .∑
−λ
k =0 k!
= e −λ .e λ = 1 .
exemple 2.5 : variable aléatoire suivant une loi de Poisson.

La loi de Poisson P(λ) n’a pas de fonction de répartition ayant une forme simple.
On peut en revanche comparer des histogrammes pour des valeurs distinctes de λ.
(attention, l’échelle en y varie).
λ = 0.8 λ = 1.2
λ=4 λ = 20
Différentes lois de Poisson P(λ)
Théorème 2.3 : approximation d’une loi binomiale par une loi de Poisson.
Soit (pn) une suite de réels appartenant à ]0,1[, telle que : lim n. p n = λ , avec : λ > 0.
n → +∞
Pour tout : n ∈ , on note Xn une variable aléatoire de loi B(n,pn).

λk
Alors pour tout entier : k ∈ , la suite (P(Xn = k)) tend vers e −λ . .
k!

Démonstration :
λ 1
En réécrivant la limite supposée, on obtient : p n = + o  , et donc :
n n
n−k
n n.(n − 1)...(n − k + 1) 1  λ  1 
∀ k ∈ , P ( X n = k ) =  . p nk .(1 − p n ) n − k = . k .(λ + o(1)) k .1 − + o   .
k  k! n  n  n 
On constate alors que :
n.(n − 1)...(n − k + 1)
• →
+∞
1,
nk
(λ + o(1)) k λk
• →
+∞
, et pour n assez grand :
k! k!
n−k
 λ  1    λ  1    λ  1 
• 1 − + o   = exp (n − k ). ln1 − + o    = exp (n − k ). − + o    →
+∞
e −λ .
 n  n    n  n    n  n 
On en déduit le résultat annoncé.
Remarque :
Ce résultat s’utilise notamment lorsqu’une variable aléatoire suit une loi binomiale de paramètres n et p
avec p « petit devant n ».
Dans ce cas, on remplace pour les calculs la loi binomiale (exacte) par la loi de Poisson (approchée) de
p
paramètre : λ = .
n
exemple 2.6 :
On considère un grand nombre d’atomes instables (n ≈ 6.023.1023) qui se désintègrent rarement
(autrement dit peu de désintégrations pendant une unité de temps).
Cette faible modification du nombre d’atomes fait qu’on peut également supposer que le nombre total
d’atomes ne change pas durant l’expérience.
On suppose enfin que le nombre de désintégrations observées durant un laps de temps ∆t est
proportionnel à cette durée, de la forme donc α.∆t.
On appelle X le nombre de désintégrations observées durant un laps de temps T donné et on voudrait
déterminer la loi de X.
T
On suppose pour cela que la durée T est divisée en intervalles de durée : ∆t = , suffisamment courts
n
pour que la probabilité d’observer deux désintégrations durant cet intervalle est négligeable.
T
La probabilité d’observer une désintégration durant ∆t est alors égale à : p (n) = α .∆t = α . .
n
L’observation sur la durée totale se ramène donc à une succession d’épreuves de Bernoulli, chacune
avec une probabilité de succès égale à p(n).
n
X suit donc une loi binomiale : ∀ 0 ≤ k ≤ n, P ( X = k ) =  . p (n) k .(1 − p (n)) n − k .
k 
Si on fait tendre n vers +∞ (et pour des valeurs de k fixées « petites »), on a alors :
(α .T ) k
P ( X = k ) ≈ e −α .T . .
k!
Remarques :
• Cette loi est aussi appelée « loi des événements rares ».
• Elle permet également classiquement de modéliser des situations identiques à celle de l’exemple 2.6
telles que :
le nombre de connexion à un serveur web durant un intervalle de temps T,
le nombre de clients se présentant à une caisse de supermarché durant T,
le nombre de coquilles typographiques dans un texte (cours de probas par exemple).
3. Espérance d’une variable aléatoire discrète.
Chapitre 10 : Variables aléatoires – Cours complet. - 10 -

Définition 3.1 : espérance d’une variable aléatoire discrète réelle.
Soit X une variable aléatoire discrète réelle prenant un nombre dénombrable de valeurs {xk, k ∈ }.
Si la série ∑
x k .P( X = x k ) converge (ou si la série
k ∈N
∑
x k .P( X = x k ) est absolument convergente), on
k ∈N
dit que X admet une espérance.
+∞
On note alors : E ( X ) = ∑ x .P ( X = x
k =0
k k ) , qu’on appelle espérance de X.
Théorème 3.1 : (admis) ordre des termes pour le calcul d’une espérance.
Soit X une variable aléatoire discrète réelle admettant une espérance.
L’ordre d’énumération des valeurs prises par X n’a pas d’incidence sur la valeur de E(X).
Puisque la série ∑
x k .P ( X = x k ) converge, elle est « commutativement convergente », donc l’ordre
k ∈N
des termes de la série n’influe, ni sur la convergence de celle-ci, ni sur la valeur de la somme obtenue
(que ce soit avec ou sans les valeurs absolues), autrement dit une autre énumération des valeurs prises
par X conduira à une nouvelle série absolument convergente dont la somme sera identique à la
première.
Théorème 3.2 : espérance d’une variable aléatoire discrète à valeurs dans .

Soit X une variable aléatoire discrète à valeurs dans et admettant une espérance.
+∞
Alors : E ( X ) = ∑ P( X ≥ k ) .
k =1
Démonstration :
Pour k donné dans , on a : P ( X ≥ k ) = P (( X ≥ k ) ∩ ( X = k )) + P (( X ≥ k ) ∩ ( X ≠ k )) , par la formule
des probabilités totales, les événements ({X = k}, {X ≠ k}) formant un système complet d’événements.
De plus :
• P ( X ≥ k , X = k ) = P ( X = k ) , et :
• P ( X ≥ k , X ≠ k ) = P ( X ≥ k + 1) .
Donc : P ( X = k ) = P ( X ≥ k ) − P ( X ≥ k + 1) .
Pour : n ∈ *, on peut alors réécrire la somme partielle :
n n n n
S n = ∑ k .P ( X = k ) = ∑ k .[ P ( X ≥ k ) − P ( X ≥ k + 1)] = ∑ k .P ( X ≥ k ) − ∑ k .P ( X ≥ k + 1) ,
k =0 k =0 k =0 k =0
et en réindexant la deuxième somme :
n n +1 n
S n = ∑ k .P ( X ≥ k ) − ∑ (k − 1).P ( X ≥ k ) = 0.P ( X ≥ 0) + ∑ P ( X ≥ k ) − n.P ( X ≥ n + 1) .
k =0 k =1 k =1
On sait de plus que (Sn) converge.
N N +∞
Enfin : ∀ n ∈ *, ∀ N ≥ n + 1, n.P ( n + 1 ≤ X ≤ N ) = ∑ n.P( X = k ) ≤ ∑ k.P( X = k ) ≤ ∑ k .P( X = k ) .
k = n +1 k = n +1 k = n +1
On constate donc que la suite (n.P(n+1 ≤ X ≤ N)) est convergente, comme suite majorée de sommes
partielles d’une série positive.
Si maintenant on fait tendre N vers +∞, la suite des événements ({n +1 ≤ X ≤ N})N≥n+1, est croissante (au
sens de l’inclusion) et a pour limite (réunion) l’événement {n+1 ≤ X}.
+∞
Donc : 0 ≤ n.P ( X ≥ n + 1) = lim n.P ( n + 1 ≤ X ≤ N ) ≤
N → +∞
∑ k .P ( X = k ) = R
k = n +1
n, où Rn est le reste d’ordre n
de la série (convergente) ∑ k .P( X = k ) , et à ce titre (R ) tend vers 0.

n∈N
n
n
Finalement, on a : ∀ n ≥ 1, ∑ P( X ≥ k ) = S
k =1
n + n.P ( X ≥ n + 1) , et en faisant tendre n vers +∞, on aboutit
+∞ +∞
à: ∑ P ( X ≥ k ) = ∑ k .P ( X = k ) + 0 = E ( X ) .
k =1 k =0

Remarque :
On peut en fait montrer qu’une variable aléatoire discrète X à valeurs dans admet une espérance si et
seulement si la série ∑
P( X ≥ k ) converge.
k ≥1
On vient de montrer l’implication directe, et pour la réciproque, on a montré dans la première partie que :
n n n +∞
∀ n ∈ , Sn = ∑ k.P( X = k ) = ∑ P( X ≥ k ) − n.P( X ≥ n + 1) ≤ ∑ P( X ≥ k ) ≤ ∑ P( X ≥ k ) .
k =0 k =1 k =1 k =1
Donc la suite des sommes partielles de la série positive ∑ k.P( X = k ) est majorée et cette série est
k ≥1
donc convergente, ce qui termine l’implication annoncée.
Théorème 3.3 : (admis) formule du transfert.

Soit X une variable aléatoire discrète sur Ω prenant les valeurs {xk, k ∈ }, et soit f une fonction définie
sur au moins X(Ω) et à valeurs dans .
Alors : f(X)= foX, est encore une variable aléatoire discrète.
De plus f(X) a une espérance si et seulement si la série ∑
f ( xk ).P ( X = xk ) est absolument
k∈ N
+∞
convergente et dans ce cas : E ( f ( X )) = ∑ f (x
k =0
k ).P ( X = x k ) .

• foX est bien une application de Ω dans .
• De plus, l’ensemble des valeurs prises par X est au plus dénombrable donc l’ensemble des valeurs
prises par foX l’est également.
• Enfin, soit : y ∈ .
Alors on peut écrire {f(X) = y} comme la réunion disjointe des événements :
{X = x, x ∈ X(Ω), f(x) = y}.
Comme l’ensemble des valeurs prises par X est au plus dénombrable, la réunion précédente, restreinte
aux x pour lesquels {X = x} est non vide, est une réunion au plus dénombrable d’événements et est donc
un événement.
On notera Gy l’ensemble (au plus dénombrable) des valeurs x concernées.
On a donc : {f(X) = y} = {X = x}, d’où : P( f ( X ) = y ) = P( X = x) .
U ∑
x∈G y x∈G y
Mais on peut rajouter à cette somme sans modifier sa valeur, la somme ∑ P( X = x) qui est nulle et
x∈ f −1 ( y ) −G y
qui correspond à des x de f-1(y) pour lesquels P(X = x) est nulle.

On a donc : y .P ( f ( X ) = y ) = y . ∑
P ( X = x) = y .P( X = x) = ∑ ∑ f ( x) .P( X = x) .
x∈ f −1 ( y ) x∈ f −1 ( y ) x∈ f −1 ( y )
• Le th 8.7 permet d’obtenir la première équivalence :

( ∑
n∈N
f ( x k ).P ( X = x k ) absolument convergente) ⇔ ( ∑ f ( x).P( X = x) sommable).
x∈X ( Ω )
−1
Par ailleurs, X(Ω) s’écrit comme la réunion disjointe : X(Ω) = Uf
y∈R
( y ) , puisque par exemple, tout
élément x dans X(Ω) a bien une image y dans .

La propriété de sommation par paquets (th 8.10) permet d’avoir équivalence entre :
( ∑f ( x).P ( X = x) sommable) ⇔
x∈X ( Ω )
 
 x∈∑
(∀ y ∈ , ( f ( x).P ( X = x)) x∈ f −1 ( y ) est sommable et  f ( x ) .P ( X = x )  est sommable).

 f −1 ( y )  y∈R
Or on sait que : ∀ y ∈ , ( f ( x).P ( X = x)) x∈ f −1 ( y ) est sommable avec ce qu’on a vu au-dessus.
De plus on a vu que : ∀ y ∈ , ∑ f ( x) .P( X = x) = y .P( f ( X ) = y ) .
x∈ f −1 ( y )
On aboutit donc à l’équivalence :

( ∑ f ( xk ).P ( X = xk ) absolument convergente) ⇔ ( y .P ( f ( X ) = y ) ( ) y∈R
sommable),
k∈ N

et cette deuxième partie correspond bien au fait que f(X) admet une espérance.
• Enfin la sommation par paquets permet également d’affirmer dans ce cas que :
 
E ( f ( X )) = ∑ y.P( f ( X ) = y ) = ∑  ∑ f ( x).P( X = x)  = ∑ f ( x).P ( X = x) , puis en terminant par le
y∈R y∈R  x∈ f −1 ( y )  x∈X ( Ω )
+∞
lien entre famille sommable et série (th 8.7) : E ( f ( X )) = ∑ f (x
k =0
k ).P ( X = x k ) .
Théorème 3.4 : (admis) linéarité de l’espérance.

Soient X et Y des variables aléatoires discrètes réelles admettant une espérance et soit : (α,β) ∈ 2
.
Alors (α.X + β.Y) est une variable aléatoire discrète admettant une espérance et :
E (α . X + β .Y ) = α .E ( X ) + β .E (Y ) .
• Il est à peu près immédiat que si X admet une espérance, alors pour tout réel α, α.X admet également
une espérance.
En effet, si : α ≠ 0, on a : ∀ k ∈ , P(X = xk) = P(α.X = α.xk), d’où le fait que si la série x k .P ( X = x k ) ∑
n∈N
est absolument convergente, la série ∑α .x .P(α . X = α .x

n∈N
k k ) l’est aussi.
• Considérons maintenant deux variables aléatoires X et Y, et notons :

{xi, i ∈ I}, {yj, j ∈ J} les ensembles de valeurs (au plus dénombrables) que prennent X et Y.
Les ensembles {X-1(xi), i ∈ I} et {Y-1(yj), j ∈ J} forment séparément des partitions au plus dénombrables
de Ω.
Notons ensuite : Z = X + Y, puis : ∀ (i,j) ∈ I×J, zi,j = xi + yj, et : ∆i,j = X-1(xi) ∩ Y-1(yj).
Alors {∆i,j, (i,j) ∈ I×J} forme une partition au plus dénombrable de Ω (dont certains ensembles peuvent
être vides).
De plus : ∀ (i,j) ∈ I×J, ∀ ω ∈ ∆i,j, Z(ω) = X(ω) + Y(ω) = xi + yj = zi,j.
On va démontrer que la famille ( z i , j .P ( Z = z i , j ) )i,j∈I×J est sommable et qu’ainsi, on peut regrouper les zi,j
qui sont égaux pour finalement obtenir que Z admet une espérance.
Or : ∀ (i,j) ∈ I×J, z i , j ≤ xi + y j , et {∆i,j, j ∈ J} forme une partition de X-1(xi), pour tout : i ∈ I.
De plus pour tout i fixé dans I, la famille ( xi .P ((Y = y j ) ∩ ( X = xi )) )j∈J est sommable puisque :
P ( X = xi ) = ∑ P ((Y = y j ) ∩ ( X = xi )) ,
j∈J
et le produit par xi (constant) ou |xi| ne modifie pas cette sommabilité.
 
De plus la famille  ∑ x .P((Y = y
i j ) ∩ ( X = xi ))  , est encore sommable puisqu’elle correspond à
 j∈J  i∈I
( x .P( X = x ))
i i i∈I
, et cette famille est sommable puisque X admet une espérance.
Donc le th 8.11 permet d’affirmer que la famille xi .P ((Y = y j ) ∩ ( X = xi )) ( ) ( i , j )∈I × J
est sommable.
(
De même la famille yi .P ((Y = y j ) ∩ ( X = xi )) )
( i , j )∈I × J
est sommable ainsi que la somme de ces deux
(
familles qui donne z i , j .P ( ∆ i , j ) )( i , j )∈I × J
.
Si l’on regroupe maintenant (par paquets) les termes zi,j qui sont égaux, on constate que la somme de la
 
dernière famille vaut : ∑ z i , j .P ( ∆ i , j ) = ∑ 
 ∑ z i, j .
z∈Z ( Ω )  ( i , j )∈I × J , zi , j = z
P ( ∆ i, j )  = ∑ z .P ( Z = z ) = E ( Z ) .
 z∈Z ( Ω )
( i , j )∈I × J 
En effet, pour z fixé, les ensembles {∆i,j, (i,j) ∈ I×J, zi,j = z} sont deux à deux disjoints et leur réunion
donne {Z = z}, donc la formule des probabilités totales conduit à : P(∆ i , j ) = P( Z = z ) . ∑
( i , j )∈I × J , zi , j = z
Mais d’autre part : ∑z

( i , j )∈I × J
i, j .P ( ∆ i , j ) = ∑ x .P ( ∆
( i , j )∈I × J
i i, j )+ ∑ y .P ( ∆
( i , j )∈I × J
j i, j ),
et là encore en regroupant par paquets, on obtient par exemple :

   
∑ x .P(∆
i ) = ∑  ∑ xi .P(∆ i , j )  = ∑ xi . ∑ P(∆ i , j )  = ∑ xi .P( X = xi ) = E ( X ) .
i, j
i∈I  j∈J
( i , j )∈I × J  i∈I  j∈J  i∈I
Avec un résultat similaire pour Y, on conclut bien que : E ( Z ) = E ( X ) + E (Y ) .
• La linéarité de l’espérance se déduit des deux propriétés ainsi démontrées.
Théorème 3.5 : premières propriétés de l’espérance.

Soient X et Y des variables aléatoires discrètes réelles.
• Si X est presque sûrement égale à une constante a (c'est-à-dire telle que : P ( X = a ) = 1 ), alors X
admet une espérance et : E(X) = a.
• Si X est à valeurs positives et admet une espérance, alors : E ( X ) ≥ 0 .
• Si X est à valeurs positives presque sûrement (c'est-à-dire telle que : P ( X ≥ 0) = 1 ), admet une
espérance et si : E(X) = 0, alors : X = 0, presque sûrement.
• Si X et Y admettent toutes deux une espérance et vérifient : X ≤ Y, alors : E(X) ≤ E(Y).
• X admet une espérance si et seulement si |X| en admet une et : E ( X ) ≤ E ( X ) .
Démonstration :
• Si : P ( X = a ) = 1 , alors : ∀ x’ ≠ a, x’ ∈ X(Ω), 0 ≤ P ( X = x' ) ≤ P ( X ≠ a ) = 1 − P ( X = a ) = 0 .
+∞
Donc : E ( X ) = ∑ x .P ( X = x
k =0
k k ) = a.P ( X = a ) + ∑ x'.P ( X = x' ) = a.1 = a .
x '≠ a
• Si (xk) est une énumération des valeurs prises par X alors : ∀ k a , xk ≥ 0.
Si de plus X admet une espérance alors la série ∑
x k .P( X = x k ) converge, et étant à termes positifs,
k ∈N
sa somme, qui est E(X), est positive.
• Notons xk les valeurs prises par X (qui sont donc des réels positifs).
+∞
Alors : E ( X ) = ∑ x .P ( X = x
k =0
k k ) = 0 , et comme somme d’une série à termes positifs, tous ses termes
sont nuls.
Mais alors : ∀ k ∈ , (xk ≠ 0) ⇒ ( P ( X = x k ) = 0 ), et donc : P ( X = 0) = 1 − P ( X ≠ 0) = 1 .
• Il suffit de dire que par linéarité, Y – X admet une espérance qui est positive d’après le point précédent,
et qui vaut : E (Y − X ) = E (Y ) − E ( X ) , d’où le résultat.
• Pour le dernier point on commence par utiliser la formule du transfert (th. 3.3) avec la fonction f égale à
la valeur absolue.
+∞
On constate que |X| a une espérance car ∑
k ∈N
x k .P( X = x k ) converge, et : E ( X ) = ∑ x k .P( X = x k ) .
k =0
+∞ +∞
De plus, pour une série réelle absolument convergente ∑ an , on sait que :
n ≥0
∑ an ≤ ∑ an .
n =0 n =0
+∞ +∞
Appliquée ici, cette inégalité donne : E ( X ) = ∑ x .P ( X = x
k =0
k k ) ≤ ∑ x k .P ( X = x k ) = E ( X ) .
k =0
Théorème 3.6 : espérance d’une variable aléatoire suivant une loi géométrique G(p).
Soit X une variable aléatoire suivant une loi géométrique G(p), avec : p ∈ ]0,1[.
1
Alors X admet une espérance et : E ( X ) = .
p
Démonstration :
 1 
En effet la série ∑ k. p.(1 − p)
k ≥1
k −1
est absolument convergente puisque : k . p.(1 − p ) k −1 = o 2 
k 
, en +∞
avec le théorème des croissances comparées (et : p ∈ ]0,1[, donc : (1 – p) ∈ ]0,1[).

+∞ +∞
1 1
Puis : ∑ k. p.(1 − p) k −1 = p.∑ k.(1 − p) k −1 = p.
k =1 k =1 (1 − (1 − p)) 2
= .
p
On utilise pour cela la dérivée de la série entière :

+∞ +∞
1 1
∀ x ∈ ]-1,+1[, = ∑ x n , et :
1 − x n =0 (1 − x) 2
= ∑
n =1
n.x n −1 .
Théorème 3.7 : espérance d’une variable aléatoire suivant une loi de Poisson P(λ).
Soit X une variable aléatoire suivant une loi de Poisson P(λ), avec : λ > 0.
Alors X admet une espérance, et : E ( X ) = λ .
Démonstration :
λk λk  1 
En effet, la série ∑ k.e −λ .
k ≥1 k!
est absolument convergente puisque : k .e − λ .
k!
= o 2  , en +∞, toujours
k 
avec le théorème des croissances comparées.
+∞
λk +∞
λk +∞
λk +1
Puis : ∑ k.e −λ .
k =1 k!
= e −λ .∑
k =1 (k − 1)!
= e −λ .∑
k =0 k!
= e −λ .λ .e λ = λ .
Théorème 3.8 : espérance d’une variable aléatoire prenant un nombre fini de valeurs.
Soit X une variable aléatoire prenant un nombre fini de valeurs.
Alors X admet une espérance.
Démonstration :
Puisque X ne prend qu’un nombre fini de valeurs, la série ∑
x k .P( X = x k ) est nulle à partir d’un certain
k ∈N
rang et donc est absolument convergente.
Rappel :
1 n.(n + 1) n + 1 n
1
• Si X suit la loi uniforme U(n), alors : E ( X ) =
k =1 2
= ∑ n .k = n .
2
.
• Si X suit la loi de Bernoulli B(p), alors : E ( X ) = 0.(1 − p ) + 1. p = p .

• Si X suit la loi binomiale B(n,p), alors :
n
n n
 n − 1 k
E ( X ) = ∑ k . . p k .(1 − p ) n −k = ∑ n. . p .(1 − p ) n − k = n. p.( p + 1 − p ) n −1 = n. p .
k =0  
k k =1  k − 1 
Remarque :
Puisqu’une loi binomiale B(n,p) est la loi du nombre de succès dans la répétition n fois d’une épreuve
de Bernoulli de loi B(p), on peut écrire : X = X1 + … + Xn, où X est la variable suivant la loi binomiale et
les Xk les variables aléatoires (indépendantes) décrivant chaque expérience de Bernoulli.
n
Donc : E ( X ) = ∑ E( X
k =1
k ) = n. p .
Théorème 3.9 : inégalité de Markov.

Soit X une variable aléatoire discrète réelle positive admettant une espérance.
E( X )
Alors : ∀ a ≥ 0, a.P ( X ≥ a ) ≤ E ( X ) , ou si : a > 0, P ( X ≥ a ) ≤ .
a
Démonstration :
Soit : a ≥ 0, fixé.
Notons {xk, k ∈ } une énumération des valeurs prises par X, K+ l’ensemble des indices k tels que :
xk ≥ a, et pour un entier n donné Kn+ les indices : 0 ≤ k ≤ n, dans K+.
n +∞
Alors : ∀ n ∈ , ∑ x .P ( X = x
k k ) ≤ ∑ x k .P ( X = x k ) ≤ ∑ x k .P ( X = x k ) = E ( X ) .
k∈K n+ k =0 k =0
Puis : ∀ k ∈ Kn+, a.P ( X = x k ) ≤ x k .P ( X = x k ) , d’où : ∀ n ∈ , a. ∑ P( X = x k ) ≤ E ( X ) .

k∈K n+
 
Enfin on a : {X ≥ a} = U {X = xk } = 
U  U+ {X = x } , puisque : K + = U K n+ .
n∈N  k ∈K n
k

k∈K +  n∈N
Donc {X ≥ a} est la réunion (croissante) des ensembles ci-dessus et :

 
P U {X = x k } = ∑ P( X = x k ) , puisque les événements sont indépendants.
 k∈K +  k∈K +
 n  n
Finalement : a.P ( X ≥ a ) = lim a. ∑ P ( X = x k ) ≤ E ( X ) .

n → +∞
k∈K n+
On aurait pu également signaler que la suite des sommes partielles est croissante et majorée donc
convergente.
4. Couple et famille finie de variables aléatoires, indépendance.
Théorème 4.1 et définition 4.1 : couple de variables aléatoires discrètes.

Soient X et Y des variables aléatoires discrètes sur un espace probabilisé (Ω,A,P) à valeurs dans deux
ensembles E et F.
L’application X définie de Ω dans E×F par : ∀ ω ∈ Ω, Z(ω) = (X(ω),Y(ω)),
est une variable aléatoire discrète sur Ω.
On note alors : Z = (X,Y).
Démonstration :
Z est bien une application de Ω dans E×F.
De plus l’image Z(Ω) est : Z(Ω) = {(X(ω),Y(ω)), ω ∈ Ω}, est incluse dans X(Ω)×Y(Ω), et puisque X(Ω) et
Y(Ω) sont dénombrables, le produit cartésien X(Ω)×Y(Ω) l’est aussi, tout comme Z(Ω).
Enfin : ∀ (x,y) ∈ X(Ω)×Y(Ω), Z-1({(x,y)}) = X-1({x}) ∩ Y-1({y}),
et comme X-1({x}) et Y-1({y}) sont des événements, Z-1({(x,y)}) en est un aussi.
Définition 4.2 : loi conjointe et lois marginales d’un couple de variables aléatoires discrètes.
Soient X et Y des variables aléatoires discrètes sur un espace probabilisé (Ω,A,P) à valeurs dans deux
ensembles E et F et soit : Z = (X,Y), le couple défini par X et Y.
On appelle loi conjointe du couple la loi de Z, et lois marginales du couple les lois de X et de Y appelée
aussi « loi marginale en X » et « loi marginale en Y ».
Théorème 4.2 : lien entre loi conjointe et lois marginales d’un couple de variables aléatoires.
Soient X, Y des variables aléatoires discrètes sur un espace probabilisé (Ω,A,P) à valeurs dans E et F.
La connaissance de la loi conjointe du couple (X,Y) entraîne celle des lois marginales.
La réciproque est fausse autrement dit connaître les lois marginales ne suffit pas pour connaître la loi
conjointe.
Démonstration :
Soit : x ∈ X(Ω).
Alors : ∀ ω ∈ Ω, (X(ω) = x) ⇔ (∃ y ∈ Y(Ω), (X(ω),Y(ω)) = (x,y)).
Donc : {X = x} = {(X,Y) = (x,y), y ∈ F} = {x}×F, d’où :
PX ( x) = P( X = x) = P(( X , Y ) ∈ {x}× F ) = PZ ({x}× F ) .
Et donc la probabilité PZ étant supposée connue, la probabilité PX est connue d’après le théorème 1.4.
De même : ∀ y ∈ Y(Ω), PY ( y ) = PZ ( E × {y}) , et on en déduit PY.
Définition 4.3 : lois conditionnelles.

Soient X, Y des variables aléatoires discrètes sur un espace probabilisé (Ω,A,P) à valeurs dans E et F.
Pour : y ∈ Y(Ω), tel que {Y = y} ne soit pas négligeable ( P (Y = y ) > 0 ), on définit la loi conditionnelle de
P (( X = x) ∩ (Y = y ))
X sachant {Y = y} par : ∀ x ∈ X(Ω), P(Y = y ) ( X = x) = ,
P (Y = y )
P (( X ∈ A) ∩ (Y = y ))
et plus généralement : ∀ A ⊂ X(Ω), P(Y = y ) ( X ∈ A) = .
P (Y = y )
De même, pour : x ∈ X(Ω), tel que {X = x} ne soit pas négligeable ( P ( X = x) > 0 ), on définit la loi
P (( X = x) ∩ (Y = y ))
conditionnelle de Y sachant {X = x} par : ∀ y ∈ Y(Ω), P( X = x ) (Y = y ) = .
P( X = x)

Théorème 4.3 : lien entre loi conjointe, loi marginale et loi conditionnelle.
Soit (Ω,A,P) un ensemble probabilisé.
Soient X et Y des variables aléatoires discrètes de Ω dans E et F.
La loi de X d’une part et pour tout : x ∈ X(Ω), tel que {X = x} soit non négligeable, la loi de Y sachant
{X = x} d’autre part, déterminent entièrement la loi conjointe du couple (X,Y).
Démonstration :
Ce résultat est immédiat puisque : ∀ (x,y) ∈ X(Ω)×Y(Ω),
P(( X = x) ∩ (Y = y ))
• si : P(X = x) > 0, alors : P( X = xà (Y = y ) = , donc :
P( X = x)
P(( X = x) ∩ (Y = y )) = P(Y = y X = x).P( X = x) ,
• si : P(X = x) = 0, alors : {(X,Y) = (x,y)} ⊂ {X = x}, et donc :
P (( X , Y ) = ( x, y )) = 0 = P (( X = x) ∩ (Y = y )) = P( X = x ) (Y = y ).P ( X = x) .
En connaissant la probabilité de (X,Y) sur les événements élémentaires, on en déduit la loi de probabilité
de (X,Y).
Définition 4.4 : couple de variables aléatoires indépendantes.

On dit que X et Y sont indépendantes lorsque :
∀ (x,y) ∈ X(Ω)×Y(Ω), P (( X = x) ∩ (Y = y )) = P ( X = x).P (Y = y ) ,
ou encore lorsque : ∀ (x,y) ∈ X(Ω)×Y(Ω), {X = x} et {Y = y} sont indépendants.
Théorème 4.4 : (admis) indépendance et événements non élémentaires.

Si X et Y sont indépendantes, alors :
∀ A ⊂ X(Ω), ∀ B ⊂ Y(Ω), P (( X ∈ A) ∩ (Y ∈ B )) = P ( X ∈ A).P (Y ∈ B ) .
A et B étant au plus dénombrables, on peut noter : A = {xk, k ∈ K}, et : B = {yl, l ∈ L}.
Puis (X ∈ A)∩(Y ∈ B) est la réunion disjointe de (X = xk)∩(Y = yl), avec : (k,l) ∈ K×L.
Or la famille ( P (( X = xk ) ∩ (Y = yl ))) ( k ,l )∈K × L est sommable.
En effet, elle est à termes positifs et :
• ∀ (k,l) ∈ K×L, P (( X = x k ) ∩ (Y = yl )) = P ( X = xk ).P (Y = yl ) ,
• pour tout : k ∈ K, la famille ( P ( X = xk ).P (Y = yl )) l∈L est sommable de somme :
∀ k ∈ K, ∑ P( X = x
l∈L
k ).P (Y = yl ) = P ( X = xk ).∑ P (Y = yl ) = P ( X = xk ).P (Y ∈ B ) ,
l∈L
• la famille ( P ( X = xk ).P (Y ∈ B )) k∈K est sommable de somme :

∑ P( X = x ).P(Y ∈ B) = P(Y ∈ B).∑ P( X = x
k∈K
k
k∈K
k ) = P ( X ∈ A).P (Y ∈ B ) .
La famille ( P (( X = xk ) ∩ (Y = yl ))) ( k ,l )∈K × L étant sommable (th 8.10) on peut écrire :

 
P (( X ∈ A) ∩ (Y ∈ B )) = ∑ ( P(( X = x
( k ,l )∈K × L
) ∩ (Y = yl ))) = ∑  ∑ P ( X = x k ).P (Y = yl )  ,
k
k∈K  l∈L 
soit finalement : P (( X ∈ A) ∩ (Y ∈ B )) = P ( X ∈ A).P (Y ∈ B ) .
Théorème 4.5 : (admis) espérance d’un produit de variables aléatoires discrètes indépendantes.
Soient X et Y des variables aléatoires discrètes réelles sur Ω admettant une espérance.
Alors X.Y admet une espérance et si X et Y sont indépendantes, on a : E ( X .Y ) = E ( X ).E (Y ) .
Soient (xj) une énumération des valeurs prises par X et (yk) une énumération des valeurs prises par Y.
Notons par ailleurs : ∀ (j,k) ∈ 2, q j = P ( X = x j ) , rk = P (Y = y k ) , et : p j , k = P ( X = x j , Y = y k ) = q j .rk .

Le dernier point vient de l’indépendance de X et de Y.
Si X ou Y ne prend qu’un nombre fini de valeurs, on remplace par un ensemble fini d’indices.
Alors la série double ∑
x j . y k . p j ,k est absolument convergente d’après le théorème de Fubini (th. 8.10).
j , k ≥0
En effet : ∀ j ∈ , la série ∑x j ( )
. y k . p j ,k converge car : ∀ j ∈ , x j . y k . p j ,k = x j .q j . y k .rk , qui est à
k ≥0
une constante multiplicative près le terme général de la série (convergente) ∑y

n∈N
k .P(Y = y k ) .
Puis la série des sommes ainsi obtenue est ∑(x

j ≥0
j ) ( )
.q j .E ( Y ) = E ( Y ).∑ x j .q j , qui est encore
j ≥0
convergente, cette fois en référence à l’existence d’une espérance pour X.
Donc la série double converge, X.Y admet une espérance et le théorème de Fubini permet d’écrire :
+∞
 +∞  +∞  +∞   +∞   +∞ 
E ( X .Y ) = ∑  ∑ x j . y k . p j ,k  = ∑  ∑ ( x j .q j ).( y k .rk )  =  ∑ x j .q j . ∑ y k .rk  = E ( X ).E (Y ) .
j =0  k =0  j =0  k =0   j =0   k =0 
Théorème 4.6 : images de deux variables aléatoires discrètes indépendantes.

Soient X et Y des variables aléatoires discrètes indépendantes de Ω dans E et F.
Soient f et g des fonctions de E dans E’ et F dans F’ respectivement.
Alors f(X) et g(Y) sont des variables aléatoires de Ω dans E’ et F’ indépendantes.
Démonstration :
Pour : (x,y) ∈ X(Ω)×Y(Ω), on a :
{f(X) = x} = {X ∈ f-1({x})}, et : {g(Y) = y} = {Y ∈ g-1({y})}, (images réciproques).
Donc :
P(( f ( X ) ∈ A) ∩ ( g (Y ) ∈ B)) = P(( X ∈ f −1
({x})) ∩ (Y ∈ g −1 ({y}))) = P( X ∈ f −1
({x})).P(Y ∈ g −1 ({y})) ,
la dernière égalité venant du fait que les variables X et Y sont indépendantes.
On termine avec : P ( X ∈ f −1 ({x})) = P ( f ( X ) = x) , et : P (Y ∈ g −1 ({y})) = P ( g (Y ) = y ) , soit finalement :
P (( f ( X ) = x) ∩ ( g (Y ) = y )) = P ( f ( X ) = x).P ( g (Y ) = y ) ,
autrement dit, les variables f(X) et g(Y) sont indépendantes.
Définition 4.5 : famille finie de variables aléatoires discrètes mutuellement indépendantes.

Soient X1, …, Xn des variables aléatoires discrètes de Ω dans E1, …, En.
On dit que les variables aléatoires X1, …, Xn sont mutuellement indépendantes lorsque :
 n
 n
∀ (Ai)1≤i≤n ∈ P(X1(Ω))×…×P(Xn(Ω)), P I {X i ∈ Ai } = ∏ P( X i ∈ Ai ) .
 i =1  i =1
Remarque :
Comme dans le cas discret, on a également le résultat suivant :
Si X1, …, Xn sont des variables aléatoires discrètes de (Ω,A,P) dans E1, …, En, alors
X1, …,Xn sont mutuellement indépendantes si et seulement si :
∀ (x1, …, xn) ∈ X1(Ω)×…×Xn(Ω), P (( X 1 = x1 ) ∩ ... ∩ ( X n = x n )) = P ( X 1 = x1 )...P ( X n = x n ) .
Définition 4.6 : suite de variables aléatoires discrètes mutuellement indépendantes.

Soit (Xn) une suite de variables aléatoires discrètes de Ω dans des ensembles (En).
Les variables sont dites mutuellement indépendantes lorsque toute sous-famille finie extraite de cette
suite est une famille de variables aléatoires mutuellement indépendantes.
Théorème 4.7 : (admis) existence d’un modèle pour des lois de probabilité données.
Soit (Pn)n∈ une suite de probabilités sur telle que :
∀ n ∈ , ∃ Sn ⊂ , Sn au plus dénombrable, Pn(Sn) = 1.

Alors il existe un espace probabilisé (Ω,T,P), et une suite de variable aléatoires discrètes réelles (Xn)n∈
définies sur Ω et mutuellement indépendantes, tels que chaque variable aléatoire Xn suit la loi Pn.
Démonstration : là c’est vraiment hors programme.
exemple 4.1 :
Soit une infinité de lancers d’une pièce suivant chacun une loi de Bernoulli B(pn).
Alors il existe un espace probabilisé (Ω,T, P) qu’on ne détaille pas et une suite de variables aléatoires
mutuellement indépendantes (Xn)n∈ *, tels que chaque variable Xn suit la loi B(pn).
Chaque loi Xn représente le résultat du nième lancer de la pièce.
L’ensemble Ω peut être vu comme la suite : ω = (ω1, …, ωn, …), des résultats possibles issus d’une
infinité de lancers de la pièce, autrement dit : ∀ n ∈ *, ωn vaut Pile ou Face (ou : 1 = Pile, et : 0 = Face).
Plus simplement encore, l’ensemble Ω est la structure mathématique qui permet d’envisager
simultanément et proprement l’ensemble des lancers, alors que l’approche initiale ne permet que de les
envisager séparément les uns des autres.
C’est ce théorème qui permet la généralisation de ce qu’on avait fait lorsqu’on avait pensé deux lancers
successifs (et indépendants) de la même pièce puisque alors, on avait travaillé dans :
Ω = {(P,P), (P,F), (F,P), (F,F)}, soit l’ensemble des résultats possibles des deux lancers, envisagés
dans leur globalité.
1
Imaginons maintenant une infinité de lancers d’une Pièce équilibrée (soit : ∀ n ∈ *, p n = ).
2
En pratique :
• l’événement « le premier tirage donne Pile » s’écrira {X1 = 1} et aura pour probabilité :
1
P(« le premier tirage donne Pile ») = P ( X 1 = 1) = P1 ( X 1 = 1) = .
2
• « les deux premiers tirages donnent Face » s’écrira {X1 = 0} ∩ {X2 = 0}, et aura pour probabilité :
P(« les deux premiers tirages donnent Face ») = P (( X 1 = 0) ∩ ( X 2 = 0)) ,
et par indépendance des variables :
1 1 1
P(« les deux premiers tirages donnent Face ») = P1 ( X 1 = 0).P2 ( X 2 = 0) = . = .
2 2 4
+∞
• « on obtient que des Face » s’écrira : A = I {X
n =1
n = 0} .
n
Pour calculer sa probabilité, on peut poser : ∀ n ∈ *, An = I {X
k =1
k = 0}, la suite des (An) est
1
décroissante pour l’inclusion et : P ( A) = lim P ( An ) = lim = 0 , toujours par indépendance des
n → +∞ n → +∞ 2 n
variables aléatoires.
Ceci justifie ce qu’on avait considéré à savoir que l’événement « n’obtenir que des Face » était
négligeable puisque de probabilité nulle.
Théorème 4.8 : somme de deux variables aléatoires indépendantes suivant une loi de Poisson.
Soient X et Y deux variables aléatoires suivantes des lois de Poisson P(λ) et P(µ), avec :
λ > 0, µ > 0.
Alors (X + Y) est une variable aléatoire qui suit la loi de Poisson P(λ + µ).
Démonstration :
Puisque X et Y sont définies de Ω dans alors : Z = X+Y, est définie de Ω dans et l’ensemble des
valeurs prises par Z est au plus dénombrable.
Puis : ∀ n ∈ Z(Ω), {Z = n} est la réunion disjointe (et en fait finie) :
n
{Z = n} = U {X = k }∩ {Y = n − k } = U {X = k }∩ {Y = n − k } .
k∈N k =0
n n n
λk µ n−k
Donc : P ( Z = z ) = ∑ P(( X = k ) ∩ (Y = n − k )) = ∑ P( X = k ).P(Y = n − k ) = ∑ e −λ .
k =0 k =0 k =0 k!
.e − µ .
(n − k )!
.
On reconnaît la formule du binôme et :

e −λ −µ n n! e − λ −µ n  n  k n−k − ( λ + µ ) (λ + µ )
n
P( Z = z ) = .∑ .λ .µ =
k n−k
.∑  .λ .µ = e . .
n! k =0 k!.(n − k )! n! k =0  k  n!
Z suit bien une loi de Poisson de paramètre (λ+µ).
5. Variance et covariance.
Théorème 5.1 : lien entre espérance de X et de X2.

Soit X une variable aléatoire discrète réelle.
Si X2 admet une espérance, alors X admet une espérance.
Démonstration :
On a dans l’inégalité : ∀ x ∈ , x ≤ 1 + x 2 .
Notons maintenant {xk, k ∈ } une énumération des valeurs prises par X.
n n n
Alors : ∀ n ∈ , S n = ∑x
k =0
k .P ( X = x k ) ≤ ∑ P ( X = x k ) + ∑ x k2 .P ( X = x k ) .
k =0 k =0
n
 n

Or : ∀ n ∈ , ∑ P( X = x k ) = P U {X = x k } = P ( X ∈ {x0 ,..., x n }) ≤ P ( X (Ω)) = 1 , et :
k =0  k =0 
n
∀n∈ , ∑x
k =0
2
k .P ( X = x k ) ≤ E ( X 2 ) .
Donc la suite des sommes partielles (Sn) est majorée et la série ∑x

k ∈N
k .P ( X = x k ) converge.
Conclusion : X admet bien une espérance.
Définition 5.1 : variance d’une variable aléatoire discrète réelle.

Soit X une variable aléatoire discrète réelle telle que X2 admet une espérance.
On appelle variance de X le réel : V ( X ) = E ( X 2 ) − E ( X ) 2 .
Théorème 5.2 : autre expression de la variance.

Soit X une variable aléatoire discrète réelle telle que X2 admet une espérance.
Alors : V ( X ) = E (( X − E ( X )) 2 ) .
Démonstration :
On peut développer, et utiliser les propriétés de l’espérance établies au paragraphe 3, en notant que les
trois variables aléatoires X2, X et la constante E(X)2 ont toutes une espérance.
Puis : E (( X − E ( X )) 2 ) = E ( X 2 − 2. X .E ( X ) + E ( X ) 2 ) = E ( X 2 ) − 2.E ( X ).E ( X ) + E ( X ) 2 .
D’où : E (( X − E ( X )) 2 ) = E ( X 2 ) − E ( X ) 2 = V ( X ) .
Remarque :
Il est équivalent de dire « X admet une variance » et « X2 admet une espérance » dans la mesure où la
première proposition sous-entend que X admet au moins une espérance.
Dans ce cas V(X) existe si et seulement si E(X2) existe.
Théorème 5.3 : propriétés élémentaires de la variance.

Soit X une variable aléatoire discrète réelle admettant une variance.
Alors :
• V (X ) ≥ 0 ,
• ∀ a ∈ , a.X admet une variance et : V ( a. X ) = a 2 .V ( X ) ,
• ∀ b ∈ , (X + b) admet une variance et : V ( X + b) = V ( X ) ,
• ∀ (a,b) ∈ 2
, (a.X + b) admet une variance et : V ( a. X + b) = a 2 .V ( X ) .
Démonstration :
• Il suffit de dire que (X – E(X))2 est une variable aléatoire positive donc d’espérance positive.
• Pour : a ∈ , la variable aléatoire (a.X)2 a une espérance d’après le théorème 3.4, et on a :
V (a. X ) = E (a 2 . X 2 ) − E (a. X ) 2 = a 2 .( E ( X 2 ) − E ( X ) 2 ) = a 2 .V ( X ) .

• Pour : b ∈ , les variables aléatoires X2, X et la variable constante b ont une espérance et on a :
V ( X + b) = E (( X + b) 2 ) − E ( X + b) 2 = E ( X 2 + 2.b. X + b 2 ) − ( E ( X ) + b) 2 , d’où :
V ( X + b) = E ( X 2 ) + 2.b.E ( X ) + b 2 − ( E ( X ) 2 + 2.b.E ( X ) + b 2 ) = E ( X 2 ) − E ( X ) 2 = V ( X ) .
• Le quatrième point est la combinaison des points 2 et 3.
Définition 5.2 : écart-type d’une variable aléatoire discrète réelle.

Soit X une variable aléatoire discrète réelle admettant un moment d’ordre 2.
L’écart-type de X est défini par : σ ( X ) = V ( X ) = E( X 2 ) − E( X ) 2 .
Théorème 5.4 : variance d’une variable aléatoire ne prenant qu’un nombre fini de valeurs.
Soit X une variable aléatoire réelle ne prenant qu’un nombre fini de valeurs.
Alors X admet une variance.
Démonstration :
Comme pour l’espérance de X dans ce cas, X2 admet une espérance et donc X admet une variance.
Théorème 5.5 : variance d’une variable aléatoire suivant une loi géométrique.
Soit X une variable aléatoire discrète réelle suivant la loi G(p), avec : p ∈ ]0,1[.
1− p
Alors X admet une variance et : V ( X ) = .
p2
Démonstration :
 1 
La série ∑kk ≥1
2
. p.(1 − p ) k −1 est absolument convergente puisque : k 2 . p.(1 − p ) k −1 = o + ∞  2  , avec le
k 
théorème des croissances comparées (et : p ∈ ]0,1[).
Donc X2 admet une espérance et X admet une variance.
+∞ +∞ +∞
Puis : ∑k
k =1
2
. p.(1 − p ) k −1 = p.(1 − p ).∑ k .(k − 1).(1 − p ) k − 2 + p.∑ k .(1 − p ) k −1 ,
k =2 k =1
puisque les deux séries convergent.
On utilise ensuite la dérivée seconde de la série entière :
+∞ +∞
1 2
∀ x ∈ ]-1,+1[, = ∑ x n , et :
1 − x n =0 (1 − x) 3
= ∑
n =1
n.(n − 1).x n − 2 , et :
+∞
2 1 2− p
∑
k =1
k 2 . p.(1 − p) k −1 = p.(1 − p ).
(1 − (1 − p)) 3
+ =
p p2
, soit finalement :
2 − p 1 1− p
V ( X ) = E( X 2 ) − E( X )2 = − 2 = 2 .
p2 p p
Théorème 5.6 ; variance d’une variable aléatoire suivant une loi de Poisson.
Soit X une variable aléatoire discrète réelle suivant la loi de Poisson P(λ), avec : λ > 0.
Alors X admet une variance et : V ( X ) = λ .
Démonstration :
λk λk  1 
En effet, la série ∑ k 2 .e −λ .
k ≥1 k!
est absolument convergente puisque : k 2 .e −λ .
k!
= o 2
k
 , en +∞,

toujours avec le théorème des croissances comparées.
Donc X2 admet une espérance et X admet une variance.
+∞
λk +∞
λk +∞
λk +∞
λk + 2 +∞
λk +1
Puis : E ( X 2 ) = ∑ k 2 .e −λ .
k!k =1 k = 2 ( k − 2)!
= e −λ .∑
k =1 ( k − 1)!
+ e −λ .∑ = e −λ .∑
k =0 k!
+ e −λ .∑
k =0 k!
= λ2 + λ .
Finalement : V ( X ) = E ( X ) − E ( X ) = λ + λ − λ = λ .
2 2 2 2
Remarques :
• On définit pour les variables aléatoires discrètes réelles, comme dans le cas de variables aléatoires
finies, la notion de variable centrée (ou d’espérance nulle) et de variable réduite (ou dont la variance est

égale à 1).
• On peut de même associer à une variable aléatoire discrète réelle X admettant une espérance et une
variance non nulle, une variable centrée réduite donnée par :
X − E( X )
X* = , qui vérifie alors : E ( X *) = 0 , et : σ ( X *) = 1 .
σ (X )
Théorème 5.7 : inégalité de Bienaymé-Tchebytchev.

Soit X une variable aléatoire discrète réelle admettant une variance.
V (X )
Alors : ∀ ε > 0, P ( X − E ( X ) ≥ ε ) ≤ .
ε2
Démonstration :
On a l’équivalence : ∀ ε > 0, (|X – E(X)| ≥ ε) ⇔ ((X – E(X))2 ≥ ε2).
Or la variable aléatoire (X – E(X))2 est positive, donc d’après l’inégalité de Markov avec :
a = ε2, on a : ε 2 .P ( X − E ( X ) ≥ ε ) = ε 2 .P (( X − E ( X )) 2 ≥ ε 2 ) ≤ E (( X − E ( X )) 2 ) = V ( X ) .
D’où le résultat.
Théorème 5.8 : inégalité de Cauchy-Schwarz.

Soient X et Y des variables aléatoires réelles admettant une variance.
Alors X.Y admet une espérance et : E ( X .Y ) 2 ≤ E ( X 2 ).E (Y 2 ) .
De plus il y a égalité dans cette inégalité si et seulement si : ∃ (α,β) ∈ 2, (α,β) ≠ (0,0), tel que :
P (α . X + β .Y = 0) = 1 , autrement dit (α.X + β.Y) est nulle presque sûrement.
Démonstration :
• Considérons maintenant deux variables aléatoires X et Y, et notons :
{xi, i ∈ I}, {yj, j ∈ J} les ensembles de valeurs (au plus dénombrables) que prennent X et Y, ainsi que :
Z = X.Y, puis : ∀ (i,j) ∈ I×J, z i , j = xi . y j , et : ∆i,j = X-1(xi) ∩ Y-1(yj).
On constate que :
- les ensembles {X-1(xi), i ∈ I} et {Y-1(yj), j ∈ J} forment chacun des partitions au plus dénombrables de Ω,
- l’ensemble {∆i,j, (i,j) ∈ I×J} forme une partition au plus dénombrable de Ω (dont certaines parties
peuvent être vides),
- pour i fixé dans I, l’ensemble {∆i,j, j ∈ J} forme une partition de X-1(xi).
Puis : ∀ (i,j) ∈ I×J, ∀ ω ∈ ∆i,j, Z (ω ) = X (ω ).Y (ω ) = xi . y j = z i , j .
xi2 + y 2j
On a par ailleurs : ∀ (i,j) ∈ I×J, z i , j = xi . y j ≤ ,
2
et pour i fixé dans I, la famille ( xi .P ((Y = y j ) ∩ ( X = xi )) )j∈J est sommable puisque :
2
P ( X = xi ) = ∑ P ((Y = y j ) ∩ ( X = xi )) ,
j∈J
et le produit par xi2 (constant) ne modifie pas cette sommabilité.

 
De plus la famille  ∑x
.P ((Y = y j ) ∩ ( X = xi ))  , est encore sommable puisque chaque terme
2
i
 j∈J  i∈I
( )
correspond à xi .P ( X = xi ) i∈I , (formule des probabilités totales) et cette famille est sommable puisque
2
2
X admet une espérance.
Donc le th 8.11 permet d’affirmer que la famille xi2 .P ((Y = y j ) ∩ ( X = xi )) ( )( i , j )∈I × J
est sommable.
De même la famille y 2j .P ((Y = y j ( ) ∩ ( X = x )) ) i ( i , j )∈I × J

est sommable.
Donc la somme de ces deux familles et finalement par majoration la famille z i , j .P ( ∆ i , j ) ( )( i , j )∈I × J
sont
sommables.
Enfin, on peut regrouper par paquets les termes zi,j qui sont égaux, et la somme de la dernière famille
   
vaut : ∑z i, j .P ( ∆ i , j ) = ∑ 
 ∑ z i , j .P ( ∆ i , j )  =
z∈Z ( Ω )  ( i , j )∈I × J , zi , j = z
 ∑ z . ∑ P(∆ i , j )  =
 ( i , j )∈I × J , z = z  ∑ z .P ( Z = z ) .
( i , j )∈I × J  z∈Z ( Ω )  i, j  z∈Z ( Ω )
En effet, pour z fixé, les ensembles {∆i,j, (i,j) ∈ I×J, zi,j = z} sont deux à deux disjoints et leur réunion

donne {Z = z}, donc la formule des probabilités totales conduit à : ∑ P(∆
( i , j )∈I × J , zi , j = z
i, j ) = P( Z = z ) .
Autrement dit, Z (c'est-à-dire X.Y) admet bien une espérance.

• Considérons maintenant pour t réel fixé la variable aléatoire discrète (X + t.Y)2.
Elle admet une espérance puisque X2, Y2 et X.Y en admettent une, et étant positive, on a :
E (( X + t.Y ) 2 ) = E ( X 2 ) + 2.t.E ( X .Y ) + t 2 .E (Y 2 ) ≥ 0 .
Si : E (Y 2 ) = 0 , alors la fonction affine de t ci-dessus restant positive sur , on a aussi : E ( X .Y ) = 0 .
Si : E (Y 2 ) ≠ 0 (et donc strictement positif), le trinôme restant positif sur , il ne peut admettre au plus
qu’une racine double réelle et son discriminant est négatif ou nul, soit : 4.E ( X .Y ) 2 − 4.E ( X 2 ).E (Y 2 ) ≤ 0 .
Dans les deux cas, on conclut que : E ( X .Y ) 2 ≤ E ( X 2 ).E (Y 2 ) .
• Enfin, s’il y a égalité dans cette inégalité, alors :
- soit : E (Y 2 ) = 0 = E ( X .Y ) , et : Y = 0.X + 1.Y, est nulle presque sûrement,
- soit : E (Y 2 ) ≠ 0 , et : ∃ t ∈ , E (( X + t.Y ) 2 ) == 0 , et : X + t.Y = 1.X + t.Y est nulle presque sûrement.
Réciproquement, si : α.X + β.Y est nulle presque sûrement (avec par exemple : α ≠ 0), alors en posant :
β
t=− , on a : X = t.Y , d’où : E ( X .Y ) 2 = E (t.Y 2 ) 2 = t 2 .E (Y 2 ) = E (t.Y ) 2 .E (Y ) 2 = E ( X ) 2 .E (Y ) 2 ,
α
d’où égalité dans l’inégalité de Cauchy-Schwarz.
Théorème 5.9 et définition 5.3 : covariance d’un couple de variables aléatoires discrètes réelles.
Soient X et Y des variables aléatoires réelles admettant une variance.
Alors les variables centrées : X’ = X – E(X), et Y’ = Y – E(X), admettent une variance et on peut définir :
Cov( X , Y ) = E ( X '.Y ' ) .
On a par ailleurs l’égalité : Cov ( X , Y ) = E ( X .Y ) − E ( X ).E (Y ) .
Le réel Cov(X,Y) est appelé covariance du couple (X,Y).
Démonstration :
Puisque X2 admet une espérance, X aussi ainsi que la variable aléatoire constante E(X)2, donc X’2 admet
une espérance.
On a évidemment le même résultat pour Y’2.
On a ensuite :
Cov( X , Y ) = E (( X − E ( X )).(Y − E (Y ))) = E ( X .Y ) − 2.E ( X ).E (Y ) + E ( X ).E (Y ) = E ( X .Y ) − E ( X ).E (Y ) .
Théorème 5.10 : covariance d’un couple de variable aléatoires discrètes réelles indépendantes.
Soient X et Y deux variables aléatoires discrètes réelles admettant une variance.
Si X et Y sont indépendantes, alors : Cov ( X , Y ) = 0 .
Démonstration :
Si X et Y sont indépendantes, alors (théorème 4.5) : E ( X .Y ) = E ( X ).E (Y ) , d’où le résultat.
Définition 5.4 et théorème 5.11 : coefficient de corrélation d’un couple de variables aléatoires
discrètes réelles.
Soient X et Y deux variables aléatoires discrètes réelles admettant une variance et telles que :
V ( X ) > 0 , et : V (Y ) > 0 .
Cov( X , Y )
On appelle coefficient de corrélation du couple (X,Y) le réel : ρ ( X , Y ) = .
σ ( X ).σ (Y )
On a alors : − 1 ≤ ρ ( X , Y ) ≤ 1
Démonstration :
L’inégalité de Cauchy-Schwarz garantit immédiatement l’encadrement.
En effet : Cov( X , Y ) = E ( X '.Y ' ) ≤ E ( X ' 2 ) . E (Y ' 2 ) = σ ( X ).σ (Y ) ,
où on a noté X’ et Y’ les variables aléatoires centrées associées à X et Y.
Théorème 5.12 : variance d’une somme finie de variables aléatoires discrètes réelles.
Soient X1, …, Xn des variables aléatoires discrètes réelles, telles que X12, …, Xn2 admettent une
espérance.

Alors (X1 + … + Xn) admet une variance et :
n
V ( X 1 + ... + X n ) = ∑V ( X i ) + ∑[ E ( X .X i j ) − E ( X i ).E ( X j )] .
i =1 1≤ i ≠ j ≤ n
Démonstration :
L’existence d’une variance pour la somme s’obtient par récurrence en démontrant en particulier que si X1
et X2 ont une variance, alors (X1 + X2) aussi.
Pour cela : ( X 1 + X 2 ) 2 = X 12 + X 22 + 2. X 1 . X 2 ,
et X1.X2 admet une espérance comme on l’a vu dans l’inégalité de Cauchy-Schwarz.
On termine pour une somme de n termes par récurrence sur n.
Ensuite il suffit de développer :
n n
• ( X 1 + ... + X n ) 2 = ∑ X i2 +
i =1
∑ X i .X j , et : E (( X 1 + ... + X n ) 2 ) = ∑ E ( X i2 ) +
1≤ i ≠ j ≤ n i =1
∑ E ( X .X
1≤i ≠ j ≤ n
i j ),
2
 n  n
• ( E ( X 1 + ... + X n )) =  ∑ E ( X i )  = ∑ E ( X i ) 2 + ∑ E ( X i ).E ( X j ) ,
2
 i =1  i =1 1≤i ≠ j ≤ n
n
donc : V ( X 1 + ... + X n ) = ∑[E( X
i =1
i
2
) − E( X i ) 2 ] + ∑ [ E ( X .X
1≤ i ≠ j ≤ n
i j ) − E ( X i ).E ( X j )] ,
soit le résultat annoncé.
Théorème 5.13 : variance d’une somme de deux variables aléatoires discrètes réelles
indépendantes.
Soient X et Y des variables aléatoires discrètes réelles indépendantes et telles que X2 et Y2 admettent
une espérance.
Alors (X + Y) admet une variance et : V ( X + Y ) = V ( X ) + V (Y ) .
Démonstration :
Le fait que (X + Y) admette une variance a été démontré au-dessus et en appliquant le résultat du
théorème 5.11 pour deux variables aléatoires, on obtient :
V ( X + Y ) = [V ( X ) + V (Y )] + 2.[ E ( X .Y ) − E ( X ).E (Y )] ,
puisqu’il y a bien deux couples d’indices possibles : (i,j) = (1,2) ou (2,1).
Et comme les variables sont supposées indépendantes, on a (th.4.5) : E ( X .Y ) = E ( X ).E (Y ) , soit
finalement : V ( X + Y ) = V ( X ) + V (Y ) .
Remarque :
On généralise immédiatement ce résultat à n variables aléatoires discrètes réelles, mutuellement
indépendantes, telles que chacune d’elle admette une variance en :
V ( X 1 + ... + X n ) = V ( X 1 ) + ... + V ( X n ) .
Rappel :
• Si X suit la loi uniforme U(n), alors :
1 2  n +1 1 n.(n + 1).(2.n + 1) n 2 + 2.n + 1 n 2 − 1
n 2
V ( X ) = ∑ .k −   = . − = .
k =1 n  2  n 6 4 12
• Si X suit la loi de Bernoulli B(p), alors :
V ( X ) = [0 2.(1 − p ) + 12. p ] − ( p ) 2 = p − p 2 = p.(1 − p ) .
• Si X suit la loi binomiale B(n,p), on peut également faire le calcul par les formules précédentes.
Il est ici beaucoup plus rapide d’utiliser la généralisation précédente qui permet d’écrire :
X = X1 + … + Xn, et : V ( X ) = V ( X 1 + ... + X n ) = V ( X 1 ) + ... + V ( X n ) = n. p.(1 − p ) .
Théorème 5.14 : loi faible des grands nombres.

Soit (Xk)k∈ * une suite de variable aléatoires indépendantes et de même loi, et admettant un moment
d’ordre 2 (telles que pour tout : k ≥ 1, Xk2 admette une espérance).

n
On note : m = E ( X 1 ) , σ = σ ( X 1 ) , et : ∀ n ∈ *, S n = ∑X
k =1
k .
1  σ2 1 
Alors : ∀ ε > 0, P .S n − m ≥ ε  ≤ , et en particulier : ∀ ε > 0, lim P .S n − m ≥ ε  = 0 .
 n.ε
2 n → +∞
n n 
Démonstration :
Toutes les variables ont la même espérance et le même écart-type.
De plus, avec la généralisation du théorème 5.13 à n variables aléatoires, Sn est telle que :
n n
S 
V ( S n ) = ∑ V ( X k ) = n.σ 2 , et : E ( S n ) = ∑ E ( X k ) = n.m , d’où : E  n  = m .
k =1 k =1  n 
σ2
2
S S  1
Si on note : M n = n , on a donc : E ( M n ) = m , et : V ( M n ) = V  n  =   .V ( S n ) = .
n  n  n n
Puis on remarque ensuite que : ∀ ε > 0, { ( M n − E ( M n )) 2 > ε 2 } = { M n − E ( M n ) > ε }.
Donc l’inégalité de Bienaymé-Tchebytchev (th. 3.7) donne :
V (M n ) σ2
P ( M n − E ( M n ) > ε ) = P (( M n − E ( M n )) 2 > ε 2 ) ≤ = .
ε2 n.ε 2
1  σ2
On obtient donc bien : ∀ ε > 0, P .S n − m ≥ ε  ≤ .
 n.ε
2
n
1 
La conséquence est immédiate : ∀ ε > 0, lim P .S n − m ≥ ε  = 0 .
n → +∞
n 
Remarque :
Ce théorème est le premier qui permet de justifier le fait que l’on choisisse par exemple comme
probabilité d’obtenir un pile (ou un face) une valeur égale à 0.5.
En effet, la probabilité que la moyenne des valeurs obtenues lors d’une répétition de tirages (soit une
moyenne statistique) s’écarte de l’espérance d’un des tirage (soit une moyenne probabiliste) tend vers
0 lorsque le nombre de ces tirages tend vers +∞.
Autrement dit, ces deux moyennes en un certain sens coïncident…
6. Fonctions génératrices des variables aléatoires à valeurs dans .
Définition 6.1 : fonction génératrice d’une variable aléatoire à valeurs dans .

Soit X une variable aléatoire à valeurs dans .
On appelle fonction (ou série) génératrice associée à X la fonction notée GX et définie par :
+∞
∀ t ∈ , G X (t ) = ∑ P( X = n).t
n =0
n
.
Remarque :
Par la formule de transfert (théorème 3.3), c’est aussi l’espérance (quand elle existe) de la variable
+∞
aléatoire discrète réelle tX, soit : G X (t ) = ∑ P( X = n).t
n =0
n
= E (t X ) .
Théorème 6.1 : rayon de convergence et propriétés d’une fonction génératrice.

Soit X une variable aléatoire à valeurs dans .
• Le rayon de convergence de la fonction GX associée à X vaut au moins 1.
• GX est même définie sur [-1,+1] au moins.
• Pour tout : t ∈ [-1,+1], G X (t ) ≤ 1 , et : G X (1) = 1 .
• GX est continue sur [-1,+1] et de classe C∞ sur ]-1,+1[ au moins.
Démonstration :
• On peut par exemple remarquer que pour : t = ±1, la série numérique correspondante est la série
∑P ( X = n).(±1) n , soit la série
n ≥0
∑
P ( X = n) .
n ≥0

Or cette série converge (et a pour somme 1) puisque ({X = n}, n ∈ ) constitue un système complet
d’événements.
• Comme série entière, GX converge donc au moins sur [-1,+1] et son rayon de convergence vaut au
moins 1.
• On a vu que : G X (1) = 1 , et :
+∞ +∞ +∞
∀ t ∈ [-1,+1], G X (t ) = ∑ P( X = n).t n ≤ ∑ P( X = n). t ≤ ∑ P( X = n) = G X (1) = 1 .
n
n =0 n=0 n =0
• Enfin comme série entière GX est de classe C∞ au moins sur ]-1,+1[, et sur [-1,+1], la série de fonctions
qui la constitue converge normalement puisque :
∀ t ∈ [-1,+1], P ( X = n).t n ≤ P ( X = n) , et la série ∑
P ( X = n) converge.
n ≥0
Associé au fait que toutes les fonctions sont continues sur [-1,+1] car polynomiales, on en déduit bien la
continuité de GX sur [-1,+1].
Remarque :
Lorsque les valeurs prises par une variable aléatoire forment un ensemble fini, sa fonction génératrice
devient un polynôme.
exemples 6.1 :
• La fonction génératrice d’une variable aléatoire suivant la loi uniforme U(n) est :
n
1 k 1 n k 1 t − t n +1
∀ t ∈ , G x (t ) = ∑
k =1 n
.t = .∑ t = .
n k =1 n 1− t
, cette dernière égalité étant vraie pour : t ≠ 1.
• La fonction génératrice d’une variable aléatoire suivant la loi de Bernoulli B(p) est :
∀ t ∈ , G x (t ) = p.t 1 + (1 − p ).t 0 = 1 − p + p.t ,
• La fonction génératrice d’une variable aléatoire suivant la loi binomiale B(n,p) est :
n
n k n
n
∀ t ∈ , G x (t ) = ∑  
k 
k =0  
. p .(1 − t ) n− k k
.t = ∑  .( p.t ) k .(1 − t ) n − k = (1 − t + p.t ) n .
k =1  k 
Théorème 6.2 : lien réciproque entre fonction génératrice et variable aléatoire.

Soit X une variable aléatoire à valeurs dans et soit GX sa fonction génératrice.
Alors GX permet de retrouver la loi de X.
G X( n ) (0)
En particulier : ∀ n ∈ , P ( X = n) = .
n!
Démonstration :
Ce résultat est une conséquence immédiate de ce qu’on a vu sur les séries entières.
Théorème 6.3 : fonction génératrice d’une variable suivant une loi géométrique.
Soit X une variable aléatoire discrète réelle suivant la loi G(p), avec : p ∈ ]0,1[.
1 1
Alors sa fonction génératrice GX est définie sur ] − ,+ [ et vaut :
1− p 1− p
1 1 p.t
∀ t ∈ ]− ,+ [, G X (t ) = .
1− p 1− p 1 − (1 − p ).t
Démonstration :
La série entière cherchée est définie par :
+∞ +∞ +∞
∀ t ∈ , G X (t ) = ∑ P( X = n).t n = ∑ p.(1 − p) n−1 .t n = p.t.∑ (1 − p) n−1 .t n−1 ,
n =1 n =1 n =1
1
et la série géométrique qui apparaît a un rayon de convergence égal à : R = > 1.
1− p
+∞
1 1 1
De plus : ∀ t ∈ ] − ,+ [, G X (t ) = p.t.∑ [(1 − p ).t ]n = p.t. .
1− p 1− p n =0 1 − (1 − p ).t

Théorème 6.4 : fonction génératrice d’une variable suivante une loi de Poisson.
Soit X une variable aléatoire suivantes la loi de Poisson P(λ) avec : λ > 0.
Alors sa fonction génératrice GX est définie sur et vaut :
∀ t ∈ , G X (t ) = e λ .(t −1) .
Démonstration :
La série entière cherchée vaut :
+∞ +∞
λn +∞
(λ.t ) n
∀ t ∈ , G X (t ) = ∑ P( X = n).t n = ∑ e −λ .
n =0 n =0 n!
.t n = e −λ .∑
n=0 n !
= e −λ .e λ .t = e λ .(t −1) ,
puisqu’on reconnaît la série exponentielle qui converge sur .
Théorème 6.5 : espérance de X et dérivabilité de GX en 1.

Soit X une variable aléatoire à valeurs dans et GX sa fonction génératrice.
X admet une espérance si et seulement si GX est dérivable à gauche en 1.
Dans ce cas : E ( X ) = G X ' (1) .
• Si X admet une espérance, la série ∑ n.P( X = n) est absolument convergente donc la série entière
n ≥0
∑ n.P( X = n).t
n ≥1
n −1
converge normalement au moins sur [-1,+1].
Autrement, le théorème de dérivation des séries de fonctions permet d’en déduire que la série de
fonctions ∑P( X = n).t n est en particulier dérivable à gauche en 1, et :
n ≥1
+∞ +∞ +∞
G X ' (1) = ∑ P ( X = n).n.1n −1 = ∑ P ( X = n).n = ∑ P ( X = n).n = E ( X ) .
n =1 n =1 n =0
• Réciproquement, si GX est dérivable à gauche en 1, montrons que cette dérivée vaut E(X).
Pour cela, soit : t ∈ ]0,1[.
Le théorème des accroissements finis montre que :
G X (t ) − G X (1) +∞
∃ ct ∈ ]t,1[, = G X ' (ct ) = ∑ n.P ( X = n).ctn−1 ,
t −1 n =1
et tous les termes étant positifs, on a aussi :
N
G X (t ) − G X (1)
∀ N ∈ *, ∑ n.P( X = n).c
n =1
n −1
t ≤
t −1
= G X ' (ct ) .
N
Si maintenant, on fait tendre t vers 1, alors ct tend vers 1, et : ∑ n.P( X = n) ≤ G
n =1
X ' (1) .
Donc la série (à termes positifs) ∑ n.P( X = n) converge puisque la suite de ses sommes partielles est
n ≥0
+∞
majorée et : ∑ n.P( X = n) ≤ G
n =1
X ' (1) .
Mais en reprenant l’inégalité avec ct, on a aussi :

G X (t ) − G X (1) +∞ +∞
∀ t ∈ ]0,1[, ∃ ct ∈ ]t,1[, = G X ' (ct ) = ∑ n.P ( X = n).ctn −1 ≤ ∑ n.P ( X = n) ,
t −1 n =1 n =1
+∞
et en faisant tendre à nouveau t vers 1, on en déduit que : G X ' (1) ≤ ∑ n.P( X = n) ,
n =1
ce qui permet finalement de conclure à l’égalité.
Théorème 6.6 : variance de X et dérivabilité seconde de GX en 1.

Soit X une variable aléatoire à valeurs dans et GX sa fonction génératrice.
X admet une variance si et seulement si GX est deux fois dérivable à gauche en 1.
Dans ce cas : V ( X ) = G X ' ' (1) + G X ' (1) − G X ' (1) 2 .
On adapte la démonstration précédente :

• Si X admet une variance (et donc si X2 admet une espérance) alors la série ∑n
n ≥0
2
.P( X = n) converge,
ainsi que (puisque X admet alors une espérance, th. 5.1) ∑ n.P( X = n) .
n ≥0
Donc la série ∑ n.(n − 1).P( X = n).t

n≥2
n−2
converge normalement sur [-1,+1] ce qui prouve que GX est en
particulier deux fois dérivable à gauche en 1, et que :

+∞ +∞ +∞
G X ' ' (1) = ∑ P ( X = n).n.(n − 1).1n − 2 = ∑ P ( X = n).n 2 − ∑ P ( X = n).n = E ( X 2 ) − E ( X ) .
n =1 n =1 n =1
On en déduit que : V ( X ) = E ( X 2 ) − E ( X ) 2 = G X ' ' (1) + E ( X ) − E ( X ) 2 = G X ' ' (1) + G X ' (1) − G X ' (1) 2
Théorème 6.7 : fonction génératrice d’une somme de deux variables indépendantes à valeurs dans
.
Soient X et Y deux variables aléatoires indépendantes et à valeurs dans .
Si on note GX, GY et GX+Y les fonctions génératrices des variables X, Y et X+Y, alors :
∀ t ∈ [-1,+1], G X +Y (t ) = G X (t ).GY (t ) .
Démonstration :
Si on reprend la formule de transfert, on peut écrire :
+∞ +∞
∀ t ∈ [-1,+1], E (t X ) = ∑ P( X = n).t
n =0
n
= G X (t ) , et : E (t Y ) = ∑ P (Y = n).t n = GY (t ) ,
n =0
+∞
avec un résultat identique pour (X+Y) : E (t X +Y ) = ∑ P( X + Y = n).t
n =0
n
= G X +Y (t ) .
Mais puisque X et Y sont indépendantes, tX et tY le sont aussi (th. 4.6) et :

∀ t ∈ [-1,+1], G X +Y (t ) = E (t X +Y ) = E (t X .t Y ) = E (t X ).E (t Y ) = G X (t ).GY (t ) .
7. Annexe 1 : caractéristiques des lois classiques.
Nom Désignation P(X = k) E(X) V(X) GX(t) DG

1 n +1 n −12
1 n k
Loi uniforme U(n) .∑ t
n 2 12 n k =1
• p, si : k = 1
Loi de Bernoulli B(p) p p.(1 − p ) (1 − p + p.t )
• 1 − p , si : k = 0
n k
Loi binomiale B(n,p)  . p .(1 − p ) n − k n. p n. p.(1 − p ) (1 − p + p.t ) n
k 
1 1− p p.t 1
Loi géométrique G(p) p.(1 − p ) k −1 t <
p p2 1 − (1 − p ).t 1− p
λk
Loi de Poisson P(λ) e . −λ
λ λ e λ .(t −1)
k!
Démonstration :
Les résultat ci-dessus concernant la fonction génératrice GX ont été établis pour les loi géométrique et de
Poisson.
• Pour la loi uniforme U(n), on a immédiatement :
n
1
∀ t ∈ , G X (t ) = ∑ k .t
k =1
k
, et cette fonction est définie sur .
• Pour la loi de Bernoulli B(p), on a encore :

∀ t ∈ , G X (t ) = (1 − p ).t 0 + p.t 1 = 1 − p + p.t , et cette fonction est toujours définie sur .
• Pour la loi binomiale B(n,p), on a une fois de plus :
n
k  k n
k 
∀ t ∈ , G X (t ) = ∑ 
n
k =0  
. p .(1 − p ) n − k .k
.t = ∑  .( p.t ) k .(1 − p ) n− k = (1 − p + p.t ) n , fonction définie sur .
k =0  n 

8. Annexe 2 : (hors programme) familles sommables de réels.
Définition 8.1 : famille sommable de réels positifs, somme d’une telle famille sommable.
Soit I un ensemble quelconque et (xi)i∈I une famille de réels positifs.
On dit que la famille (xi)i∈I est sommable lorsque l’ensemble { xi , F finie, F ⊂ I} est majoré. ∑
i∈F
On pose alors : ∑x
i∈I
i = sup{ ∑x
i∈F
i , F finie, F ⊂ I}.
Théorème 8.1 : dénombrabilité des éléments non nuls d’une famille sommable de réels positifs.
Soit (xi)i∈I une famille sommable de réels positifs.
Alors l’ensemble J des indices : i ∈ I, tels que xi soit non nul est au plus dénombrable.
De plus la famille (xi)i∈J est sommable et : xi = xi . ∑ i∈I
∑
i∈J
Démonstration :
Notons : M = ∑x
i∈I
i = sup{ ∑x
i∈F
i , F finie, F ⊂ I}, et soit : n ∈ *.
M
Alors l’ensemble Fn des : i ∈ I, tels que : xi > , est fini, de cardinal majoré par (n+1).
n
En effet si Fn comportait strictement plus de (n+1) indices, on pourrait former un ensemble fini Fn’ de
M
(n+2) indices à partir des éléments de Fn et tel que : ∑x
i∈Fn '
i > (n + 1).
n
≥ M , et M ne pourrait être la
borne supérieure annoncée.

Or : J = {i ∈ I, xi ≠ 0} = U
Fn , résultat immédiat par double inclusion.
n >0
Comme réunion dénombrable d’ensembles finis, J est donc au plus dénombrable.
Puisque de plus tous les termes dont les indices sont en dehors de J sont nuls, on a immédiatement :
{∑i∈F
∑
xi , F finie, F ⊂ I} = { xi , F finie, F ⊂ J}, d’où la sommabilité de (xi)∈J puis :
i∈F
xi = sup{ xi , F ∑
i∈I
∑i∈F
finie, F ⊂ I} = sup{ ∑ xi , F finie, F ⊂ I} = ∑ xi .

i∈F i∈J
Théorème 8.2 : lien entre famille sommable de réels positifs et série.

Soit (xi)i∈I une famille sommable de réels positifs et J l’ensemble (éventuellement fini) des indices de I
tels que xi soit non nul.
Soit ( x jn )n∈ une énumération des éléments non nuls de la famille.
+∞
Alors la série ∑ x jn est convergente et :
n ≥0
∑x
n =0
jn = ∑ xi .
i∈I
Démonstration :
• Soit : N ∈ , et : F = {j0, …jN}.
N
Puisque les termes de la famille sont positifs, on a donc : ∑x
n =0
jn = ∑ xi ≤ ∑ x i .
i∈F i∈J
Donc les sommes partielles de la série (à termes positifs) ∑x

n ≥0
jn sont majorées et la série converge.
+∞
De plus, en passant à la limite : ∑x
n =0
jn ≤ ∑ xi .
i∈J
• Soit maintenant F une partie finie de J et soit : N ∈ , tel que : F ⊂ {j0, …, jN}.
Un tel entier N existe puisque l’application : n a jn, est une énumération de J.
N +∞
On a alors : ∑ xi ≤ ∑ x jn ≤ ∑ x jn , puisque les réels sont positifs, et ceci étant vrai pour toute partie F
i∈F n=0 n =0
+∞
incluse dans J, on en déduit que : ∑ x i ≤ ∑ x jn .
i∈J n=0

On obtient bien finalement l’égalité.
Théorème 8.3 : opérations sur les familles sommables de réels positifs.

Soient (xi)i∈I et (yi)i∈I deux familles de réels positifs.
• si : ∀ i ∈ I, xi ≤ yi, et si la famille (yi)i∈I est sommable, alors (xi)i∈I est également sommable et :
∑ xi ≤
i∈I
∑
yi .
i∈I
• si (xi)i∈I et (yi)i∈I sont sommables, alors (xi + yi) est sommable et : ∑ (x

i∈I
i + y i ) = ∑ xi + ∑ y i .
i∈I i∈I
• si (xi)i∈I est sommable, alors : ∀ a ∈ +

, (a.xi)i∈I est sommable et : ∑ a.x
i∈I
i = a.∑ xi .
i∈I
Démonstration :
• si (yi)i∈I est sommable, alors : ∀ F ⊂ I, finie, ∑ x ≤ ∑ y ≤ ∑ y , donc { ∑ x , F finie, F ⊂ I} est
i∈F
i
i∈F
i
i∈I
i
i∈F
i
majoré, la famille (xi)i∈I est sommable et : sup{ ∑ x , F finie, F ⊂ I} = ∑ x ≤ ∑ y . i i i

i∈F i∈I i∈I
• Si (xi)i∈I et (yi)i∈I sont sommables alors :
∀ F ⊂ I, finie, ∑
( xi + y i ) =
i∈F
xi + yi ≤ ∑
i∈F
∑
i∈F
∑x +∑y
i∈I
i
i∈I
i , et : { ∑ (x
i∈F
i + y i ) , F finie, F ⊂ I} est majoré,
donc la famille (xi + yi)i∈I est sommable et :

∑
sup{ ( xi + y i ) , F finie, F ⊂ I} = ( xi + y i ) ≤
i∈F
∑
i∈I
∑x +∑y
i∈I
i
i∈I
i .
Soit par ailleurs deux parties finies F et G incluses dans I.

Alors : ∑
xi +
i∈F
yi ≤ ∑
i∈G
∑
( xi + y i ) ≤ ( xi + y i ) , d’où :
i∈F ∪G
∑xi ≤
i∈I
∑
i∈F
∑ (x
i∈I
i + yi ) − ∑ yi .
i∈G
Ceci étant vrai pour toute partie finie : F ⊂ I, et le majorant étant indépendant de F, on en déduit que :
∑
i∈I
∑
i∈I
∑
xi ≤ ( xi + y i ) − y i , d’où de plus :
i∈G
∑
y i ≤ ( xi + y i ) − x i .
i∈G
∑
i∈I
∑i∈I
Enfin, cette dernière égalité est vraie pour toute partie finie : G ⊂ I, le majorant étant cette fois
indépendant de G, donc on en déduit que : ∑
y i ≤ ( xi + y i ) − xi , et finalement :
i∈I
∑
i∈I
∑ i∈I
∑ x + ∑ y ≤ ∑ (x
i∈I
i
i∈I
i
i∈I
i + yi ) .
Les deux inégalités obtenues permettent de conclure à l’égalité voulue.

• Pour le dernier point, on raisonne de la même façon :
∀ F ⊂ I, finie, ∑
a.xi = a. xi ≤ a. xi ,
i∈F
∑
i∈F
∑i∈I
donc la famille (a.xi)i∈I est sommable et : ∑ a.x

i∈I
i ≤ a.∑ xi .
i∈I
1
Si par ailleurs a est nul, l’égalité voulue est immédiate, et si a est non nul, alors la famille ( .a.xi )i∈I est
a
1 1
sommable, avec ce qu’on vient d’établir et : ∑ x = ∑ a .a.x
i∈I
i
i∈I
i ≤ .∑ a.xi .
a i∈I
Les deux inégalités donnent finalement l’égalité annoncée.
Théorème 8.4 : sous-familles d’une famille sommable de réels positifs.

Soit (xi)i∈I une famille sommable de réels positifs.
• si A est une partie de I, alors (xi)i∈A est sommable et : xi = 1 A (i ).xi ≤ ∑
i∈ A
∑
i∈I
∑x
i∈I
i , où 1A est la fonction
indicatrice de A dans I (valant 1 ou 0 suivant que i appartient ou pas à A).

• si : A ⊂ B ⊂ I, alors : xi ≤ ∑
xi .
i∈ A
∑
i∈B
• si A et B sont des parties disjointes de I (telles que : A∩B = ∅), alors : ∑x = ∑x +∑x
i∈ A∪ B
i
i∈A
i
i∈B
i .
Démonstration :
• Notons que : ∀ i ∈ I, 0 ≤ 1A(i).xi ≤ xi, et donc (xi)∈I étant sommable, (1A(i).xi)i∈I l’est aussi.

De plus, soit : F ⊂ A, finie.
Alors : ∀ i ∈ F, xi = 1A(i).xi, et donc : ∑ x = ∑1
i∈F
i
i∈F
A (i ).xi ≤ ∑1 A (i ).xi ,
i∈I
ceci étant vrai pour toute partie finie F de A, on en déduit que (xi)i∈A est sommable puis que :
∑ ∑
xi ≤ 1 A (i ).xi .
i∈ A i∈I
D’autre part : ∀ G ⊂ I, finie, on a : ∑1

i∈G
A (i).xi = ∑x ≤ ∑x
i∈ A∩G
i
i∈A
i , puisque G ∩ A est une partie finie de A.
Ceci étant vrai pour toute partie G finie incluse dans A, on en déduit que : ∑1
i∈I
A (i).xi ≤ ∑ xi , et
i∈ A
finalement, on conclut avec l’égalité annoncée.
• Si : A ⊂ B ⊂ I, il suffit de remarquer que : ∀ i ∈ I, 1A(i).xi ≤ 1B(i).xi, pour en déduire l’inégalité.
• Pour ce dernier point, on remarque que : ∀ i ∈ I, 1A(i) + 1B(i) = 1A∪B(i).
Théorème 8.5 : sommation par paquets d’une famille sommable de réels positifs.
Soit (xi)i∈I une famille de réels positifs et soit (Aj)j∈J une partition quelconque de I.
La famille (xi)i∈I est sommable si et seulement si pour tout : j ∈ J, la famille (xi) i∈A j est sommable et si la
 
famille  ∑ xi  est elle-même sommable.
 i∈A 
 j  j∈J
 
Dans ce cas, on a alors : ∑ x = ∑  ∑ x  ,
i i
i∈I j∈J  i∈A j 
autrement dit, on peut d’abord sommer des sous-familles puis additionner les résultats.
Démonstration :
• Supposons que (xi)i∈I est sommable.
Alors puisque : ∀ j ∈ J, Aj ⊂ I, le théorème 8.4 montre que (xi) i∈A j est sommable.
On peut alors noter : ∀ j ∈ J, S j = ∑x
i∈ A j
i .
Considérons alors : J0 ⊂ J, finie et notons : A = UA j , cette union étant disjointe.

j∈J 0
Le théorème 8.4 généralisé par récurrence à un nombre fini d’ensembles disjoints donne :
 
∑S j = ∑  ∑ x  = ∑ x ≤ ∑ x
i i i .
j∈J 0 
j∈J 0 i∈A j  i∈A i∈I
 
La famille (Sj)j∈J est donc sommable et : ∑ S j = ∑ 
 ∑
j∈J  i∈ A j
x i ≤ ∑ xi .

 i∈I
j∈J 
• Supposons réciproquement que pour tout : j ∈ J, la famille (xi) i∈A j est sommable et que la famille
 
 ∑ xi  est elle-même sommable.
 i∈A 
 j  j∈J
Alors : ∀ F ⊂ I, finie, F a une intersection non vide avec un nombre fini d’ensembles Aj, dont on regroupe
les indices dans l’ensemble fini JF.
 
On peut donc écrire F comme l’union disjointe : F = U ( F ∩ A j ) , et : ∑ xi =
j∈J F i∈F
∑ 
 ∑ x 
i , puisque
j∈J F  i∈A j ∩ F 

toutes les sommes sont en fait finies.
 
De plus, puisque : ∀ j ∈ JF, Aj ∩ F ⊂ Aj, on en déduit que : ∑x i ≤ ∑  ∑ x  = ∑ S
i j , comme somme
i∈F 
j∈J F i∈ A j  j∈J F
finie de réels.
JF étant finie incluse dans J, la sommabilité de la famille (Sj)j∈J permet d’écrire :

 
∑x ≤ ∑S
i j = ∑  ∑ xi  .

j∈J  i∈ A j

i∈F j∈J 
Enfin, ceci étant vrai pour tout : F ⊂ I, F finie, on conclut que la famille (xi)i∈I est sommable, puis que :
 
∑ x ≤ ∑  ∑ x  .
i i
• En regroupant les deux inégalités obtenues dans le cas où (xi)i∈I est sommable, on conclut bien à
 
l’égalité : ∑ x i = ∑ S j = ∑ 
 ∑
j∈J  i∈A j
x 
i .

i∈I j∈J 
Définition 8.2 : famille sommable de réels quelconques, somme d’une famille sommable.
Soit I un ensemble quelconque et (xi)i∈I une famille de réels.
Pour tout réel x, on pose :
• x+ = x, si : x ≥ 0, et : x+ = 0, si : x < 0,
• x- = 0, si : x ≥ 0, et : x- = |x|, si : x < 0.
On dit que la famille (xi)i∈I est sommable lorsque les familles de réels positifs (xi+)i∈I et (xi-)i∈I sont
sommables.
On pose alors : xi = ∑
i∈I
xi+ − xi− . ∑
i∈I
∑
i∈I
Remarques :
• Cette définition est cohérente avec la définition de la sommabilité pour une famille de réels positifs.
• On a l’égalité classique : ∀ x ∈ , x = x+ – x-, d’où la définition de la somme xi . ∑
i∈I
Théorème 8.6 : définition équivalente de la sommabilité d’une famille de réels.

Soit (xi)i∈I une famille de réels.
La famille (xi)i∈I est sommable si et seulement si la famille ( xi )i∈I est sommable.
Dans ce cas, on a : ∑x
i∈I
i = ∑ xi+ + ∑ xi− .
i∈I i∈I
Démonstration :
• Supposons que la famille ( xi )i∈I soit sommable.
Alors les deux familles de réels positifs (xi+)i∈I et (xi-)i∈I sont sommables car :
∀ x ∈ , 0 ≤ x+ ≤ x , et : 0 ≤ x- ≤ x ,
et en utilisant le th 8.3.
• Supposons que (xi)i∈I soit sommable.
Alors les deux familles de réels positifs (xi+)i∈I et (xi-)i∈I sont sommables et la famille ( xi )i∈I est sommable
comme somme de familles sommables puisque : ∀ x ∈ , x = x + + x − .
La dernière égalité résulte elle aussi du th 8.3.
Théorème 8.7 : sommabilité et séries absolument convergentes, convergence commutative.

Soit (xi)i∈I une famille de réels.
Si la famille (xi)i∈I soit sommable, l’ensemble J des indices i de I tels que xi soit non nul, est au plus
dénombrable.
Si J est dénombrable et infini et si (jn)n∈ est une énumération de J, alors la série ∑
x jn est absolument
n ≥0
+∞
convergente et : ∑x
n =0
jn = ∑ xi .
i∈I
En particulier, si on considère une autre énumération de J, la nouvelle série obtenue est encore
absolument convergente et sa somme est identique à la précédente : on parle alors de « convergence
commutative » de la série qui signifie qu’on peut modifier comme on veut l’ordre de ses termes sans
modifier son absolue convergence ou sa somme.
Démonstration :
• Si (xi)i∈I est sommable, le théorème 8.1 montre que l’ensemble des indices i tels que xi soit non nul
est au plus dénombrable et cet ensemble coïncide avec l’ensemble J indiqué.
• Si (jn)n∈ est une énumération de J, puisque (xi)i∈I est sommable, les familles (xi+)i∈I et (xi-)i∈I le sont
aussi et en leur appliquant le th 8.2, les séries ∑
x +jn et
n≥0
∑
x +jn sont convergentes, donc la série
n≥0
x jn ∑
n ≥0
est convergente comme somme de ces deux séries.
+∞ +∞
De plus, puisque toujours d’après le th 8.2 on a : ∑ x +jn = ∑ xi+ , et :
n =0 i∈I
∑x
n =0
−
jn = ∑ xi− , on en déduit que :
i∈I
+∞ +∞ +∞
∑x
n =0
jn = ∑ x +jn − ∑ x −jn = ∑ xi+ − ∑ xi− = ∑ xi .
n =0 n =0 i∈I i∈I i∈I
Remarques :
• On aurait pu montrer que lorsque l’ensemble J précédent est au plus dénombrable, il y a équivalence
entre sommabilité de la famille (xi)i∈I et absolue convergence de la série x jn pour toute énumération ∑
n ≥0
de J
• Si une série n’est que semi-convergente au contraire, modifier l’ordre des termes de la série peut faire
perdre la convergence et même en cas de conservation de la convergence on peut ainsi modifier la
somme de la série initiale en en permutant les termes.
• Un théorème (technique) permet même de démontrer que si une série de réels u n est semi- ∑
n ≥0
convergente, alors quelque soit : α ∈ , il existe une permutation σ de telle que la série ∑ uσ
n ≥0
(n) ait
pour somme α.
Théorème 8.8 : sous-familles de familles de réels sommables.

Soit (xi)i∈I une famille sommable de réels.
• si A est une partie de I, alors (xi)i∈A est sommable.
• si A et B sont des parties disjointes de I, alors : xi = xi + ∑
i∈ A∪ B
∑
i∈A
∑x
i∈B
i .
Démonstration :
• Le premier point est une conséquence immédiate de la sommabilité et du th 8.4.
• Pour le deuxième point, on commence par écrire que : xi = xi+ − ∑
xi− , de même pour les
i∈A∪ B
∑
i∈A∪ B i∈A∪ B
∑
sommes sur A et B, et on applique toujours le th 8.4 aux familles (xi+) et (xi-), indexées par A, B et A∪B.
Théorème 8.9 : linéarité.

Soient (xi)i∈I et (yi)i∈I des familles sommables de réels.
• la famille (xi + yi)i∈I est sommable, et : ∑
( xi + y i ) =
i∈I
∑x +∑y
i∈I
i
i∈I
i .
• pour : (λ,µ) ∈ 2
, (λ.xi + µ.yi)i∈I est sommable et : ∑ (λ.x
i∈I
i + µ. yi ) = λ .∑ xi + µ .∑ yi .
i∈I i∈I
Démonstration :
• On a : ∀ i ∈ I, xi + yi ≤ xi + yi , ce qui prouve que famille (xi + yi)i∈I est sommable.
• De plus notons A, B, C, D, E et F les ensembles définis par :
A = {i ∈ I, xi ≥ 0, yi ≥ 0},
B = {i ∈ I, xi < 0, yi < 0},
C = {i ∈ I, xi ≥ 0, yi < 0, xi + yi ≥ 0},
D = {i ∈ I, xi ≥ 0, yi < 0, xi + yi < 0},
E = {i ∈ I, xi < 0, yi ≥ 0, xi + yi ≥ 0},
F = {i ∈ I, xi < 0, yi ≥ 0, xi + yi < 0}.
Pour A (tous les termes sont positifs), le th 8.3 donne : ( xi + y i ) = ∑i∈A
∑x +∑y
i∈A
i
i∈A
i .
Pour B (tous les termes sont négatifs), le th 8.3 permet d’écrire :

∑ (x
i∈B
i + yi ) = −∑ ( xi + yi ) − = −∑ ( xi− + yi− ) = −∑ xi− − ∑ yi− = ∑ xi + ∑ yi .
i∈B i∈B i∈B i∈B i∈B i∈B
− − −
En effet, on a bien : ∀ i ∈ B, ( xi + yi ) = −( xi + yi ) = − xi − yi = x + y , et les termes sont cette fois i i
positifs d’où la possibilité d’appliquer le th 8.3.
Pour C, on écrit : ∀ i ∈ C, ( xi + yi ) + ( − yi ) = xi .
Mais la famille (yi)i∈I est sommable donc également (– yi)i∈I puis (– yi)i∈C, et l’argument utilisé pour A
s’applique (tous les termes sont positifs) pour donner : xi = ( xi + y i ) + ( − y i ) . ∑ ∑
i∈C i∈C
∑i∈C
On termine en remarquant que : ∑ (− y ) = ∑ (− y )

i∈C
i
i∈C
i
+
= ∑ y = −∑ y
i∈C
−
i
i∈C
i ce qui donne finalement :
∑ x = ∑ (x
i∈C
i
i∈C
i + yi ) − ∑ yi , soit :
i∈C
∑(x
i∈C
i + y i ) = ∑ xi + ∑ y i .
i∈C i∈C
On démontre suivant des principes similaires, les mêmes égalités pour D, E et F.
Par réunion de ces 6 ensembles disjoints et avec le th 8.8, on en déduit l’égalité voulue.
• Soit maintenant : λ ∈ .
Si : λ = 0, (λ.xi)i∈I est sommable et : λ .x i = λ . x i = 0 . ∑
i∈I
∑
i∈I
Si : λ > 0, on a : ∀ i ∈ I, (λ .xi ) = λ .x + +
i , et : (λ .xi ) − = λ .xi− .
Donc le th 8.3 garantit que ( (λ .xi ) + )i∈I et ( (λ .xi ) − )i∈I sont sommables puis que :
∑ λ .x
i∈I
+
i = λ.∑ xi+ , et :
i∈I
∑ λ .x
i∈I
−
i = λ.∑ xi− ,
i∈I
d’où on déduit que (λ.xi)i∈I est sommable et : ∑ λ .x

i∈I
i = λ.∑ xi .
i∈I
Si enfin : λ < 0, alors : ∀ i ∈ I, (λ .xi ) = λ .x + −

i , et : (λ .xi ) = λ .xi+ , et en raisonnant de la même façon, on
−
en déduit à nouveau que (λ.xi)i∈I est sommable, puis l’égalité : ∑ λ .x

i∈I
−
i = λ.∑ xi− .
i∈I
• Le cas où on envisage (λ.xi + µ.yi)i∈I, résulte des deux points que l’on vient de démontrer.
Théorème 8.10 : sommation par paquets d’une famille sommable de réels.

Soit (xi)i∈I une famille de réels et soit (Aj)j∈J une partition quelconque de I.
La famille (xi)i∈I est sommable si et seulement si :
• ∀ j ∈ J, la famille (xi) i∈A j est sommable et :
 
 i∑
• la famille  xi  est elle-même sommable.

 j∈ A  j∈J
 
Dans ce cas, on a encore : ∑ x = ∑  ∑ x  ,
i i
autrement dit, on peut d’abord sommer des sous-familles puis additionner les résultats.
Démonstration :
Le premier résultat est une conséquence directe de l’équivalence prouvée dans le th 8.5.
Si maintenant on suppose que (xi)i∈I est sommable, alors : ∀ j ∈ J, (xi) i∈A j est sommable et :
∀ j ∈ J, ∑x − ∑x
i∈A j
+
i
i∈A j
−
i = ∑ xi .
i∈A j
De plus, les deux familles (xi+)i∈I et (xi-)i∈I sont sommables et à termes positifs donc le th 8.5 permet
   
 i∑
d’affirmer que les familles  x +
et  ∑ xi−  sont sommables et que :
i
  i∈A 
 ∈A j  j∈J  j  j∈J
   
∑ x +
i = ∑ ∑ i 

j∈J  i∈A j
x +
, et : ∑ x −
i = ∑ ∑ i 
 x −
.
i∈I  i∈I j∈J  i∈A j 

 
Le th 8.9 garantit alors que  ∑
 i∈A
xi+ − ∑ xi−  est encore sommable et que :

 j i∈A j  j∈J
     
∑  ∑ x − ∑ x +
i
−
i
 = ∑  ∑ xi+  − ∑  ∑ xi−  .
 j∈J  i∈A  j∈J  i∈A 
j∈J  i∈A j i∈A j   j   j 
En regroupant les résultats précédents, on conclut que :
       
∑ x i = ∑ x +
i − ∑ x −
i = ∑ 
 ∑
j∈J  i∈A j
x +
i

− ∑ 
 ∑ x −
i

= ∑ 
 ∑ x +
i − ∑ x −
i

= ∑ 
 ∑ x 
i .

i∈I i∈I i∈I  j∈J  i∈A j  j∈J  i∈A j i∈A j  j∈J  i∈A j 
Remarque :
 
 i∑
Dans cette équivalence, la présence des valeurs absolues dans  xi  est essentielle.

 ∈A j  j∈J
En effet, si on considère la série ∑ (−1)
n≥0
n
, et les ensembles : Aj = {2.j, 2.j+1}, avec ; j ∈ , alors toute
famille (xj) i∈A j est sommable (avec deux éléments : 1 + |– 1| = 2, pour tout j) mais la famille
   
 ∑ xi  n’est pas sommable alors que  ∑ xi  l’est (famille nulle).
 i∈A   i∈A 
 j  j∈J  j  j∈J
La série considérée n’étant pas absolument convergente, la famille globale ne peut être sommable.
Théorème 8.11 : théorème de Fubini pour les familles sommables de réels.

Soit (xi,j)(i,j)∈I×J une famille « double » de réels.
Il y a équivalence entre :
• la famille (xi,j)i,j∈I×J est sommable,
 
• ∀ j ∈ J, la famille (xi,j)i∈I est sommable et la famille 

∑xi∈I
i, j 
 j∈J
est sommable,
 
• ∀ i ∈ I, la famille (xi,j)j∈J est sommable et la famille  ∑x i, j
 est sommable.

 j∈J  i∈I
   
Si l’une de ces trois affirmations est vérifiée, alors : ∑x i, j = ∑  ∑ xi , j  = ∑  ∑ xi , j  .
j∈J  i∈I  i∈I  j∈J
( i , j )∈I × J 
Démonstration :
Il suffit d’appliquer deux fois le th 8.10 avec les partitions : I×J = U {}i × J = U I × { j}.
i∈I j∈J

Variable Aléatoire

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Variable Aléatoire

Încărcat de

Drepturi de autor:

Formate disponibile

Variables aléatoires. Chapitre 10 : cours complet.

1. Variable aléatoire discrète.

Définition 1.1 : variable aléatoire discrète.

2. Fonction de répartition d’une variable aléatoire discrète, lois classiques.

Définition 2.1 : fonction de répartition d’une variable aléatoire discrète réelle.

3. Espérance d’une variable aléatoire discrète.

Définition 3.1 : espérance d’une variable aléatoire discrète.

4. Couple et famille de variables aléatoires, indépendance.

Théorème 4.1 et définition 4.1 : couple de variables aléatoires discrètes.

Théorème 5.1 : lien entre espérance de X et de X2.

6. Fonctions génératrices des variables aléatoires à valeurs dans .

Définition 6.1 : fonction génératrice d’une variable aléatoire à valeurs dans .

7. Annexe 1 : caractéristiques des lois classiques.

8. Annexe 2 : (hors programme) familles sommables de réels.

Chapitre 10 : Variables aléatoires – Cours complet. -2-

1. Variable aléatoire discrète.

Définition 1.1 : variable aléatoire discrète.

Théorème 1.1 : image réciproque d’une partie de E.

Théorème 1.2 : probabilité attachée à une variable aléatoire discrète.

Définition 1.2 : loi de probabilité d’une variable aléatoire discrète.

Chapitre 10 : Variables aléatoires – Cours complet. -3-

Cette réunion étant disjointe, on peut alors écrire : PX ( A) = P ( U {X = x }) = ∑ P( X = x

Donc on peut ainsi déterminer PX(A) pour tout : A ∈ P(Ω).

Alors il existe une probabilité sur (Ω,A) telle que : ∀ n ∈ , P ( X = x n ) = p n .

Alors P répond au problème, car :

D’autre part, 1 Ak (ω ) sont nuls sauf pour : k = p, et il vaut alors 1.

2. Fonction de répartition d’une variable aléatoire discrète, lois classiques.

Définition 2.1 : fonction de répartition d’une variable aléatoire discrète réelle.

Chapitre 10 : Variables aléatoires – Cours complet. -5-

Donc : 0 = P(∅) = P ( I A ) = lim P( A ) = lim P( X ≤ x

Par la caractérisation séquentielle des limites de fonctions, on en déduit que : lim F ( x) = 0 .

Fonction de répartition loi uniforme U(4) Histogramme

Fonction de répartition loi de Bernoulli B(0.7) Histogramme

Chapitre 10 : Variables aléatoires – Cours complet. -6-

Fonction de répartition loi binomiale B(20,0.5) Histogramme

Fonction de répartition loi binomiale B(30,0.8) Histogramme

Définition 2.3 : loi géométrique.

Chapitre 10 : Variables aléatoires – Cours complet. -7-

Fonction de répartition loi géométrique G(0.25) Histogramme

Théorème 2.2 : loi géométrique ⇔ variable aléatoire discrète sans mémoire.

Puis : ∀ (k,l) ∈ *2,

• Réciproquement, si X a les propriétés annoncées, notons : P(X = 1) = p.

Chapitre 10 : Variables aléatoires – Cours complet. -8-

Définition 2.4 : loi de Poisson.

exemple 2.5 : variable aléatoire suivant une loi de Poisson.

Pour tout : n ∈ , on note Xn une variable aléatoire de loi B(n,pn).

Chapitre 10 : Variables aléatoires – Cours complet. -9-

3. Espérance d’une variable aléatoire discrète.

Chapitre 10 : Variables aléatoires – Cours complet. - 10 -

Théorème 3.2 : espérance d’une variable aléatoire discrète à valeurs dans .

de la série (convergente) ∑ k .P( X = k ) , et à ce titre (R ) tend vers 0.

Chapitre 10 : Variables aléatoires – Cours complet. - 11 -

Théorème 3.3 : (admis) formule du transfert.

Démonstration (hors programme) :

qui correspond à des x de f-1(y) pour lesquels P(X = x) est nulle.

• Le th 8.7 permet d’obtenir la première équivalence :

élément x dans X(Ω) a bien une image y dans .

On aboutit donc à l’équivalence :

Chapitre 10 : Variables aléatoires – Cours complet. - 12 -

Théorème 3.4 : (admis) linéarité de l’espérance.

est absolument convergente, la série ∑α .x .P(α . X = α .x

• Considérons maintenant deux variables aléatoires X et Y, et notons :

Mais d’autre part : ∑z