Théorie de L Information

Theorie de lInformation
Notes de Cours
2006-2007
SIC-SICOM
Maria-Joao Rendas
October 11, 2006

2
Chapter 1
Mesures dInformation et leurs

proprietes
Nous pesentons dans ce Chapitre les mesures fondamentales de la Theorie de lin-

formation (entropie, information mutuelle, entropie relative,...). Le Chapitre presente
egalement des proprietes de ces mesures, ainsi quun certain nombre de relations qui
seront utilisees par la suite.
Considerez une variable aleatoire X qui prend des valeurs dans un ensemble de-
nombrable X (X est une variable aleatoire discrete), et soit pX (x) sa loi de probabilite:
X pX (x). (1.1)
Cette equation doit etre lue comme : la variable aleatoire X suit la loi pX (x), impli-
quant
Pr{X = x} = pX (x) x X .
La loi de probabilite pX (x) verifie les conditions suivantes:
pX (x) 0, x X ,
P
xX pX (x) = 1.
Souvent, par souci de simplicite, nous utiliserons la notation simplifiee p(x) pour
representer la loi de probabilite, la variable aleatoire etant deduite de largument de
la fonction: pX (x) p(x).
Nous allons maintenant introduire une des definitions fondamentales de la Theorie

de lInformation: lentropie. Lentropie dune variable aleatoire est une mesure quan-
titative de lincertitude (ou, alternativement, de la quantite dinformation) associee aux
valeurs prises par la variable aleatoire. Elle a ete introduite par Shannon dans les annees
50.
3
Definition 1 Entropie
Soit X p(x) une variable aleatoire, X X , avec X un ensemble denombrable.
Alors, lentropie de X, notee H(X) est, par definition
X 1
H(X) = p(x) log . (1.2)
p(x)
xX
Remarque 1 Dans la definition de H(X), nous utilisons la convention 0 log 0 = 0.
Reprennons la definition dune variable aleatoire X definie dans lespace de prob-

abilite (, B, P ) 1 et avec des valeurs dans un espace mesurable (X , BX ), comme une
application X : X telle que
Si F BX X 1 (F ) = { : X() F } B.
Quand X est un ensemble fini, nous pouvons associer a X une partition QX de :

[
= Qx , x1 6= x2 Qx1 Qx2 = , ou Qx = { : X() = x}
xX
et pX (x) = P (Qx ). Nous utiliserons aussi la notation
Qx = X 1 (x) = { : X() = x}.
La Figure 1.1 illustre la definition de cette partition pour un exemple ou X = {x, y, z},
et donc
= Qx Qy Qz .
Lentropie de la variable aleatoire est donc uniquement fonction de la partition QX =
{Qx }xX , et peut etre ecrite en termes de la mesure de probabilite originale, P :
X 1
H(X) = P (Qx ) log .
P (Qx )
xX
On remarquera finalement que lentropie de la variable aleatoire X depend unique-

ment de lensemble des valeurs de pX (x), et pas des valeurs x X prises par la
variable elle meme (le code associe a chaque element de la partition QX ). Si nous
considerons une nouvelle variable Y = f (x), avec f () une fonction inversible, alors
H(Y ) = H(X), car la partition de determinee par la variable aleatoire Y sera la
1 Nous rappellons les entites qui composent un espace de probabilite: est lespace des evenements; B
est une collection de sous-ensembles de telleSque : (i) B, (ii)si A B Ac B (le complement de

A est aussi dans B), et (iii)si A, B B A B B; P est la mesure de probabilite, P : B [0, 1],
telle que : (i) P () = 1, (ii) A B = P (A B) = P (A) + P (B).
4
X
r r
r r
r x y
r r
r
Qx r
r
r
r z
r r
Figure 1.1: Partition de associee a une variable aleatoire dicrete (prenant uniquement
3 valeurs) finie definie sur .
meme que celle qui est determinee par X. Pour cette raison, nous representerons sou-
vent lentropie comme une fonction de la loi de probabilite pX : H(X) H(pX ) ou
encore de la partition QX : H(X) H(QX ) .
Dans la Definition 1, nous utilisons la fonction logarihtme. Le choix de la base

du logarithme (qui doit cependant etre consistant!) ne modifie pas les proprietes de
lentropie (voir Propriete 2), et il determine les unites utilisees pour la mesurer. Nous
utiliserons la notation Ha (X) quand nous souhaitons expliciter la base a utilisee dans
le calcul de lentropie. Des choix usuels pour a sont :
2: lentropie est dans ce cas mesuree en bits (la justification pour cette designation
deviendra claire quand nous discuterons les relations entre entropie et codage)
e: lentropie est dans ce cas mesuree en nats (natural units). Ce choix simpli-
fie certains calculs, par exemple dans des problemes doptimisation ou il faut
deriver.
10: lentropie est dans ce cas mesuree en digits.
La Definition 1, eq.(1.2), peut etre ecrite de la facon suivante, en reconnaissant la d
efinition de loperateur desperance (ou moyenne) statistique E[]2 :

1
H(X) = EX log , (1.3)
pX (x)
1
cest a dire, comme la moyenne de la variable aleatoire Z = log pX (x) construite a
partir de la variable aleatoire X :

Z() = log Pr X 1 (X()) , .
2 Le sous-index dans les notations E [] E
X pX [] indique par rapport a quelle variable (loi) la moyenne
est calculee.
5
0.7
0.6
0.5
0.4
x log(1/x)
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figure 1.2: graphe de x log(1/x) sur lintervalle unitaire.
Lentropie possede les proprietes suivantes :
Propriete 1 Non-negativite.
H(X) 0.
Ceci est facilement deduit du fait que tous les termes dans la somme (1.2) sont non-
negatifs (voir Figure 1.2).
Propriete 2 Changement de base.
Hb (X) = logb (a)Ha (X).
Cette relation decoule immediatement de la formule pour le changement de base du

logarithme:
x = aloga (x) logb (x) = loga (x) logb (a).
Exemple 1 Entropie dune variable aleatoire binaire.

Considerons une variable aleatoire binaire X {a, b}, avec la loi suivante :
pX (a) = q, pX (b) = 1 q,
ou q [0, 1]. Son entropie est, par definition
H(X) = q log q (1 q) log(1 q). (1.4)
Comme nous lavons affirme, lentropie ne depend pas des valeurs a et b pris par X,
mais uniquement de la valeur de q. Pour indiquer cela, nous utiliserons suivent la
notation H(q) pour indiquer lentropie dune variable aleatoire binaire qui prend un
des deux valeurs possibles avec probabilite q. Il est evident que H(q) = H(1 q),
et que donc H(q) est une fonction symmerique autour de q = 1/2. La Figure 1.3
6
1
0.9
0.8
0.7
0.6
H(q)
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
q
Figure 1.3: Entropie dune variable aleatoire binaire.
represente les valeurs de lentropie pour q dans lintervalle unitaire. Nottons que si
q = 1/2 = 1 q, la valeur de lentropie est maximale et egale a log2 2 = 1, et que
pour q = 1 et q = 0 (et donc 1 q = 1) nous obtenons la valeur minimale zero:
0 H(q) 1. Nous verrons plus tard que ce comportement (valeur maximale quand
les elements de X sont equiprobables, et entropie nulle quand un des evenements est
certain) est verifie pour toutes les variables discretes dans un alphabet fini (meme de
dimension superieure a 2).
4
Exemple 2 Entropie dune variable dans un ensemble fini.

Dans cet exemple nous considerons une variable aleatoire X X , |X | = 4,3 avec loi
de probabilite
pX = 1/2 1/4 1/8 1/8 .
Nous pouvons utiliser la Definition 1 pour calculer directement lentropie H(X):
1 1 1 3
H(X) = log 2 + log 4 + 2 log 8 = 1 + = 1.75< log2 4 = 2.
2 4 8 4
Les valeurs pX sont dans ce cas tous de la forme 2ni , avec ni un nombre naturel, et
ce fait nous permet une interpretation de cette variable aleatoire comme composition
devenements elementaires (statistiquement independants) sur une variable aleatoire
binaire U {0, 1} avec pU (0) = pU (1) = 1/2. Nous nottons maintenant par X =
{a, b, c, d} les differents valeurs pris par X.
1. Generer u1 pU . Si u1 = 0 prendre X = a stop
2. Generer u2 pU . Si u2 = 0 prendre X = b stop
3. Generer u3 pU . Si u3 = 0 prendre X = c sinon X = d stop
3 La notation |A| represente le cardinal de lensemble A.
7
Le nombre moyen de tirages de la variable aleatoire U necessaires pour obtenir
une valeur de X est:
1 1 1
(1) + (2) + (3) = 1.75,
2 4 4
ce qui est exactement la valeur de lentropie de X. Nous reviendrons plus tard sur
cette interpretation de lentropie dune variable aleatoire X comme le nombre moyen
de tirages sur une variable aleatoire binaire (uniforme) necessaires pour simuler les
valeurs de X.
Considerons maintenant une autre intrepretation de lentropie, plus proche de la

problematique du codage de source. Considerons le codage (avec un code de longueur
variable) des valeurs de X obtenu a partir de la s equence des valeurs ui qui leur cor-
respondent dans lalgorithme de simulation vu precedemment:
xX code u1 u2 u3
a 0
b 10
c 110
d 111
Nottons que le code obtenu est un code de prefixe (aucun mot de code nest prefixe
dun autre mot de code). Ceci implique que le code est immediatement decodable.
Par exemple le decodage de la s equence binaire 0100100110 peut etre fait au fur et a
mesure que les bits sont examines:
0( a)10( b)0( a)10( b)0( a)0( a)110( c).
Nous pouvons egalement constater (Essayez!) que nimporte quelle sequence de chifres
binaires peut etre d ecodee comme une sequence de symboles dans X (le code est com-
plet : il ny a pas de mots de code non utilisees).
Soit l(x), x X , la longueur du mot de code pour levenement x, par exemple
l(b) = 2. Nous pouvons constater facilement que la longueur moyenne des mot de
code est encore egale a 1.75, cest a dire, a H(X), inferieure au nombre de (2) bits
necessaires pour coder les elements de X avec un code de longueur constante. La
relation entre entropie et longueur moyenne des mots de code est un des resultats fon-
damentaux de la Theorie de lInformation, et sera presente rigoureusement plus tard.
Exemple 3 Entropie dune variable uniforme.

Prennons une variable aleatoire X X , |X | = m, avec distribution uniforme: p(x) =
1/m, x X , et calculons son entropie:
X 1
H(X) = log m = log m.
m
xX
Nous pouvons maintenant constater que la valeur H(1/2) = 1 obtenue dans lexemple
1 est un cas particulier de celui-ci. La propriete suivante montre que log m est en fait
8
une borne superieure.
Propriete 3 Borne superieure de lentropie (alphabet fini).

Si X X , ou |X | = m, alors
H(X) log m.
4
Cette inegalite peut etre obtenue de plusieurs facons. En particulier, elle decoule de
certaines inegalites fondamentales de la Theorie de lInformation, comme nous le ver-
rons plus tard (Propriete 15, page 23). Nous pouvons lobtenir directement comme la
solution dun probleme doptimisation sous contraintes:
P
max H(X), s.c. xX pX (x) = 1.
pX
Pour resoudre ce probleme nous utilisons la methode des multiplicateurs de Lagrange,

et formons la fonctionnelle
X
L = H(X) + ( pX (x) 1)
xX
Si nous egalons a zero la derivee par rapport a chaque pX (x) (nous considerons ici que
log loge )
L
= log pX (x) 1 = 0,
pX (x)
ce qui nous permet de conclure que les valeurs optimaux (qui maximisent H(X) sous la
constrainte de somme unitaire) de pX (x) sont independants de x. Comme leur somme
doit etre egale a 1, nous obtenons pX (x) = 1/m, comme nous voulions demontrer.
La Figure 1.4 illustre la variation de lentropie dans le simplex probabiliste de di-

mension m = 3.4 Comme nous pouvons constater, la valeur maximale de H(X) est
obtenue pour la distribution uniforme, au centre du simplex: p1 = p2 = p3 = 1/3.
Nous demontrerons plus tard (Propriete 19, page 25) que H est une fonction concave
dans le simplex, ce qui est apparent de la Figure 1.4 (considerez les valeurs de la fonc-
tion le long dun segment qui joint deux points sur la meme ligne de niveau de H(X)).
Definition 2 Entropie conjointe.

Soient X X et Y Y deux variables aleatoires avec distribution conjointe pXY (x, y),
(x, y) X Y. Leur entropie conjointe est
X 1
H(X, Y ) = p(x, y) log . (1.5)
p(x, y)
(x,y)X Y
4 Les triples (p1 , p2 , p3 ), tels que p1 + p2 + p3 = 1 et pi [0, 1], i = 1, 2, 3.
9
1
0.9
1.4 1.4
0.8
1.2 1.2
0.7
1 1
1 0.6
0.8
0.8 0.5 0.8
0.6
0.4
0.4
0 0.6 0.6
0.2
0 0.2 0.3
0 0.4 0.4
0.2 0.4 0.2
0.4 0.6 0.2 0.2

0.1
0.6
0.8
0.8
0
1 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figure 1.4: Entropie des distributions ternaires (vue tridimensionnelle, a gauche, et

representation sur le simplex, a droite).
Cette definition est une application de la definition originale a lensemble de toutes les
paires possibles des valeurs de X et Y , le produit X Y.
Nottons que lentropie conjointe est symmetrique, i.e., H(X, Y ) = H(Y, X).
Propriete 4 Borne inferieure de lentropie conjointe.
H(X, Y ) H(X).
4
Cette inegalite decoule directement du fait que la probabilite conjointe de deux evenements
est toujours inf erieure ou egale a la probabilite de chaque evenement : p(x, y) p(x),
x X , y Y :
X X
H(X, Y ) = p(x, y) log p(x, y) = p(y|x)p(x) log p(y|x)p(x)
x,y x,y
!
X X X
p(y|x)p(x) log p(x) = p(y|x) log p(x)
x,y x y
X
= p(x) log p(x) = H(X)
x
Exemple 4 Entropie conjointe entre entree et sortie dun canal binaire.

Considerons la transmission dune source binaire dans un canal avec du bruit, voir
Figure 1.5. La source S suit la loi de probabilite suivante:
ps (0) = q = 1/4, ps (1) = 1 q = 3/4.
La sortie du canal O peut etre en erreur avec probabilite = 1/8, et donc
pO (0) = q(1 ) + (1 q) = 0.3125
pO (1) = (1 q)(1 ) + q = 0.6875 = 1 0.3125.
10
s o
canal
Figure 1.5: Transmission dune source par un canal de communication.
Nous avons donc les valeurs suivants pour les entropies de la source H(S) et de la
sortie du canal H(O) :
H(S) = H(q) = 0.8113 bits, H(O) = H(0.6875) = 0.8960 bits.
La loi de probabilite conjointe de lentree (S) et de la sortie (O) est
pS,0 = [q(1 ) (1 q) q (1 q)(1 )] , (1.6)
ou nous avons ordonnee les quatre evenements possibles de la facon suivante {(s =
0, o = 0), (s = 1, o = 0), (s = 0, o = 1), (s = 1, o = 1)}. Lentropie de cette loi est
H(S, O) = H([0.2188 0.0938 0.0313 0.6563]) = 1.3548 bits.
La Figure 1.6 illustre la variation de lentropie conjointe pour les valeurs de q et

dans lintervalle unitaire. Nottez que pour = 0 (ou = 1), la courbe concide avec
entropie conjointe
2
1.8
2
1.6
1.4
1.5
1.2
1
1
0.5 0.8
0.6
0
1
0.4
0.8 1
0.6 0.8
0.6 0.2
0.4
0.4
0.2
0.2 0
0 0
Figure 1.6: Entropie conjointe de lentree et de la sortie.
lentropie de la source pour la valeur de q correspondante. Cette Figure montre donc

que lentropie conjointe est toujours superieure a lentropie de la source S, comme
laffirme la Propriete 4.
Definition 3 Entropie conditionnelle.

Soient X X et Y Y deux variables aleatoires avec distribution conjointe pXY (x, y),
(x, y) X Y. Lentropie conditionnelle de Y sachant X est
H(Y |X) = EX [H(Y |x)] , (1.7)
11
ou X 1
H(Y |x) = pY |x (y|x) log . (1.8)
pY |x (y|x)
yY
Cette derniere equation (1.8) est lentropie de la distribution conditionnelle de Y sachant

que X = x, pour une valeur particuliere de X. Elle depend donc de la valeur partic-
uliere qui a ete fixee. Lentropie conditionnelle est obtenue (eq. (1.7)) en considerant
la valeur moyenne par rapport a la valeur de X.
Propriete 5 Non-negativite de lentropie conditionnelle.
H(Y |X) 0.
4
Cette inegalite decoule directement du fait que lentropie de chaque distribution condi-
tionnelle (chaque terme de (1.7) ) est non-negative. Nous remarquons que H(X|Y ) =
0 si et seulement si H(Y |x) = 0, x X . Mais lentropie est nulle uniquement quand
toute la probabilite est concentree dans un seul evenement, et donc, H(Y |X) = 0
Y = f (X).
Exemple 5 Entropie conditionnelle de l entree dun canal binaire sachant sa sortie.

Nous considerons encore la transmission dune source binaire dans un canal avec des
erreurs de lexemple 4, Figure 1.5. Nous avons calcule la loi conjointe de lentree et la
sortie du canal, voir eq. (1.6). Par application de la loi de Bayes, nous obtenons la loi
de lentree sachant les valeurs de la sortie:
p(S = s, O = o) p(O = o|S = s)pS (S = s)
pS|O (s|O = o) = = ,
pO (o) pO (o)
ou le comportement du canal est decrit par les loi conditionnelles suivantes:

1 , o = 0
pO|S=0 (o|S = 0) =
, o=1

, o=0
pO|S=1 (o|S = 1) =
1 , o = 1
Nous obtenons les entropies suivantes :
H(S|O = 0) = 0.8813 et H(S|O = 1) = 0.5746 bits.
Lentropie conditionnelle est donc
H(S|O) = pO (0)H(S|O = 0) + pO (1)H(S|O = 1) = 0.4588,
qui est inferieure a lentropie de la source, H(S) = 0.8113. La Figure 1.7 illus-
tre la variation de lentropie conditionnelle H(S|O) avec sur lintervalle unitaire.
12
H(S|O)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figure 1.7: Entropie conditionnelle H(S|0) en fonction de la probabilite derreur.
Remarquez que pour = 0 ou = 1, cest a dire, quand la sortie est une fonction
deterministe de lentree, cette entropie conditionnelle devient nulle. Sa valeur maxi-
male, egale a lentropie de la source (verifiez cette affirmation et interpretez ce fait),
est obtenue pour = 1/2.
Remarque 2
Comme cas particulier, nous pouvons conclure que
H(X|X) = 0.
Propriete 6 Regle de chane pour lentropie conjointe (deux variables).
H(X, Y ) = H(X) + H(Y |X) = H(Y ) + H(X|Y ). (1.9)

4
La demonstration de cette relation est immediate a partir de la definition de lentropie

conjointe, en utilisant p(x, y) = p(y|x)p(x):
X 1
H(X, Y ) = p(y|x)p(x)
p(y|x)p(x)
xX ,yY
X 1 X X X 1
= p(x) log p(y|x) + p(x) p(y|x) log
p(x) p(y|x)
xX yY xX yY
= H(X) + H(Y |X).
Lequation alternative en termes de H(X|Y ) est obtenue en factorisant la loi conjointe

comme p(x, y) = p(x|y)p(y).
13
Cette derniere propriete nous permet de decomposer en deux pas lentropie con-
jointe de deux variable al eatoires : on observe dabord la valeur de X (ou Y ), avec
une entropie H(X) (respectivement H(Y )). Lobservation de Y (X) a alors une incer-
titude qui est quantifiee par lentropie conditionnelle H(Y |X) (H(X|Y )).
Remarque 3
A partir de cette decomposition nous pouvons obtenir la Propriete 4, qui decoule du
fait que lentropie conidtionnelle H(Y |X) est non-negative (Propriete 5).
Exemple 6 Lapplication de cette formule nous permet de calculer plus facilement

lentropie conditionnelle de lexemple precedant:
H(S|O) = H(S, O) H(O) = 1.3548 0.8960 = 0.4588.
La Propriete 6 peut etre etendue a un ensemble denombrable de variables aleatoires :
Propriete 7 Regle de chane pour lentropie conjointe (n variables).

n
X
H(X1 , . . . , Xn ) = H(Xi |X i1 ). (1.10)
i=1
ou la notation X i represente lensemble {X1 , . . . , Xi }, et, par convention, X 0 = .

4
Cette relation decoule de la factorisation de la densite conjointe de la facon suivante:

n
Y
p(x1 , . . . , xn ) = p(xi xi1 ).
i=1
Avec les definitions dentropie et dentropie conditionnelle, nous pouvons mait-

enant introduire la definition dinformation mututelle, qui joue un role determinant
dans la notion de capacite de canal, comme nous le verrons plus tard.
Definition 4 Information mutuelle.

Soient X X et Y Y deux variables conjointement distribuees. Linformation
mutuelle entre X et Y est, par definition,
I(X; Y ) = H(Y ) H(Y |X)

= H(X) H(X|Y ) (1.11)
Il est facile de demontrer que linformation mutuelle peut encore etre ecrite comme
14
Propriete 8
I(X; Y ) = H(X) + H(Y ) H(X; Y ). (1.12)
4
Remarque 4 De la Definition 4 et la remarque 2
I(X; X) = H(X), (1.13)
et donc nous pouvons interpreter lentropie comme linformation dune variable sur
soit meme.
Remarque 5 Diagrammes de Venn, algebre dinformation

Les relations (1.9), (1.11) et (1.12) peuvent etre resumees par le diagramme de la Figure
1.8, ou lentropie conjointe H(X, Y ), qui nest pas representee, correspond a lunion
des ensembles representes.
H(Y)
H(X|Y)
H(X)
I(X;Y)
H(X|Y)
Figure 1.8: Algebre de linformation. Relations entre entropie conjointe, condition-

nelle et information mutuelle.
Exemple 7 Si nous calculons linformation mutuelle pour lexemple du canal binaire

bruite, nous obtenons:
I(S, O) = H(S) H(S|O) = 0.1432.
La Figure 1.9 represente linformation mutuelle entre lentree et la sortie en fonction de

la probabilit e derreur du canal. Nous pouvons constater que linformation mutuelle
est maximale pour = 0 ou = 1 et nulle quand la probabilite derreur est 1.2.
15
I(S,0)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figure 1.9: Information mutuelle I(S; 0) en fonction de la probabilite derreur du

canal.
Propriete 9 Borne superieure de linformation mutuelle.
I(X; Y ) min (H(X), H(Y )) . (1.14)

4
Cette inegalite decoule de la definition dinformation mutuelle, Definition 4, et la non-

negativite de lentropie conditionnelle, Propriete 5. Lintrepretation de la Figure 1.8
confirme cette relation: linformation mutuelle, etant lintersection des ensembles qui
representent H(X) et H(Y ), ne peut pas etre superieure a chacun des ensembles con-
sidere dune facon separee.
Propriete 10 Symmetrie de linformation mutuelle.
I(X; Y ) = I(Y ; X). (1.15)

4
Lequation (1.11), ainsi que la Propriete 8, eq. (1.12), montrent que les roles de X
et Y peuvent etre interchanges dans la definition de linformation mutuelle. Cependant,
nous le d emontrons directement, ce qui nous permetra dobtenir un resultat qui nous
sera utile par la suite.
La demonstration est faite en ecrivant p(y) comme la marginale de la distribution con-
jointe X
p(y) = p(x, y),
xX
dans la definition dinformation mututelle:

X 1 X 1
I(X; Y ) = p(y) log p(y|x)p(x) log
y
p(y) x,y
p(y|x)
16
X 1 X p(x)
= p(y, x) log p(y, x) log
xy
p(y) x,y
p(y, x)
X p(y, x)
= p(y, x) log
x,y
p(x)p(y)

p(y, x)
= EX,Y log (1.16)
p(x)p(y)
Cette derniere expression montre bien que I(X; Y ) est une fonction symmetrique des
deux variables al eatoires.
Nous allons maintenant introduire une autre mesure fondamentale de la Theorie de

lInformation: lentropie relative (aussi appellee divergence ou meme distance
de Kullback-Leibler, car elle a ete introduite par S. Kullback pour des applications de
la theorie de linformation a des problemes de statistique).
Definition 5 Entropie relative.

Soient p(x) et s(x) deux lois de probabilite sur le meme alphabet denombrable X .
Lentropie relative de p par rapport a s est, par definition :
X
p(x) p(x)
D(p||s) = p(x) log = Ep log . (1.17)
s(x) s(x)
xX
Remarque 6
La definition precedante na de sens que si p(x) = 0 pour tous les x pour lesquels
s(x) = 0 :
s(x) = 0 p(x) = 0,
cest a dire, si la mesure p est absolument continue par rapport a s, que nous nottons
s >> p. Quand ce nest pas le cas, nous definissons D(p||s) = . La loi s est
designee par mesure de ref erence.
Propriete 11 Entropie relative est non-negative.

Soient p(x) et s(x) deux lois de probabilite sur le meme alphabet denombrable X , et
D(p||s) lentropie relative de p par rapport a s. Alors
D(p||s) 0. (1.18)
17
Cette inegalite fondamentale de la Theorie de lInformation decoule directement de
linegalite de Jensen.
Avant de presenter linegalite de Jensen, nous rappelons la notion de fonctions con-
vexes (concaves).
Definition 6 Fonction convexe.

Soit f () une fonction avec des valeurs en <:
f : <n <
x f (x)
On dit que f () est une fonction convexe si et seulement si x1 , x2 <n , [0, 1],
f (x1 + (1 )x2 ) f (x1 ) + (1 )f (x2 ). (1.19)
Si linegalite est satisfaite avec < a la place de , nous dirons que f est strictement
convexe.
Ceci veut dire que le segment de droite qui joint les points (x1 , f (x1 )) et (x2 , f (x2 ))
en <n+1 est au- dessus de la surface de la fonction, voir Figure 1.10. Des exemples de
fonctions convexes sont
x (qui nest pas strictement convexe!)
|x| (idem)
ex
log x1 , x > 0
7 log2(1/x)
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figure 1.10: Illustration de la definition de fonction convexe.
18
Si la deuxieme derivee de f () existe, alors une condition sufisante pour que f soit
convexe est que son Hessian soit une matrice definie non-negative (ne pas confondre,
dans lequation suivante, lHessian Hf matrice des derivees partielles de f avec
lentropie !!)
2 f (x)
Hf (x) 0, x <n f est convexe, [H]ij = , , i, j = 1, . . . , n.
xi xj
Definition 7 Fonction concave.

Nous dirons quune fonction f () est concave si f () est convexe.
Propriete 12 Inegalite de Jensen.

Soit f une fonction convexe, f : <n <, et X un vecteur aleatoire en X <n , avec
loi de probabilite pX . Alors
EpX [f (x)] f (EpX [x]) . (1.20)
La demonstration de cette inegalite decoule directement, pour des fonctions dou-

blement diferentiables, de la definition de fonction convexe. Nous la presentons dans
le cas scalaire. Considerons lexpansion de f (x), pour x X arbitraire, autour dun
point fixe x0 :
1
f (x) = f (x0 ) + (x x0 )f 0 (x0 ) + (x x0 )2 f 00 (x? ),
2
ou nous avons utilise le theoreme du point intermediaire (x? [x, x0 ]). On remarque
que le dernier terme du membre droit de cette equation est toujours non-negatif, vu que
f est convexe, et donc sa deuxieme derivee est toujours non-negative:
(x x0 )2 f 00 (x? ) 0.
Nous pouvons alors ecrire
f (x)f (x0 ) + (x x0 )f 0 (x0 ).
Si nous appliquons maintenant loperateur valeur moyenne nous obtenons
EpX [f (x)] f (x0 ) + EpX [(x x0 )] f 0 (x0 ) = f (x0 ) + (EpX [x] x0 )f 0 (x0 ),
car x0 est une constante fixee. Si nous prennons x0 = E[x], le deuxieme terme devient
nul, et nous obtenons directement linegalite de Jensen:
EpX [f (x)] f (EpX [x]).
19
Propriete 13
Si f est strictement convexe, et linegalite de Jensen se verifie avec egalite, cest a dire,
si
EpX [f (x)] = f (EpX [x]),
alors X est une constante, cest a dire, sa loi de probabilite est concentree dans un seul
point x? X :
pX (x) = (x x? )
4
Remarque 7
Linegalite de Jensen nous permet de prouver facilement que la variance est toujours
non-negative (x2 est une fonction convexe!):
var(X) = E[x2 ] E[x]2 0.
Nous revenons maintenant a la demonstration de la non-negativite de lentropie

relative, Propriete 11. De la definition de lentropie relative
X
s(x) s(x)
D(p||s) = p(x) log = Ep log
p(x) p(x)
xX
Comme log() est une fonction concave,

X
s(x) s(x)
D(p||s) log Ep = log p(x) = log 1 = 0
p(x) p(x)
xX
et nous obtenons donc le resultat pretendu :
D(p||s) 0.
Comme log() est une fonction strictement concave, nous pouvons encore affirmer
que
s(x)
D(p||s) = 0 x X : = c,
p(x)
ou c est une constante, cest a dire, nous devons avoir
s(x) = cp(x), x X
pour que D(p||s) = 0. Mais, comme les deux lois doivent avoir une somme egale a 1,
la seule solution possible est c = 1, et donc,
p(x) = s(x), x X .
20
Nous venons de prouver
Propriete 14 Soient p(x) et s(x) deux lois de probabilite sur le meme alphabet X et
D(p||s) lentropie relative de p par rapport a s. Alors
D(p||s) = 0 p = s. (1.21)
Remarque 8
Une demonstration alternative (et plus simple) de la non-negativite de lentropie rela-
tive est obtenue a partir de linegalite
log x x 1, (1.22)
avec egalite si et seulement si x = 1 (voir Figure 1.11). Alors nous pouvons ecrire
X X X X
s(x) s(x)
D(p||s) = p(x) log p(x) 1 = s(x) p(x) = 0,
p(x) p(x)
xX xX xX xX
avec egalite si et seulement si p(x) = s(x), x X . Dou nous concluons
D(p||s) 0.
x1
log x
6
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
Figure 1.11: Illustration de (1.22).
21
Les Proprietes 11 and 14 justifient lintrepretation de lentropie relative comme une
distance (ou mesure de similarite) entre des lois de probabilite. Cependant, elle nest
pas une vraie distance, au sens mathematique du terme, car elle nest pas symmetrique :
D(p||s) 6= D(s||p),
et ne verifie pas linegalite triangulaire :
D(p||s) 6 D(p||t) + D(t||s).
Comme elle est non-negative, et egale a zero uniquement quand les deux lois coinci-
dent, lentropie relative est une mesure de distortion, qui peut etre consideree comme
une generalisation de distance.
Linterpretation de D comme une distance est souvent utile pour analyser le son
comportement, et nous verrons quelle exibe des relation avec des mesures de distance
ordinaires entre des lois de probabilite. Elle joue un r ole fondamentale en theorie
de linformation, et comme nous le verrons, toutes les autres mesures que nous utilis-
erons (entropie, information mutuelle, et ses versions conditionnelles) peuvent etre
exprimees comme une divergence.
Il y a trois manieres de voir lentropie comme un cas particulier de divergence.
La premiere consiste a permettre a la mesure s de ne pas avoir masse unitaire (s est
une mesure generale, pas une mesure de probabilite), et prendre pour s la mesure s
quattribue une masse unitaire a chaque point de X (s est donc la fonction indicatrice
de X ) :
X
x X , s(x) = 1, D(p||s) = p(x) log p(x) = H(X).
xX
Lentropie est donc le symmetrique de la divergence de p par rapport a cette mesure

unitaire s. (Remarquez que comme s nest pas une mesure de probabilite la Propriete
11 ne sapplique plus.)
Deuxiemement, si nous prennons s = u, la mesure (de probabilite) uniforme en X ,

1
x X , u(x) = ,
|X |
nous concluons facilement que
D(p||u) = log |X | H(X), (1.23)
et donc lentropie H(X) est le logarithme de la taille de lalphabet X moins la diver-

gence de pX par rapport a la mesure uniforme u:
H(X) = log |X | D(p||u),
ou encore
H(X) = D(u||s) D(p||u),
22
ou nous avons utilise log |X | = H(u) = D(u||s), ou s est la mesure uniforme
introduite plus haut.
Finalement, nous pouvons encore etablir une troisieme relation entre entropie et en-
tropie relative, en faisant appel a notion de mesure produit. Soient p et q deux mesures
de probabilite definies dans un m eme alphabet X . Nous allons definir, a partir de la
loi p, deux mesures de probabilite dans le produit X X de la forme suivante:
p0 est la mesure diagonale:

p(x), si x = y
p0 (x, y) =
0, si x 6= y
Cest la loi conjointe de deux variables aleatoires X et Y parfaitement correles:
avec probabilite 1 les variables prennent la meme valeur : toutes les realisations
sont de la forme (x, x), x X .
p q est la mesure produit usuelle:
p q(x, y) = p(x)q(y),
qui correspond au cas ou les valeurs de x et y sont statistiquement independants.

Il est facile de demontrer que
H(X) = D(p0 ||p p),
et donc lentropie peut encore etre intrepretee comme la divergence entre ces deux
mesures produit extremes, qui correspondent aux cas de correlation parfaite (p0 ) et
independance statistique (p p).
Lentropie relative a plusieurs proprietes attractives. En particulier, si nous con-

siderons le sous-ensemble du simplex probabiliste des lois qui sont a une distance
inferieure ou egale a dune certaine distribution s:
A = {p : D(p||s) }
il peut etre demontre que A est un ensemble convexe (voir la Figure 1.12, ou la loi s est
indiquee par une etoile jaune), ce qui est une propriete importante dans des problemes
doptimisation.
De lequation (1.23) et de la non-negativite de lentropie relative decoule directe-

ment une borne sup erieure pour lentropie de variables aleatoires dans un alphabet fini:
Propriete 15 Borne superieure de H.

Soit X une variable aleatoire dans un alphabet fini X , |X | = m. Alors
H(X) log m. (1.24)
23
2
1.8
1.6
* 1.4
1
0.5 1.2
0
1
0.5
1 0 0.8
0
0.2 0.6
0.2
0.4
0.4 0.4
0.6
0.6
0.2
0.8 0.8
0
1 1
Figure 1.12: Entropie relative par rapport a la mesure indiquee par une etoile (jaune).
Nous avions deja identife cette borne dans les exemples 1 et 2.
Linformation mutuelle, introduite dans la Definition 4, et comme le montre lequation

(1.16), peut aussi etre ecrite comme une entropie relative:
Propriete 16 Information mutuelle et entropie relative.
I(X; Y ) = D(p(x, y)||p(x)p(y)). (1.25)

4
Linformation mutuelle est donc une generalisation de la covariance comme mesure

quantitative de d ependance statistique (nous rappelons que pour des variables Gaussi-
ennes, la correlation est effectivement une mesure dindependance statistique: des vari-
ables Gaussiennes sont statistiquement independantes si et seulement si elles son non-
correlees). De cette relation decoule immediatement
Propriete 17 Non-negativite de linformation mutuelle.
I(X; Y ) 0 (1.26)
I(X; Y ) = 0 p(x, y) = p(x)p(y) X, Y stat. ind. (1.27)
De la meme maniere, pour lentropie conditionnelle, nous pouvons affirmer que
Propriete 18 Borne superieure de lentropie conditionnelle.
H(X|Y ) H(X), (1.28)
24
avec egalite si et seulement si les deux variables sont statistiquement independantes.
Ceci est une cons equence immediate de la definition dinformation mutuelle, eq.
(1.11), et de la Propriete 11. 4
La propriete 18 peut etre interpretee comme les observations sont toujours utiles
: la connaissance dune autre variable Y ne peut que faire diminuer lincertitude exis-
tante sur la variable X.
Remarque 9
Cette derniere intrepretation suppose, bien-sur, une utilisation optimale de la nouvelle
information !
Remarque 10
Notez que la borne presentee dans la Propriete 18 concerne lentropie conditionnelle
H(X|Y ). Elle peut etre violee pour lentropie de la loi conditionnelle pX|y (x|y) :
pour certaines valeurs particulieres de y nous pouvons avoir H(X|Y = y)>H(X)!
En moyenne, cependant, lentropie doit decroitre.
Propriete 19 Concavite de lentropie.

Lentropie H(p) est une fonction concave de p. Soient p1 et p2 deux lois de probabilite
definies dans le meme alphabet X , et [0, 1]. Alors
H(p1 + (1 )p2 ) H(p1 ) + (1 )H(p2 ). (1.29)
Cette Propriete affirme donc que lentropie du melange de deux distributions est
superieure a la moyenne ponderee (avec les memes coefficients) de lentropie des deux
lois. Elle peut, evidement, etre etendue au melange dun ensemble denombrable de
lois de probabilite. La demonstration de cette inegalite peut etre faite directement en
calculant les deuxiemes derivees. Nous presentons une demonstration alternative, qui
fait appel a la regle de chane de lentropie, etablie dans la Propriete 7, page 14.
Designons par X X et Y X des variables aleatoires qui suivent les lois p1 et p2 ,
respectivement. Soit une variable aleatoire binaire {1, 2}, avec
p (1) = P r{ = 1} = , p (2) = P r{ = 2} = 1 .
Nous construisons une nouvelle variable aleatoire Z, selon la regle suivante. On genere
dabord p . Si = 1, nous procedons a un tirage selon p1 : z p1 (X); sinon
nous utilisons la loi p2 : z p2 (Y ). La loi de la nouvelle variable est
pZ (x) = p1 (x) + (1 )p2 (x), x X .
25
cest a dire, pZ est la loi de melange de p1 et p2 avec coefficents (, 1 ). Lentropie
conditionnelle de Z sachant est, par application de la Definition 3, page 12,
H(Z|) = H(Z| = 1) + (1 )H(Z| = 2).
Mais
H(Z| = 1) = H(p1 ), et H(Z| = 2) = H(p2 ).
De la borne superieure pour lentropie conditionnelle, nous obtenons finalement
H(Z|) H(Z) H(p1 ) + (1 )H(p2 ) H(pZ ) = H(p1 + (1 )p2 ).
De la non-negativite de linformation mutuelle et de lequation (1.12), que nous

repetons ici :
0 I(X; Y ) = H(X) + H(Y ) H(X; Y ),
nous pouvons etablir
Propriete 20
max (H(X), H(Y )) H(X, Y ) H(X) + H(Y ), (1.30)
ou la derniere inegalite est stricte si et seulement si X et Y ne sont pas statistiquement

independantes.
4
Propriete 21 Regle de la chane pour linformation mutuelle.

n
X
I(X n ; Y ) = X(Xi ; Y |X i1 ).
i=1
Cette propriete et la suivante sont facilement obtenues en utilisant recursivement la

loi de Bayes pour exprimer les lois conjointes comme le produit dune loi marginale et
des lois conditionnelles :
Propriete 22 Regle de la chane pour lentropie relative.
D(p(x, y)||s(x, y)) = D(p(x)||s(x)) + EX [D(p(y|X = x)||s(y|X = x))] .

4
26
Finalement, nous etablissons une relation qui nous sera utile plus tard. Pour cela
nous introduisons dabord la notion de raffinement dune partition.
Definition 8 Raffinement dune partition.

Soient Q et R deux partitions dun ensemble . Nous disons que R est un raffinement
de Q si tous les elements de Q peuvent etre ecrits comme une union des elements de
R. Nous nottons cette relation par Q < R.
Exemple 8 Considerez lensemble suivant X = {1, 2, 3, 4, . . . , 100}, et les partitions
P1 = {{1, 3, 5, . . . , 99}, {2, 4, 6, . . . , 100}}

P2 = {{1, 2, 3, . . . , 50}, {51, 52, . . . , 100}}
P3 = {{1, 2, 3, . . . , 50}, {51, 52, . . . , 75}, {76, 77, . . . , 100}}
Nous pouvons constater que P3 est un raffinement de P2 mais pas de P1 :
P2 < P3 , P1 6< P3 .
Propriete 23 Soient P et M deux mesures definies dans le meme espace mesurable

(, B), et soient Q et R deux partitions finies, avec R un raffinement de Q: Q < R.
Designons par PQ la loi de probabilite des elements de la partition Q induite par la
mesure P (voir discussion de la relation entre lois de probabilite et partitions, page 5).
Alors
D(PQ ||MQ ) D(PR ||MR ),

et
H(PQ ) H(PR ).
4
Cest a dire, cette Propriete nous dit quun raffinement de la partition conduit a une aug-
mentation de lentropie et de la distance entre lois de probabilite. Ceci veut dire, par
exemple, que si nous diminuons le nombre de bits qui codent (en regroupant, par ex-
emple, les niveaux deux a deux) chaque pixel dune image, sont entropie doit d ecroitre.
Nous allons maintenant demontrer linegalite sur les entropies relatives. La de-
monstration de linegalite sur les entropies peut etre faite selon la meme approche.
Si le raffinement de la partition conduit a des lois qui ne sont pas absolument con-
tinues (cela veut dire que certains evenements de mesure nulle selon MR ont une prob-
abilite positive selon PR ), alors D(PR ||MR ) = et la propriete est triviellement
satisfaite.
27
Si D(PQ ||MQ ) = , cela veut dire quil existe au moins un element Qi Q tel
que M (Qi ) = 0 mais P (Qi ) 6= 0. Alors, il existe un Rj Qi tel que M (Rj ) = 0
et P (Rj ) > 0, cest a dire P nest pas absolument continue par rapport a M et donc
D(PR ||MR ) = ,et donc linegalite est satisfaite avec egalite ( = ).
Il nous reste le cas D(PR ||MR ) 6= et D(PQ ||MQ ) 6= . Considerons la

difference entre les deux entropies relatives :
X P (Rj ) X P (Qi )
D(PR ||MR ) D(PQ ||MQ ) = P (Rj ) log P (Qi ) log .
j
M (Rj ) i
M (Qi )
Comme Q < R, nous pouvons regrouper la somme sur les elements de R en con-
siderant tous ceux qui appartiennent a un meme element de Q :

X X P (Rj ) P (Qi )
D(PR ||MR )D(PQ ||MQ ) = P (Rj ) log P (Qi ) log .
i
M (R j ) M (Qi )
j:Rj Qi
Nous pouvons maintenant demontrer que chaque terme entre parentheses est non-
negatif. S
Fixons une valeur de i. Comme Qi = Rj , si P (Qi ) = 0 P (Rj ) = 0, j :
Rj Qi , et donc le terme correspondant est nul. Si P (Qi ) 6= 0, nous pouvons
re-ecrire le terme correspondant comme

X P (Rj ) P (Rj )/P (Qi )
P (Qi ) log
P (Qi ) M (Rj )/M (Qi )
j:Rj Qi
ou nous avons utilise le fait que D(PQ ||MQ ) 6= et donc P (Qi ) 6= 0 M (Qi ) 6= 0.
Pour les valeurs de j dans chaque terme, Rj Qi , et donc
T
P (Rj ) P (Rj Qi )
Rj = Rj Qi = = P (Rj |Qi ).
P (Qi ) P (Qi )
Pour les autres valeurs de j, pour lesquelles Rj 6 Qi , alors Rj Qi = , et
P (Rj |Qi ) = 0 .
Des expressions equivalentes peuvent etre etablies pour la mesure M . Une expression
equivalente de chaque terme entre parentheses dans lexpression de la difference des
entropies relatives est donc

X P (Rj |Q )
i
P (Qi ) P (Rj |Qi ) log = P (Qi )D (P (R|Qi )||M (R|Qi )) 0 ,
j
M (R j |Q i)
ou nous avons utilise la non-negativite de la mesure P et de lentropie relative. De ce

resultat decoule donc
X
D(PR ||MR ) D(PQ ||MQ ) = P (Qi )D (P (R|Qi )||M (R|Qi )) 0 ,
i
28
et nous obtenons lexpression souhaitee :
D(PR ||MR ) D(PQ ||MQ ) .
29
Notes de Cours (part 2)
2006-2007
SIC-SICOM
Maria-Joao Rendas
October 14, 2006

30
Chapter 2
Compression de donnees
2.1 Introduction
Lobjectif de ce Chapitre est detablir les limites fondamentaux de la compression de
donnees, cest a dire de la determination de codes le plus efficaces possibles.
Nous comencons par formuler mathematiquement loperation de codage (et even-
tuelle compression). Considerons une source, X, qui emet des sequences x de sym-
boles {xi } dans un alphabet X , telle que nous representons dans la Figure 2.1. Soit
c(x) le resultat de loperation du codeur C (que nous admettons pour linstant binaire)
sur le message x X . La sequence (binaire) c(x) peut maintenant etre enregistree
pour une ulterieure recuperation/lecture, ou servir a transmettre le message x a travers
un canal de communication. Associe au codeur C, il doit exister un decodeur, D, qui
reconstruit, a partir de la sequence binaire c(x), le message initial x X . Le codeur
est donc une application
C: X {0, 1}?
,
x c(x)
et le decodeur D une application des sequences binaires dans lalphabet X :
D: {0, 1}? X
c(x) d(c(x))
Nous designerons lensemble C(X ) des mots (binaires) qui peuvent etre engendres par
le code C, par code.
Codage sans pertes

Nous pouvons distinguer les methodes de codage par le domaine de validite Y X de
lequation
d(c(x)) = x , (2.1)
qui impose que le message decode soit effectivement egal au message emis par la
source. Si lequation (2.1) se verifie x X , ce qui implique que lapplication C est
31
Source X x Codeur C c(x) Canal/disque c(x) Decodeur D d(c(x))
Figure 2.1: Codage/decodage.
inversible sur X , nous dirons que le codages est sans pertes. Dans le cas contraire,
nous dirons que C est un codeur avec pertes.
Remarque 1 Nous pouvons deja conclure quun code sans pertes doit verifier la con-
dition suivante:
|C(X )| = |X |.
Codes de longueur fixe/variable

Une autre distinction importante concerne la longeur des sequences codees,1
n(x) = |c(x)|.
Si tous les elements du code C(X ) ont la meme longueur, nous dirons que C est un
code de longeur fixe. Dans le cas contraire, nous parlerons dun code de longueur
variable. La longueur n des mots dun code (binaire) sans pertes de longueur fixe doit
necessairement satisfaire
n log2 |X |. (2.2)
Cependant, si nous acceptons que des pertes (cest a dire, que des sequences dis-
tinctes c1 6= c2 soient d ecodees par le meme message d(c1 ) = d(c2 ) X ), nous
pouvons utiliser des mots de longueur inferieure a la borne de lequation (2.2). Si la
probabilite des messages pour lesquelles ces erreurs se produisent est tres petite, la per-
formance globale du code peut etre acceptable. Pour pouvoir contrler cette probabilite,
il faut utiliser une caracterisation probabiliste de la source.
Definition 1 Plus petit ensemble -representatif S

Soit X une variable aleatoire avec valeurs dans lensemble X , et loi pX : X pX . S
est le plus petit sous-ensemble de X avec probabilite plus grande ou egale a 1 :
S = arg min |S|.

SX ,Pr{S}1
1 Pour des sequences x = x1 xn , n(x) designe le nombre delements de la sequence (sa longueur).
32
H(X)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Figure 2.2: graphe de H (X)/n (n = 4), [0, 1].
Definition 2 Contenu -informatif de X H (X)

Soit X pX , X X une variable aleatoire, et S le plus petit sous-ensemble -
informatif pour X. Le contenu -informatif de X est
H (X) = log |S |.
La valeur de H (X) nous indique le nombre minimal de bits dun code de longeur fixe
qui peut transmetre sans erreur toutes les sequences de lensemble S , et qui a donc
une probabilite derreur inferieure a .
Remarque 2 Si = 0, H0 (X) coincide avec la valeur maximale de lentropie des

variables aleatoires definies sur X :
H0 (X) = log |X | H(X),
ou H(X) est lentropie de Shannon de X introduite dans le Chapitre precedant.
Exemple 1 Nous illustrons les deux definitions precedantes, S et H (X).

Considerez une sequence de quatre variables binaires statistiquement independantes,
qui prennent une des deux valeurs possibles avec probabilite p = 0.8. La Figure
2.2 montre la variation de H (X) avec la valeur de sur lintervalle unitaire. Pour
cette exemple, le tableau suivant liste toutes les elements de X par ordre croissante de
probabilite (P r(1) = 0.8)
33
xk X p(xk ) Hk (X)
0000 (0.2)4 log2 (15) = 3.9069
0001 (0.2)3 0.8 log2 (14) = 3.9069
0010 (0.2)3 0.8 log2 (13) = 3.8074
0100 (0.2)3 0.8 log2 (12) = 3.7004
1000 (0.2)3 0.8 log2 (11) = 3.5850
0011 (0.2)2 (0.8)2 log2 (10) = 3.4594
0101 (0.2)2 (0.8)2 log2 (9) = 3.3219
1001 (0.2)2 (0.8)2 log2 (8) = 3.1699
0110 (0.2)2 (0.8)2 log2 (7) = 3.0000
1010 (0.2)2 (0.8)2 log2 (6) = 2.8074
1100 (0.2)2 (0.8)2 log2 (5) = 2.5850
1110 0.2 (0.8)3 log2 (4) = 2.0000
1101 0.2 (0.8)3 log2 (3) = 1.5850
1011 0.2 (0.8)3 log2 (2) = 1.0000
0111 0.2 (0.8)3 log2 (1) = 0
1111 (0.8)4
La colonne a gauche liste par ordre croissante de probabilite les possibles sequences
xk X , k = 1, . . . , 16. La colonne centrale indique leur probabilite p(xk ), fonction
uniquement du nombre de zeros et 1s dans la sequence xk . Les ensembles Sk sont
construits iterativement en enlevant les sequences par cet ordre (les moins probables
avant les plus probables), avec linitialisation S 0 = X :
[
S0 = X Sk1 = Sk {xk }, k = 1, 2, . . . , 16,
et donc leur taille est donnee par
|Sk | = |Sk1 | 1, k = 1, 2, . . . , 16 |S0 | = 16.
La colonne a droite du tableau liste le logarithme de cette taille, i.e., les valeurs de
Hk (X). Finalement, la probabilite k pour quune sequence ne soit pas dans Sk est
obtenue recursivement de la facon suivante:
0 = 1, k+1 = k p(xk+1 ), k = 1, 2, . . . , 16.
La Figure 2.3 illustre la variation de H (X)/n pour n = 10. Comparez avec la Figure
precedante.
Ces exemples nous montrent que si nous admettons une probabilite derreur > 0,
nous pourrons transmettre les messages dune source source avec moins de bits que
H0 (X). Les valeurs de H obtenus dans les exemples precedants dependent fortement
de la longeur de la sequence binaire (n = 4, 10 dans les exemples). La Figure 2.4
montre que pour des valeurs de n grands (les trois courbes representees correspondent
aux valeurs de n = 20, 50, 100), le nombre de bits par symbole de la source,H (X)/n
tend vers une valeur constante, egale a H(p), sauf dans les limites de linterval unitaire
: = 0 (codage sans pertes) et = 1 tres grande probabilite derreur). Cest cela qui
affirme le Theoreme du codage source de Shannon, que nous ennoncons maintenant:
34
H(X)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.2 0 0.2 0.4 0.6 0.8 1 1.2

Figure 2.3: graphe de H (X)/n (n = 10), [0, 1].
H(X)/n
1
0.9
0.8
H(0.8)
0.7
n=100
0.6
0.5
n=50
0.4
0.3 n=20
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Figure 2.4: graphe de H (X)/n (n = 20, 50, 100), [0, 1].
35
Theoreme 1 Theoreme du codage source (Shannon)
Soit X une source avec entropie H(X). Alors

1
> 0, ]0, 1[, n0 : n > n0 H (X (n )) H < . (2.3)
n
Dans cette equation, X (n) designe lensemble de toutes les sequences de taille n
dont les elements sont des tirages statistiquement independants de la meme variable
aleatoire X. 4
2.2 Propriete dequi-repartition asymptotique

Tous les evenements qui peuvent se produire sont essenciellement equiprobables
Par la loi des grands nombres (voir Theoreme 3), une sequence longue, x(n) (de
longueur n), de symboles statistiquement independants emis par une source avec des
valeurs dans un alphabet discret X = {1, . . . , m} de taille m, i.e. |X | = m, contient
un nombre ni (x) de occurrences de chaque symbole i dans x(n) , ni (x) ' np(i). Sa
probabilite est donc
m
Y m
Y
p(x(n) ) = p(i)ni (x) ' p(i)np(i) ,
i=1 i=1
Linformation contenue dans la sequence est donc
Xm
1 1
log (n) ' n p(i) log ' nH(X), (2.4)
p x i=1
p(i)
ou nous avons reconnu la definition de lentropie, H(X). Ceci explique le comporte-

ment de n1 H (X) observe dans la Figure 2.4 a la fin de la section precedante.
Pour demontrer le Theoreme de Shannon, nous allons faire appel a la notion den-
semble typique, qui formalise la notion de sequences typiques sous-jacente a la deriva-
tion de lequation (2.4). La typicite de la sequence est liee au nombre ni doccurrences
de chaque symbole. La definition formelle caracterise une sequence comme typique si
linformation quelle contient differe de nH(X) de moins dune quantite .
(n)
Definition 3 Ensemble typique A
Soient X1 , X2 , . . . , Xn des variables aleatoires independantes et identiquement dis-
tribuees (i.i.d.), avec loi de probabilite p(x), x X . Lensemble -typique par rapport
a p est le sous- ensemble de X n :
n h io
A(n)
= x (n)
X n
: p(x (n)
) 2 n(H(X)+) n(H(X))
, 2 (2.5)
36
ou, dune facon equivalente,

1 1
A(n)
= x(n)
X n
: log [H(X) + , H(X) ] (2.6)
n p(x(n) )
4
Remarque 3 Par sa propre definition, eq. (2.5), les elements de lensemble typique
ont tous essenciellement la meme probabilite. Cest ce fait que justifie le nom de la
Propriete 1 que nous allons maintenant enoncer.
Nous verrons que quand n est tres grand, cet ensemble typique contient presque
toute la probabilite.
Propriete 1 Propriete dequi-repartition assymptotique
Pour n suffisament large, une sequence x(n) de symboles statistiquement independants
emis par une source X appartient presque surement a un sous-ensemble de X qui
contient seulement 2nH(X) el ements, chacun avec une probabilite proche de 2nH(X) .
4
Cette Propriete est equivalente au Theoreme de Shannon:

Theoreme 2 Codage source (version informelle)
n variables Xi p, i = 1, . . . , n statistiquement independantes et identiquement dis-
tribuees avec entropie H(X) peuvent etre codees avec un nombre de bits superieur
a nH(X) avec une probabilite derreur negligeable; si un nombre de bits inferieur a
nH(X) est utilise, la probabilite derreur sera pres de 1. 4
La demonstration du theoreme du codage de source est basee dans la Loi (faible)

des grands nombres, que nous rappellons maintenant.
Theoreme 3 Loi (faible) des grands nombres
Soient Xi , i = 1, . . . , n, des variables aleatoires i.i.d., avec moyenne et variance 2 .
Soit
1X
X= Xi .
n i=1
Alors,
n o 2
2
Pr (X ) . (2.7)
n
Nous pouvons ennoncer cette loi dune autre facon equivalente comme
0 > 0, > 0, n0 : n > n0 Pr {|X | 0 } . (2.8)
2 2
Il suffit de prendre 0 = , et n0 = d e. 4
2 La notation dxe designe lentier le plus petit plus grand ou egal a x.
37
La Loi (faible) des grands nombres est une consequence de linegalite de Cheby-
shev.
Theoreme 4 Inegalite de Chebychev
Soit X une variable aleatoire non-negative et > 0. Alors
E[X]
Pr {X } . (2.9)

4
La demonstration de cette inegalite est simple:

X (a) Xx
Pr {X } = p(x) Pr {X } p(x)

x x
(b) X x E[X]
Pr {X } p(x) =

xX
ou les implications sont justifiees de la facon suivante:

x
(a): car 1
(b): car les termes ajoutes sont positifs.
De cette inegalite nous pouvons deduire imediatement une inegalite concernant le
moment centre dordre 2:
Theoreme 5 Inegalite de Chebychev (moment dordre 2)
Soit X une variable aleatoire et > 0. Alors
n o 2
2
Pr (X E[X]) . (2.10)

4
Il sufit de prendre X = (X E[X])2 en (2.9).

La Loi faible des grands nombres, Propriete 3, decoule si nous utilison le fait que
la variance de la moyenne de n variables statistiquement independantes est egale a la
variance individuelle de chaque variable divisee par n.
Nous revenons maintenant au principe Qdequi-repartion asymptotique, Propriete 1.

Comme les variables sont i.i.d., p(x(n) ) = i=1,...,n p(xi ), et une condition equivalente
a (2.6) est encore
n
1X 1
log [H(X) , H(X) + ] .
n i=1 p(xi )
38
Considerons maintenant les variables aleatoires (i.i.d.)
1
Zi = log , i = 1, . . . , n.
p(Xi )
Ces variables ont une moyenne
E [Zi ] = H(X),
2
et une variance que nous designons par Z . La condition (2.6) qui defini lensemble
typique peut donc etre ecrite en fonction des variables Zi :
n n !2
1 X 1X

Zi H(X) Zi H(X) 2 .
n n
i=1 i=1
Par la loi faible des grands nombres,nous sommes capables de calculer une borne
inferieure pour la probabilite de cet evenement :
!2
1X n 2
Pr Zi H(X) 2 Z2 n 0, (2.11)
n n
i=1
ce qui demonstre la Propriete dequi-repartition asymptotique: la probabilite de len-

semble de sequences qui ont probabilite dans lintervalle de lequation (2.6) (lensemble
(n)
typique A ) est aussi pres de 1 que lon souhaite, il suffit pour cela de prendre n suff-
isament grand :
( n )
n o 1 X 2

Pr A(n) = Pr Zi H(X) < 1 Z2 n 1 . (2.12)
n n
i=1
Nous pouvons re-ecrire cette equation comme :

n o 2
Z
Pr A(n)
1 (n, ), (n, ) = , (2.13)
n2
ou la definition de (n, ) est evidente.
Pour demontrer le Theoreme de Shannon du codage source, il faut etablir la relation

entre la taille de lensemble ensemble typique et H (X (n) ) = log |S |. Nous allons
demontrer que pour toute valeur de la probabilite derreur , et pour toute valeur de ,
il existe un n0 suffisament grand tel que n > n0 , H (X (n) ) nH(X) [n, n].
La demonstration est faite en deux etapes. Dans la premiere, nous allons demontrer
que > 0, [0, 1], n0 tel que
1
H (X (n) ) H(X) < , n > n0 . (2.14)
n
39
(n)
A
n(H+)
Pr {S } = 1 n |Ao | 2
(n)
Pr A 1 (n, )
Figure 2.5: Premier pas dans la demonstration.
Le deuxieme pas etabli que Pr{S } = 1 , n > n0 implique que sa taille H doit
satisfaire
1
H (X (n) ) > n (H(X) ) H (X (n) ) H(X) > , (2.15)
n
et donc lequation (2.3) est vraie.
1 (n)
n H (X ) H(X) <
(n)
Lensemble typique A nest pas le meilleur ensemble pour compression, au sens
que nous avons discute dans la section precedante. Par exemple, il est simple de con-
stater que dans les exemples de la section precedante la sequence la plus probable
(n) (n)
nappartient pas a A . La taille de A fourni donc une borne superieure pour la
taille de S :
H (X (n) ) = log |S | log |A(n)
|. (2.16)
Nous allons montrer que S doit etre petit, en calculant une borne superieure Bs pour
(n)
la taille de A :
|A(n)
| Bs H log Bs .
La borne superieure est obtenue de la facon suivante:

n o X
1 Pr A(n) = p(x(n) )
(n)
x(n) A
(a) X
> 2n(H+)
(n)
x(n) A
40
X
= 2n(H+) 1 = 2n(H+) |A(n)
|
(n)
x(n) A
|A(n)
|<2
n(H+)
(2.17)
ou nous avons utilise en (a) la borne inferieure pour la probabilite des sequences qui
appartiennent a lensemble typique qui decoule de sa definition (2.5). Si nous fixons
n0 tel que
2 2
(n0 , ) = 2 Z n0 2Z , (2.18)
n0
par lequation (2.11), n > n0 lensemble typique a une probabilite superieure a 1 :
n o
Pr A(n)
1 (n, ) 1 (n0 , ) 1 .
(n)
A satisfait donc la condition du Theoreme de Shannon : pour toute valeur de > 0
et de [0, 1], nous pouvons determiner un n0 (eq. (2.18)) tel que pour des sequences
de longueur n plus grande que n0 nous verifions simultanement
n o
Pr A(n) 1 , et log |A(n)
| n (H(X) + ) .
Si nous utilisons la borne superieure (2.17) dans lequation (2.16), nous obtenons
linegalite recherchee :
H (X (n) ) < n(H + ) . (2.19)
1 (n)
n H (X ) H(X) >
La demonstration de la deuxieme partie est faite par contradiction. Nous allons

supposer quil existe un ensemble T , de taille plus petite que 2n(H) :
|T | < 2n(H(X)) , (2.20)
et qui a une probabilite superieure a 1 :
Pr {T } 1 , (2.21)
pour tout n superieur a un certain n0 . Nous allons voir quil est impossible de trouver
n0 de facon que (2.20) et (2.21) soient simultanement satisfaites pour tout n > n0 .
(n)
Soit A/2 lensemble(/2)-typique. Nous pouvons decomposer la probabilite de
lensemble T de la facon suivante 3 :
n \ o n \ o
(n) (n)
Pr {T } = Pr T A/2 + Pr T A/2 (2.22)
Mais
n \ o X
(n)
Pr T A/2 = p(x)
(n)
x(n) T,x(n) A/2
\
(n)
max p(x) T A/2
(n)
xA/2
2n(H/2) |T | 2n(H/2) 2n(H) = 2n/2 . (2.23)

3 Nous representons par A le complement de lensemble A: A = {x 6 A}.
41
|T | < 2n(H(X)) (n)
A2
(n)
x A/2 p(x) 2n(H(X)/2)
OC
C
C
C
C
(n)
C
T A/2 C n o
(n)
Pr T A/2 2n/2
Figure 2.6: Illustration du calcul de la borne pour la probabilite de T .
Pour le deuxieme terme de (2.22)

n \ o n o 4 2
(n) (n)
Pr T A/2 Pr A/2 Z2 , (2.24)
n
ou nous avons utilise la borne (2.12) pour la probabilite de lensemble typique. Si nous
utilisons les bornes (2.23) et (2.24) dans lequation (2.22), nous obtenons
2
4Z
|T | 2n(H(X)) Pr {T } 2n/2 + , (2.25)
n
ce qui montre que pour tout ensemble T de taille inferieure a 2n(H) nous ne pouvons
pas trouver un n0 tel que pour tout n > n0 la probabilite de T soit superieur a 1 .
(La Figure 2.7 illustre la variation avec n du membre droit de linegalite (2.25).)
La taille de S doit donc satisfaire |S | 2n(H(X)) , ou encore
1
H (X (n) ) H(X) > ,
n
comme nous voulions demontrer.
Si n est suffisament large, le graphe de la fonction H (X (n) ) est donc bien com-
pris dans une region horizontale autour de la valeur de lentropie, comme nous avions
affirme, et verifie numeriquement dans la Figure 2.4 de la page 35.
Remarque 4 La premiere partie du theoreme nous dit quil suffit dune petite tolerance
' 0 aux erreurs pour que le nombre de bits par symbole ne doive pas exceder
42
2
1.8
1.6 2.n + /(n)
1.4
1.2
0.8
0.6
0.4
0.2
0
0 10 20 30 40 50 60 70 80 90 100
n
Figure 2.7: Borne superieure dans lequation (2.25).
H + . La deuxieme partie montre que meme si nous admettons une grande probabilite
derreur ' 1, le nombre de bits par symbole devra encore etre a de lentropie de
la source. Ceci demontre le sens de lentropie comme le nombre moyen de bits (par
symbole) necessaires pour coder les symboles dune source.
43
2006-2007
SIC-SICOM
Maria-Joao Rendas
October 27, 2006

2
Contents
4 Taux dentropie (Entropy rate) 67
4.1 Taux dentropie et Codeur Universel . . . . . . . . . . . . . . . . . . 67
4.2 Taux dentropie de Chanes de Markov . . . . . . . . . . . . . . . . . 72
4.3 Lalgorithme de Lempel-Ziv . . . . . . . . . . . . . . . . . . . . . . 87
3
66
Chapter 4
Taux dentropie (Entropy rate)
Dans le Chapitre 3 nous avons etudie le Theoreme du Codage Source pour des sources
blanches, cest a dire, dont les symboles produits par la source sont statistiquement
independants et identiquement distribuees. Dans ce Chapitre nous allons generaliser ce
resultat pour des sources avec memoire, en faisant appel a la notion de taux dentropie.
Nous introduisons egalement la notion de codes universels, et nous presentons lalgo-
rithme de Lempel-Ziv, comme exemple de code universel qui exploite la structure de
correlation de la source.
4.1 Taux dentropie et Codeur Universel

Definition 1 Taux dentropie (Entropy rate)
Soit Xn une source stationnaire (dont la distribution est invariante par rapport a des
translations (shifts) dans le temps). Son taux dentropie (entropy rate), H(X) est, par
definition
1
H(X) = lim H(X1n ), (4.1)
n n
ou nous utilisons la notation X1n = {X1 , X2 , . . . , Xn }. 4
Propriete 1 Pour une source stationnaire, le limite dans la definition (4.1) existe et est
egal a
H 0 (X) = lim H(Xn |Xn1 , Xn2 , . . . , X1 ) (4.2)
n
Demonstration
Nous allons demontrer dans un premier temps que le limite H 0 dans lequation (4.2)
existe.
0 H(Xn |X1n1 ) = H(Xn |Xn1 , . . . , X2 , X1 )
67
(a)
H(Xn |Xn1 , . . . , X2 )
(b)
= H(Xn1 |Xn2 , . . . , X1 ) = H(Xn1 |X1n2 ),
ou (a) est justifiee car le conditionnement diminue lentropie, et (b) par la stationnarite
de Xn .
Nous voyons donc que
n = H(Xn |X1n1 ) (4.3)
est une sequence non-croissante (n n1 ) de nombres non-negatifs (n 0). Elle
doit necessairement avoir une limite:
lim n = H 0 .
n
Nous enoncons maintenant un Lemme qui sera utilise par la suite pour etablir
legalite entre (4.1) et (4.2).
Lemme 1 Moyenne de Cesaro

Soit an une sequence et a sa limite :
an a.
Soit bn la sequence :
n
1X
bn = ai .
n i=1
Alors
bn a lim bn = lim ai .
n i
Demonstration
lim bn = b > 0 N () : n > N () |bn b| < .

n
Comme an a :
> 0, n() : n > n() |an a| < .
Soit n() lordre dont lexistance est garantie par la convergence de la serie an . Alors,
pour n n(),
n
1 X

|bn a| = ai a
n
i=1

X 1
n
a

= ai
n n
i=1
68
n
1 X

= (ai a)
n
i=1
n() n
1 X 1 X
(a a) + (a a) (4.4)
n i n i
i=1 i=n()+1
car |a + b| |a| + |b|.

Le premier terme :

n() n()
1 X 1X
(ai a) |ai a|
n n i=1
i=1
n()
1X
max |ai a|
n i=1 in()
n()
= max |ai a|
in() n
Pour
n()
X
n() 1
?
n > N () =
(ai a) < .
maxin() |ai a| n i=1
Pour le deuxieme terme dans lequation (4.4) :

n n
1 X X
(a a) 1 |ai a|
n i n
i=n()+1 i=n()+1
n
X
1
max |ai a|
n i>n()
i=n()+1
n n()
= max |ai a|
i>n() n
max |ai a|
i>n()
par la definition de n().

On peut donc affirmer que n > N ? ()
|bn a| < 2.
Si nous prenons = 2, alors,

n(/2)
> 0 n > N ? (/2) = |bn a| <
/2 maxin(/2)
cest a dire, la serie bn converge, et elle a la meme limite que an . 4
69
Nous pouvons maintenant finir la demonstration de legalite entre (4.1) :
n n
(a) 1 (b) 1X (c) 1X
H(X) = lim H(X1n ) = lim H(Xi |X1i1 ) = lim i ,
n n n n n n
i=1 i=1
ou nous considerons la definition de i de lequation (4.3) et le limite intervenant

dans lequation (4.2). Dans lequation precedante nous avons utilise : (a) la definition
de H; (b) la regle de la chane pour lentropie conjointe; (c) la definition de la serie i .
Lapplication du Lemme qui vient detre enonce a cette expression conduit a
H(X) = lim i = H 0 (X),
i
ce qui complete la demonstration.

Propriete 2 H(X1n ) satisfait les inegalites suivantes:
1
H(X1n ) H(Xn |Xn1 , . . . , X1 ) (4.5)
n
et
1 1
H(X1n ) H(X1 , . . . , Xn1 ). (4.6)
n n1
Ces deux inegalites nous disent que la sequence bn = n1 H(X1n ) est decroissante et
bornee inferieurement par n = H(Xn |X1n1 ).
4
Linegalite (4.5) peut etre demontree de la facon suivante:

n
X
H(X1n ) = H(Xi |X1i1 )
i=1
n
X
(a) n1
= H(Xn |Xni1 )
i=1
(b) n
X
H(Xn |X1n1 )
i=1
= nH(Xn |X1n1 ),
ou (a) est justifiee par la stationnarite de la sequence, et (b) par le fait que le condition-
nement diminue lentropie.
Linegalite (4.6) est facilement obtenue en utilisant (4.5) dans lexpansion de H(X1n ):
1 1
H(X1n ) = H(X1n1 ) + H(Xn |X1n1 )
n n
1 1
H(X1n1 ) + H(X1n )
n n
(n 1)H(X1n ) nH(X1n1 )
1 1
H(X1n ) H(Xn |X1n1 ).
n n1
70
Theoreme 1 (Codage Source)
Soit L?n (X) la longueur moyenne (par symbole) dun code optimal sans pertes pour
des sequences de taille n : X n = {X1 , . . . , Xn }. Alors
n
L?n (X) H(X).
Ce theoreme affirme que le taux dentropie H(X) est asymptotiquement (dans le limite
de blocs de grande taille (n )) le nombre minimal de bits par symbole source pour
coder sans pertes les sequences de la source Xn . Le taux de compression optimal est
donc le taux dentropie de la source.
Definition 2 Code universel

Soit Cn un code sans pertes pour des sequences de n symboles source, et `n la fonction
qui decrit la taille des mots de ce code. Cn est un code universel si
1
lim E `n (X n ) = H(X),
n n
pour toutes les sources X stationnaires . 4
Nous verrons dans une Section ulterieure quil existent effectivement des codes uni-
versels, et que le code de Lempel-Ziv est un exemple bien connu de ce type de codes.
La version que nous avons presentee (dans le Chapitre 3) du Theoreme du Codage
Source, pour des sources i.i.d., est basee dans la Propriete dequi-repartition asympto-
tique, qui affirme que si Xn sont des variables i.i.d., alors
1 n
log p(xn ) H(X),
n
ou la convergence est en probabilite, et H(X) est lentropie de Shanon des variables
aleatoires i.i.d. Xn .
Nous avons alors vu que pour n suffisament grand, lensemble -typique defini par

1
An = xn : log p(xn ) H(X) <
n
satisfait les relations suivantes:
Pr{An } 1 , 2n(H(X)) |An | 2n(H(X)+) .
Ces equations affirment quil existent ' 2nH(X) sequences qui concentrent presque
toute la masse de probabilite. Nous pouvons alors concentrer nos efforts de codage sur
cet ensemble, en utilisant un code dont la longeur est pres de lentropie de la source,
avec une probabilite derreur aussi petite que lon souhaite.
Cependant, la Loi Forte des Grands Nombres, dans laquelle est basee la Propriete
dequi-repartition asymptotique, est valable pour des processus plus generaux que les
sources i.i.d.: les processus ergodiques, dont nous donnons maintenant la definition.
71
Definition 3 Source ergodique
Soit Xn = {. . . , X1 , X0 , X1 , . . .}, Xn X , une source stationnaire, et representons
par T (X) loperateur de translation (shift):
Y = T ({. . . , X1 , X0 , X1 , . . .}) = {. . . , X0 , X1 , X2 , , . . .}, Yn = Xn1 .
Soit T k (X) la translation de X par k unites de temps:
Y = T k (X) Yn = Xnk .
La source Xn est ergodique si pour toute fonction mesurable f : X < avec

E[f (X)] <
n
1X k n
f T (X) E (f (X)) .
n i=1
Dune facon informelle, nous pouvons dire quune source est ergodique si sa carac-
terisation statistique peut etre deduite a partir de lobservation dune de ses realisations
(un seul sample path).
Definition 4 Code ponctuellement universel (pointwise universal code)

Un code Cn (X) est ponctuellement (pointwise) universel si sa longueur `n satisfait
1
lim `n (X n ) H(X) w.p. 1,
n n
pour toute source X stationnaire et ergodique. 4
Remarquez que cette notion de codeur universel implique loptimalite (asymptotique)

du code pour toute sequence de la source.
4.2 Taux dentropie de Chanes de Markov

Definition 5 Processus de Markov
Une serie aleatoire (un processus aleatoire a temps discret) Xn est un processus de
Markov (avec etat Xn X ) si
p(Xn+1 = xn+1 |Xn = xn , . . . , X1 = x1 ) = p(Xn+1 = xn+1 |Xn = xn ),
ou xn X , n = 1, . . . , n + 1.
Nous designons les noyaux p(Xn+1 = xn+1 |Xn = xn ) distributions condition-
nelles de Xn+1 sachant la valeur de Xn par probabilites de transition du processus
de Markov. 4
72
Ceci est lexpression mathematique de la notion intuitive de processus sans memoire.
Formule autrement, nous dirons que le passe (Xi , i < n) et le futur (Xi , i > n) sont sta-
tistiquement independants sachant le present (Xn ).
Pour un processus de Markov, il est imediat de verifier (application repetee de la

loi de Bayes pour la probabilite conditionelle) que la probabilite dune sequence xn
factorise de la forme suivante:
p(xn ) = p(x1 )p(x2 |x1 ) p(xn |xn1 ).
Definition 6 Processus invariant dans le temps

Un processus de Markov est invariant dans le temps si sa probabilite de transition ne
depend pas de n (elle est independante de lorigine du temps):
p(Xn = xn |Xn1 = xn1 ) = p(Xn+k = xn |Xn+k1 = xn1 ), k .
Definition 7 Chane de Markov

Un processus de Markov, ou letat Xn prend des valeurs dans un ensemble fini X , |X | =
m < , est appele Chane de Markov. 4
Pour une Chane de Markov, Xn X = {x1 , . . . , xm }, avec |X | = m, les pro-

babilites de transition sont specifiees par des matrices de transition Pn , de dimension
m m, qui ont comme element generique [Pn ]ij
[Pn ]i,j = p(Xn = xi |xn1 = xj ), xi X , i, j = 1, . . . , m. (4.7)
La matrice P est une matrice stochastique: la somme des elements de toutes ses
colonnes doit etre egale a 1. Ces matrices possedent plusieurs proprietes algebriques
interessantes, comme nous le verrons par la suite.
La loi de probabilite pour letat de la Chane a linstant n, Xn , est decrite par un

vecteur pn de dimension m

p(Xn = x1 )
..
pn = . ,
p(Xn = xm )
qui doit verifier les conditions suivantes:
m
X
[pn ]i = 1, [pn ]i [0, 1] i = 1, . . . , m,
i=1
et qui satisfait lequation de recurrence suivante (loi de la probabilite totale)
pn+1 = Pn+1 pn ,
73
ou Pn+1 est la matrice de transition, definie dans (4.7).
Pour une Chane de Markov invariante dans le temps, les matrices Pn ne dependent pas
de n: Pn = P, n. Dans ce cas, on obtient facilement
pn = P n p0 , (4.8)
ou p0 est la probabilite de letat initial.
Exemple 1 Stepping stone model

Nous presentons dans cet exemple, un modele de Chane de Markov qui a ete utilise en
etudes de genetique. Il modelise letat dun tableau de n-par-n carres, ou chaque carre
peut prendre une dentre K couleurs possibles, Xk {1, . . . , K}nn . Letat initial de
chaque carre, X0 (i, j), est choisi aleatoirement (egale probabilite de prendre une des
K couleurs), independamment des autres carres

1 1
X0 (i, j) u = , i, j = 1, . . . , n.
K K
A chaque pas, letat de chaque carre est modifie en fonction de son voisinage Vi,j .
Nous precisons cette notion de voisinage :
Vi,j = {(p, q), p {(i1)n , (i+1)n }{(p, q), q {(j1)n , (j+1)n }}, i = j, i = 1, . . . , n.
ou
(a)n = a, si a {1, . . . , n}, (0)n = n, (n + 1)n = 1.
Ceci defini une geometrie de doughnut dans le carre (comme si on construisait un
cilyndre en collant son cote inferieur a son cote superieur, et apres un doughnut en
collant les deux frontieres circulaires ensemble).
Avec cette definition, letat de chaque carre est determine de la facon suivante. Pour
chaque site (i, j) on choisit (avec egale probabilite) un element (p, q) Vi,j de son
voisinage, et le carre Xk+1 (i, j) prend la couleur Xk (p, q):
Xk+1 (i, j) = Xk (p, q), i, j = 1, . . . , n.
Ce modele est assez facile a simuler, mais lanalyse de sa matrice de transition est
difficil (Essayez de specifier cette matrice, meme pour le cas simple de K = 2 (image
2
binaire) et n = 3. Notez que dans ce cas la dimension de lespace detats est K n =
9
2 = 512!). La Figure 4.1 illustre la configuration initiale X1 et les configurations
dune realisation de cette Chane pour n = 1, 30, 31 and 80.
Vous pouvez constater que cette Chane tends vers un des k etats ou tout le tableau
a la meme couleur (etats absorbants de la Chane). 4
Definition 8 Etats absorbants et transitoires

Un etat xi X dune Chane de Markov est absorbant si Pii = 1, cest a dire, quune
fois que la Chne passe par cet etat elle ne peut plus le quitter.
Un etat x X est transitoire sil nest pas absorbant. 4
74
X1 X30 X31 X80
1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
5 5 5 5
6 6 6 6
7 7 7 7
8 8 8 8
9 9 9 9
10 10 10 10
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figure 4.1: Evolution de letat du modele de lexemple 1, pour k = 1, 30, 31, 80.
Nottez que Pii = 1 Pji = 0, j 6= i.
Pour la Chane de lexemple 1, il existent K etats absorvents :
X(i, j) = k, (i, j), k {1, . . . , K}
(les tableaux de couleur constante). Tous les autres etats sont transitoires.
Definition 9 Chane asorbante

Une Chane de Markov est absorbante si elle possede au moins un etat absorvent, et
sil est possible de transiter a partir de tous etats transitoires vers un etat absorbant de
la Chane. 4
La Chane de lexemple 1 est absorbante.
Definition 10 Forme canonique de la matrice de transition

Considerez la re-numerotation des elements de lespace detats X , |X | = m, dune
Chane de Markov absorvente avec r etats absorbants, de facon que les premiers m r
etats soient les etats transitoires de la Chane. Soit P = {Xa , Xt } la partition suivante
de X :
X = X a Xt , Xt = {1, . . . , m r}, Xa = {m r + 1, . . . , m}.
(Xt regroupe les m r etats transitoires, et Xa les r etats absorbants.)

Nous pouvons alors ecrire la matrice de transition de la Chane de la facon suivante

Q 0
P = , (4.9)
R Ir
ou Q est une matrice de dimension (m r) (m r) et Ir est la matrice identite de

dimension r. 4
Le diagramme de la Figure 4.2 illustre cette partition des etats, et le sens des matrices
Q et R.
75
Q
'$

R Xt
&%

'$
Xa
&%
Figure 4.2: Structure dune Chane de Markov absorbante.
Il est aise de constater quavec cette ecriture de la matrice de transition, la matrice

P n (voir eq. (4.8)) est de la forme
n
Q 0
Pn = .
? Ir
ou nous nexplicitons pas la matrice de transition entre les etats transitoires Xt et les
etats absorbants Xa , qui est simplement indiquee par ?.
Definition 11 Distribution stationnaire
Soit une loi de probabilite (elements positifs dont la somme est unitaire) telle que
= P ,
ou P est la matrice de transition dune Chane de Markov X invariante dans le temps.
Lequation precedante affirme que est un vecteur propre de P avec valeur propre
unitaire. Alors, est une loi stationnaire de la Chane X. 4
Definition 12 Chane stationnaire

Si n 1 pn = , alors la Chane de Markov est un processus stationnaire (sa distri-
bution est invariante par rapport a des translations temporelles). 4
Definition 13 Chane irreductible (ou ergodique)

Si i, j {1, . . . , m}, il existe un k tel que
k
P ij > 0,
la Chane de Markov est irreductible (connectee). 4
Ceci veut dire que la Chane peut transiter, avec probabilite non-nulle, de Xn = xj vers
Xn+k = xi , pour nimporte quel pair detats (xi , xj ) X 2 . Nottez que le nombre de
pas k peut dependre du pair delements (xi , xj ) X 2 de depart et darrive consideres.
Ceci exclue, bien evidement, la possibilite de lexistance detats absorvents.
76
Definition 14 Chane fortement connectee (ou reguliere)
Sil existe un k tel que
k
P ij > 0, i, j {1, . . . , m},
la Chane de Markov est fortement connectee (irreductible et aperiodique). 4
Dans cette derniere definition, la valeur de k est la meme pour tous les pairs (xi , xj )
X 2 . Notez que si une chane est reguliere alors elle est necessairement ergodique :
regularite ergodicite
mais linverse nest pas vrai. Toute matrice de transition qui ne contient pas de zeros
define une chane reguliere (et donc ergodique).
Exemple 2 Chane binaire

Considerons une Chane de Markov invariante dans le temps, avec matrice de transition

1
P = .
1
Si = ou = 0, la Chane nest pas connectee (il existe un etat qui ne peut pas etre
atteint a partir de lautre etat).
Pour 6= 0 et 6= 0, la Chane possede la distribution stationnaire suivante:
" #

= + .

+
Si = = 1, la Chane est connectee, mais elle nest pas fortement connectee (en
effect, elle est periodique, de periode egale a 2) :

0 1 1 0
P 2k+1 = P 2k =
1 0 0 1
Theoreme 2 Probabilite dabsortion

Soit Xn une Chane de Markov absorbante (r 1), et P sa matrice de transition, ex-
primee dans la forme canonique (4.9). Alors, la probabilite que la chane soit absorbee
est 1, cest a dire,
lim Qn = 0. (4.10)
n
77
Demonstration
Soit mj le nombre minimal de pas pour que la chane puisse passer a un etat absorbant
x Xa a partir de letat j:
mj = min : i Xa : Pijk > 0.

k1
Soit pj la probabilite pour que la chane ne soit pas absorbee en mj pas a partir de letat
j: X m
pj = 1 Pij j < 1,
iXa
ou linegalite est stricte a cause de la definition de mj . Soient
m = max mj , p = max pj .
jXt jXt
La probabilite de ne pas etre absorbee en m pas est
Pr { pas absorbee en m pas } p.
De la meme maniere,
Pr { pas absorbee en im pas } pi ,
et donc
lim Pr { pas absorbee en im pas } 0.
i
Comme
Pr { pas absorbee en m + 1 pas } Pr { pas absorbee en m pas } ,
est une sequence monotonne en n, nous pouvons conclure que
Pr { pas absorbee en n pas } 0,
et donc
lim Qn = 0.
n
Theoreme 3 Matrice fondamentale

Soit Xn une Chane de Markov absorbante, et P sa matrice de transition, exprimee
dans sa forme canonique (4.9).
Alors I Q possede une inverse, N = (I Q)1 appelee matrice fondamentale, de
la forme
N = (I Q)1 = I + Q + Q2 + . (4.11)
Lentree Nij de la matrice N est egale a lesperance statistique du nombre de fois que
la chane passe par letat i, sachant quelle a ete initiee dans letat j. 4
78
Demonstration
Nous constatons dabord que I Q est une matrice inversible, en montrant que son
espace nul ne contient que le vectuer zero :
(I Q)x = 0 x = 0. (4.12)
Soit x une solution de (I Q)x = 0 :
x = Qx x = Qn x.
Le Theoreme 2 nous permet daffirmer
lim Qn x = 0 x = 0.
n
La seule solution de (4.12) est donc le vecteur nul, et la matrice I Q possede une
inverse, que nous designons par N = (I Q)1 .
Nous derivons ensuite lexpression de linverse de I Q donnee dans le theoreme

3. Il est facile de verifier que

(I Q) I + Q + Q2 + + Qn = I Qn+1 .
et donc
I + Q + Q2 + + Qn = N (I Qn+1 ),
ce qui implique
n
X
lim Qi = lim N (I Qn+1 ) = N, (4.13)
n n
i=0
et nous avons ainsi obtenu lexpression (4.11).
Pour etablir linterpretation des elements de N comme lesperance de loccupation

des differents etats a partir des etats transitoires, nous definissons les variables binaires
suivantes:
0, si Xk = i, X0 = j
ìj (k) =
1, si Xk 6= i, X0 = j
ìj (k) est donc egal a 1 pour tous les instants ou la Chane passe par letat xi . Le
nombre de fois que la Chane est passee par xi jusqua linstant k est
X
Nij (k) = ìj (p).
pk
La distribution statistique des variables ìj (k) est deduite de la distribution de letat de
la chane a linstant k:

Pr {Xk = i|X0 = j} , `=1
Pr {ìj (k) = `} =
Pr {Xk 6= i|X0 = j} , `=0
79
cest a dire,
Qkij , `=1
Pr {ìj (k) = `} =
1 Qkij , ` = 0
Comme ils sagit de variables aleatoires binaires dans {0, 1}, il resulte imediatement
E {ìj (k)} = Qkij .
Lesperance du nombre de fois que la chane passe par letat xi jusqua linstant k a
partir de letat xj a linstant zero est donc

X X X p
E {Nij (k)} = E ìj (p) = E {ìj (p)} = Qij

pk pk pk
En prennant la limite k :

X
lim E {Nij (k)} = Qpij = Nij .
k
p=0
ou nous avons utilise (4.13). 4
Nous venons de presenter quelques resultats concernant le comportement asymp-

totique de chanes absorbantes. Nous allons maintenant enoncer des theoremes simi-
laires pour des chanes regulieres. Le Lemme suivant sera utilise.
Lemme 2 Contraction
Soit P une matrice stochastique de dimensionm m avec toutes les composantes
differentes de zero (et donc correspondante a une chane fortement connectee, ou
reguliere). Soit d sa plus petite composante:
d = min Pij .
i,j
Soit y un vecteur (ligne) de dimension m, et z = yP . Soient
My = max yi , my = min yi ; Mz = max zi , mz = min zi .

i i i i
Alors
Mz mz (1 2d)(My my ) (4.14)
Ce Lemme affirme que les elements de z = yP sont plus proches les uns des autres
que ceux de y.
Demonstration
Comme P est une matrice stochastique, les elements du vecteur z = yP

X
zi = yj Pji
j
80
sont des moyennes des composantes du vecteur y, avec des poids ({Pji }m j=1 ) qui
sont donnees par les colonnes de P . Nous allons determiner des bornes (inferieure
et superieure) pour ces moyennes.
La moyenne la plus grande, Mz , est obtenue pour un vecteur y qui a toutes ses
composantes egales a la valeur maximale (My ) et une seule composante (la k-eme)
egale a la valeur minimale (my ), et quand cette derniere composante est multipliee par
la plus petite entree de P . Nous avons donc, dans ces conditions :
X X
Mz dmy + My Pij = dmy + My Pij = dmy + (1 d)My My
i6=k i
ou nous avons utilise le fait que la somme de tous les elements dune colonne sauf le
k-ieme est egale a 1 d, et la derniere inegalite decoule du fait que my My .
La valeur la plus petite possible, mz , est obtenue dans la situation inverse : tous
les les elements sauf un sont egales a la valeur la plus petite (my ) et la valeur la plus
grande (My ) est multipliee par d:
mz dMy + (1 d)my my
ou la derniere inegalite est justifiee par le fait que My my (la moyenne dun en-
semble (mz ) est necessairement superieure ou egale a la valeur la plus petite dans
lensemble). De ces deux inegalites nous pouvons deduire la relation (4.14)
Mz mz dmy +(1d)My dMy (1d)my Mz mz (12d)(My my ).
Nous pouvons maintenant ennoncer un theoreme qui concerne la structure algebrique

asymptotique de P n .
Theoreme 4 Forme dyadique de P n

Soit P la matrice de transition dune chane reguliere dans lalphabet X , avec |X | =
m. Alors,
lim P n = w1T ,
n
ou w [0, 1]m est une loi de probabilite :

m
X
wi [0, 1], i = 1, . . . , m; wi = 1,
i=1
et 1 est le vecteur de dimension m avec toutes ses composantes egales a 1. 4
Demonstration (pour Pij 6= 0, i, j)

Nous nottons dans un premier temps que les vecteurs w et 1 sont des vecteur propres
(a droite et a gauche, respectivement) de P avec valeurs propres unitaires.
81
Comme P est une matrice stochastique, la somme de toutes ses colonnes est egale
a 1:
1T P = 1,
ce qui montre que 1 est effectivement un vecteur propre (a gauche) de P avec valeur
propre unitaire.
La decomposition de limn P n donnee dans le theoreme implique
P lim P n = P w1T = lim P n+1 = w1T P w1T = w1T .

n n
si nous multiplions cette equation a droite par 1, nous obtenons
P wm = wm P w = w,
ce qui montre que : (i) w est un vecteur propre (a droite) de P ; (ii) w est la distribution
stationnaire associee a la matrice de transition P .
Nous avons donne un sens plus precis aux vecteurs w et 1 qui interviennent dans
lennonce de ce theoreme. Nous allons maintenant le demontrer.
Soit y un vecteur (ligne) de dimension m, et, comme dans le Lemme 2, pour z (n) =
yP n , soient
(n) (n)
Mzn = max zi , mnz = min zi .
i i
Le meme argument que nous avons utilise pour demontrer le Lemme 2 nous permet
daffirmer
Mz1 Mz2 m1z m2z .
Ces sequences monotonnes sont encadrees par les valeurs minimales et maximales de
y:
My Mzn mnz my
et donc elles possedent une limite quand n . Soient
m = lim mnz , M = lim Mzn .

n n
Nous allons demontrer que M m = 0.

Soit, comme dans le Lemme 2, d la plus petite valeur de P :
d = min Pij > 0.

ij
Le Lemme 2 affirme que
Mzn mn (1 2d)(Mzn1 mn1

z )
ce qui implique
Mzn mnz (1 2d)n (My my ).
82
Pour m 2 (pour m = 1 le theoreme est trivial), nous avons necessairement d 1/2,
et donc 1 2d 1, ce qui implique
lim Mn mn = 0.
n
Ceci veut dire que les composantes de yP n tendent toutes vers la meme valeur, egale
a m = M .
Prenons maintenant
y = ei ,
le vecteur (ligne) de dimension m avec toutes les composantes egales a zero sauf la
i-eme. La limte limn yP n est dans ce cas egale a la ligne i de P = limn P n .
Nous venons donc de demontrer que cette ligne tend vers une valeur constante Pi .
Comme ceci doit etre vrai pour toutes les lignes de la matrice, nous pouvons conclure
que P n est effectivement une matrice de rang unitaire.
Comme les elements de limn P n sont des probabilites, Pi est necessairement
positive. Comme limn P n est une matrice stochastique, elle possede une valeur
propre (a gauche) egale a 1, et elle doit donc pouvoir secrire dans la forme dyadique
lim P n = w1T
n
ce qui demontre le theoreme. 4
(Nous venons de demontrer le theoreme pour des matrices de transition positives :

d > 0. Il peut etre demontre pour des chanes regulieres: (i) Si P est reguliere, alors
k : [P k ]ij > 0(i, j). Alors on peut montrer que Mnk mnk n 0. (ii) Il peut
etre demontre que la difference Mn mn est non-croissante. (i) et (ii) impliquent que
la sequence entiere tend vers 0.)
Ce theoreme conduit directement au resultat suivant.

Theoreme 5 Theoreme fondamental des Chanes de Markov
Soit P la matrice de transition dune chane reguliere, et la distribution asympto-
tique associee a P par le theoreme precedant, de facon que
lim P n = 1T .
n
Alors, independement de sa distribution initiale p0 ,
lim pn = .
n
Demonstration(1)
Soit p0 la distribution initiale de de la Chane. Sa distribution a linstant n est
pn = P n p0 .
83
Lapplication du Theoreme precedant conduit directement au resultat pretendu:
lim pn = lim P n p0 = 1T p0 = .
n n
Cette demonstration est basee dans la structure de P n etablie dans le Theoreme 4.

Nous allons maintenant presenter une demonstration alternative.
Demonstration(2)
Soit Xn X une chane de Markov avec matrice de transition P et distribution initiale
p0 , et Yn X une autre chane, avec la meme matrice de transition, mais initialisee
avec la distribution stationnaire . Formons la chane Zn X X :

Xn
Zn = .
Yn
Les deux chanes sont evoluees de maniere independante, de facon que les elements de
la matrice de transition de Zn (de dimension m m, sont des produits des entrees de
P . La regularite de P implique donc la regularite de Zn , et donc la nouvelle chane
peut atteindre nimporte quel etat z X 0 = X X dans un nombre fini de pas. Soit
T ? linstant de premier passage de Zn sur la diagonale de X 0 , cest a dire, un etat de
la forme (i, i), i {1, . . . , m}. Il peut etre demontre que
lim Pr {T ? > n} = 0.
n
(application de linegalite de Chebychev Pr{T ? > n} E[T ? ]/n, avec le fait que le
temps moyen pour aller dans un etat, E[T ? ], est fini).
Pour n > T ? ,
p(Xn = j|n T ? ) = p(Yn = j|n T ? ).
Comme
p(Xn = j) = p(Xn = j|n T ? )Pr {T ? n} + p(Xn = j|n < T ? )Pr {n < T ? }
nous obtenons
lim p(Xn = j) = lim p(Xn = j|n T ? )Pr {T ? n}
n n
= lim p(Yn = j|n T ? )Pr {T ? n} = j ,
n
car la chane Yn suit, pour tout n, la distribution stationnaire , ce qui complete la

demonstration. 4
Theoreme 6 Taux dentropie pour une Chane de Markov stationnaire

Le taux dentropie dune Chane de Markov stationnaire est
X
H(X) = i Pji log Pji . (4.15)
i,j
84
4
La demonstration fait appel a la stationnarite de la Chane, et a la propriete de Marko-

vianite :
H(X) = H 0 (X) = lim H(Xn |X1n1 )

n
= lim H(Xn |Xn1 ) (Markov)
n
= H(Xn |Xn1 ) (stationnarite) (4.16)

X X
= p(Xn1 = xi ) p(Xn = xj |Xn1 = xi ) log p(Xn = xj |Xn1 = xi ) .
i j
ou la derniere equaiton decoule de la definition dentropie conditionnelle.

Lequation (4.15) est obtenue en identifiant p(Xn1 = xi ) = i et p(Xn = xj |Xn1 =
xi ) = Pji .
Ce theoreme peut etre generalise a des chanes regulieres:
Theoreme 7 Taux dentropie pour une Chane de Markov irreductible et aperiodique

Le taux dentropie dune Chane de Markov invariante dans le temps, irreductible et
aperiodique est X
H(X) = i Pji log Pji ,
i,j
ou est la distribution stationnaire de la Chane:
= P .
Nottez que ce resultat est valable meme dans le cas ou la Chane nest pas stationnaire
(elle nest pas initialisee avec la distribution stationnaire).
Dans les conditions plus generales du Theoreme 7,
H(X) = H 0 (X) = lim H(Xn |X1n1 )

n
= lim H(Xn |Xn1 ) (Markov)
n

X X
= lim p(Xn1 = xi ) Pji log Pji . (invariance temporelle)
n
i j
Lapplication du Theoreme 5 complete la demonstration.
85
Nous presentons ici une inegalite qui est souvent utilisee pour demontrer des inegalites
en Theorie de lInformation.
Lemme 3 (Inegalite du logarithme de la somme).

Soient ai , bi 0. Alors
! P
X ai X ai
ai log Pi ai log , (4.17)
i
b
i i i
bi
avec egalite si et seulement si ai = bi , i. 4
Demonstration
Basee sur le fait que t log t est une fonction convexe, et donc, par linegalite de Jensen:
E [t log t] E[t] log E[t],
avec egalite si et seulement si t est une constante.
Dans notre cas,

! !
X b ai ai X b ai X b ai
Pi log Pi log Pi .
i j bj b i bi i j bj bi i j bj bi
Dans cette section nous avons caracterise le comportement asymptotique des Cha-
nes de Markov regulieres, demontrant, en particulier, lexistence dune distribution
stationnaire asymptotique (Theoreme 5) , et etablissant une expression pour leur taux
dentropie H (Theoreme 7), qui indique la longueur des codes optimaux. La sec-
tion suivante presente le lalgorithme de Lempel-Ziv, qui est un exemple de codeur
universel, atteignant la longueur de code optimale sans connaissance du modele prob-
abiliste de la source.
4.3 Lalgorithme de Lempel-Ziv

Nous allons maintenant presenter lalgorithme de Lempel-Ziv, qui est un exemple dun
codeur universel (pointwise).
Lalgorihme de Lempel-Ziv est base sur la notion de parsing. La sequence dentre
est divisee en phrases, chaque phrase etant la sequence de symboles source la plus
petite qui na pas encore ete trouvee. Par exemple, la sequence xn = 1011010100010
donne origine aux phrases
1 0 11 01 010 00 10.
86
Chaque nouvelle phrase est de la forme w b, ou w est une phrase trouvee precedemment,
et b un bit b {0, 1}. Nous pouvons alors la decrire par le pair (i, b), ou i est lindex
de w (ou pointer):
w b (i, b). (4.18)
Pour la sequence de lexemple precedent, nous obtenons
(0, 1) (0, 0) (1, 1) (2, 1) (4, 0) (2, 0) (1, 0).
Lalgorithme de Lempel-Ziv construit donc, de maniere incrementale, un diction-

naire, forme par toutes les phrases distinctes dans lesquelles la sequence dorigine peut
etre decomposee. Ce dictionnaire peut etre represente par un arbre, ou chaque noeud
represente un mot du dictionnaire, et les branches descendantes correspondent aux
nouveaux symboles qui sont ajoutes aux mots deja existants pour former les nouveaux
mots. Dans le cas de notre exemple, larbre qui represente le dicitonnaire est
u
@
@
0 @ 1
@
@
j @ j
2 1
A A
0 A1 0 A1
A A
A A
A j A j
6j 4 7j 3
0

5j
Soit c(xn ) le nombre de phrases dans la sequence xn (le nombre de noeuds dans
larbre qui represente le dictionnaire). La description de chaque phrase yi requiert un
nombre de bits
ì 1 + dlog c(xn )e < 1 + (1 + log c(xn )) = 2 + log c(xn ) bits,
qui correspondent au nouveau bit b, et a lutilisation dun code de longueur constante

pour specifier lindex i (voire eq. (4.18)). Si nous ajoutons un nombre log n de bits
pour coder le nombre de bits avec lequel les indexes sont codes, nous obtenons un
nombre total de bits par symbole source
`(xn ) c(xn ) (2 + log c(xn )) + log n

,
n n
ou `(xn ) est la taille total du message code.
Le Lemme suivant etablit une borne superieure pour le nombre de phrases c(xn ).
87
Lemme 4 Nombre maximal de phrases
Le nombre de phrases distinctes dans une sequence de longueur n satisfait
n
c(xn ) , (4.19)
(1 n ) log n
ou n 0 quand n . 4
Ce Lemme affirme que le nombre de phrases crot sous-lineairement:

1 1
c(xn ) n 0.
n (1 n ) log n
Demonstration
Soit nk la somme des longueurs de toutes les sequences distinctes de longueur k :
k
X
nk = i2i , (4.20)
i=1
car il y a 2i sequences distinctes de longueur i. Il est facile de verifier que
nk = (k 1)2k+1 + 2> (k 1)2k+1 , (4.21)
en constatant que les deux expressions satisfont lequation de recurrence suivante, avec
la meme condition initiale :
nk = nk1 + k 2k , n1 = 2.
Le nombre de phrases distinctes de longueur k dans un sequence binaire de longueur

n, cn (k), doit donc verifier
k
X (k 1)2k+1 nk
cn (k) = 2k = 2k+1 2 < 2k+1 = , (4.22)
i=1
k1 k1
ou nous avons utilise la borne inferieure (4.21) pour nk .

Soit k(n) la valeur de k tel que
nk(n) n nk(n)+1 ,
de facon que lon peut ecrire

n = nk(n) + .
Le cas ou le nombre de phrases distinctes dans la sequence xn (de longueur n), c(xn ),
est le plus grand possible est quand nk(n) bits de xn contiennent toutes les sequences
distinctes de longueur k(n) et les bits restant definissent des nouvelles phrases de
longueur k(n) + 1. Alors

c(xn ) cn (k(n)) +
k(n) + 1
88
nk(n)
+
k(n) 1 k(n) + 1
nk(n) +

k(n) 1
n
= ,
k(n) 1
ou nous avons utilise (4.22).
Comme
n nk(n) = (k(n) 1)2k(n)+1 + 2 2k(n) k(n) log n.
Et nous avons aussi,
n nk(n)+1 = k(n)2k(n)+2 + 2 (k(n) + 2)2k(n)+2 (log n + 2)2k(n)+2 .
Allors,
n
k(n) + 2 log k(n) 1 log n log(log n + 2) 3
log n + 2

log(log n + 2) 3
= 1 log n
log n

log(2 log n) + 3
(pour n 4) 1 log n
log n

log log n + 4
= 1 log n = (1 n ) log n
log n
ou
log log(n) + 4
n = min 1, ,
log n
ce qui, utilise en (4.23) complete la demonstration du Lemme 4.
Soit {Xn } une source stationnaire et ergodique, de fonction de distribution dordre

j1
n P (x1 , . . . , xn ). Pour un k fixe soit P (|) la distribution de Xj sachant Xjk =
Xjk , . . . , Xj1 , et soit Qk lapproximation de Markov dordre k de P :
n
Y
Qk (xk+1 , . . . , x1 , x0 , x1 . . . , xn ) = P (x0k+1 ) P (xj |xj1
jk ).
j=1
Par la Loi des grands nombres,

n
1 1X
log Qk (x1 , x2 , . . . , xn |x0k+1 ) = log P (xj |xj1
jk )
n n j=1
h i
E log P (xj |xj1
jk )
j1
= H(Xj |Xjk ) (4.23)
89
Nous allons borner le taux du code de Lempel-Ziv par le taux dentropie de lappro-
ximation de Markov dordre k de la loi de la source, pour toutes valeurs de k. Comme
celle-ci converge vers le taux dentropie de la source ergodique quand k , nous
pouvons ainsi demontrer loptimalite de lalgorithme de Lempel-Ziv.
Admettons que la sequence xn est divise en c phrases distinctes y1 , . . . , yc , et soit

i le premier bit de la phrase i (voir diagramme) :
yi = xi+1
i
1
.
Pour i = 1, . . . , c, soient
si = xii 1
k ,
lensemble de bits qui determine xi selon le modele de Markov Qk : les k bits qui
precedent yi (voir diagramme). Soit c`s le nombre de phrases yi de taille ` qui sont
precedees par la sequence s, pour ` = 1, 2, . . . et s X k . Alors
X X
c`s = c (le nombre total de phrases), `c`s = n (le nombre total de bits).
`,s `,s
x1 x2 1 xi k xi 1 xi xi+1 1 xc xn
y1 si yi yc
Le Lemme suivant donne une borne pour la probabilite dune sequence basee son
decoupage en phrases.
Lemme 5 Pour tout decoupage (dans des phrases distinctes) de xn = yi yc ,

X
log Qk (xn1 |s1 ) c`s log c`s .
`,s
Demonstration
c
X
log Qk (xn1 |x0k+1 ) = log P (yi |si )
i=1
X X
= log P (yi |si )
`s i : |yi |=`,si =s
X X 1
= c`s log P (yi |si )
c`s
`s i : |yi |=`,si =s
90

X X 1
c`s log P (yi |si )
c`s
`s i : |yi |=`,si =s
ou la derniere inegalite decoule de linegalite de Jensen et de la concavite du loga-

rithme. Comme les phrases yi sont distinctes,
X
P (yi |si ) 1,
i : |yi |=`,si =s
ce qui utilise dans lequation precedante implique le Lemme 5.
Lemme 6 Entropie de la loi geometrique

Soit z une variable aleatoire avec des valeurs dans les entiers positifs, avec moyenne .
Alors
H(Z) ( + 1) log( + 1) log .
4
La demonstration de cette inegalite decoule du fait que la distribution dentropie maxi-

male dans les entiers positifs avec une moyenen donnee est la distribution geometrique
(dont lentropie est egale au membre droit de cette inegalite). (Verifiez cette affirma-
tion.)
Lemme 7
Pour toute sequence binaire x {0, 1} ,
c(xn ) log c(xn ) 1

log max Qk (xn1 |x0k+1 ) + k (n),
n n P Pk
ou k (n) 0 quand n (uniformement en x {0, 1} ). 4
Demonstration
Pour simplifier la notation, nous utilisons dans cette demonstration c pour designer
c(xn ).
De linegalite du Lemme 5
X c`s c
log Qk (xn1 |s1 ) c`s log
c
`,s
X c`s c`s
= c log c c log (4.24)
c c
`s
Soient X X
c`s n
`,s = , `,s = 1, ``,s = .
c c
`,s `,s
91
Soient U et V des variables aleatoires telles que
Pr {U = `, V = s} = `,s
Alors,
n
E {U } = .
c
et de (4.24)
1 c c
log Qk (xn1 |s1 ) log c H(U, V ), (4.25)
n n n
ou encore
c 1 c
log c log Qk (xn1 |s1 ) + H(U, V ), (4.26)
n n n
Par le Lemme 6,
H(U ) (EU + 1) log(EU + 1) + EU log EU

n n n n
= + 1 log + 1 log
c c c c
n n c
= log + + 1 log +1 .
c c n
Nous avons egalement, car le nombre de phrases distinctes de longueur k est borne par
X k,
H(V ) log |X |k = k.
Comme lentropie conjointe H(U, V ) est inferieure ou egale a la somme des entropies
c c
H(U, V ) (H(U ) + H(V ))
n n
c n c c c
log + + 1 log +1 + k
n c n n n
k (n) (4.27)
ou la derniere equation decoule de (4.19) avec la definition

1 1
k (n) = log
(1 n ) log n (1 n ) log n

1 1
+ + 1 log +1
(1 n ) log n (1 n ) log n
k
+ . (4.28)
(1 n ) log n
Nottons que
log log n
k (n) = O 0 (quand n )
log n
independamment de xn1 et de P Pk . Lutilisation de ce resultat en (4.26) implique
c 1
log c log Qk (xn1 |s1 ) + k (n),
n n
92
pour tout P Pk , et donc, en particulier
c 1
log c log max Qk (xn1 |s1 ) + k (n),
n n P Pk
qui est lenonce du Lemme.
Theoreme 8
Soit `(xn ) la taille du code produit par lalgorithme de Lempel-Ziv pour une source
stationnaire et ergodique xn . Alors, pour tout xn {0, 1}n ,

1 1
lim sup `(xn ) lim lim sup log max Qk (xn1 |s1 )
n n k n n P Pk
Demonstration
Consequence imediate du fait que
`(xn ) c(xn )(log c(xn ) + 2),
et donc
1 c(xn ) log c(xn ) c(xn )
lim sup `(xn ) lim sup +2
n n n n n
et que, par le Lemme 4
c(xn )
lim sup = 0,
n n
donc :
1 c(xn ) log c(xn )
lim sup `(xn ) lim sup .
n n n n
Par le Lemme 7,
c(xn ) log c(xn ) 1
lim sup lim sup log max Qk (xn1 |x0k+1 )
n n n n P Pk
Comme ce resultat est valable pour tout k:

1 c(xn ) log c(xn ) 1
lim sup `(xn ) lim sup lim lim sup log max Qk (xn1 |x0k+1 )
n n n n k n n P Pk
qui est lennonce du theoreme.
Ce theoreme implique le Corolaire suivant:

Corolaire Optimalite du code de Lempel-Ziv
Soit X = {Xi } une source stationnaire ergodique avec taux dentropie H(X). Alors
le code de Lempel-Ziv satisfait
1
lim sup `(xn ) H(X), avec probabilite 1.
n n
93
Demonstration
Nous avons vu que pour des sources ergodiques (eq. (4.23))
1 j1
lim log Qk (xn1 |x1
k+1 ) = H(Xj |Xjk )
n n
et, pour des sources stationnaires,
lim H(Xj |Xj1 , . . . , Xjk ) = H(X).

k
Nous avons montre que le nombre de bits par symbole source utilise par le code de
Lempel-Ziv ne depasse pas (assymptotiquement) le taux dentropie de la source. Le
code de Lempel-Ziv est un exemple simple de codeur universel, qui atteint un com-
portement (asymptotiquement) optimal sans avoir besoin de connatre la distribution
statistique de la source.
References
1. J. Ziv, A. Lempel, A universal algorithm for sequential data compression, IEEE
Trans. Inf. Th., Vol IT-23, pp 337:343, May 1977,
2. J. Ziv, A. Lempel, Compression of individual sequences via variable rate coding,
IEEE Trans. Inf. Th., Vil IT-24, pp 530:536, Sept. 1978.
3. A. Lempel, J. Ziv, On the complexity of finite sequences, IEEE Trans. Inf. Th.,
Vol IT-22, pp 75:81, Jan. 1976.
94
Thorie de lInformation
2006-2007
SIC-SICOM
Maria-Joo Rendas
19 novembre 2006
2
Table des matires
6 Identification de modles :
le principe de longueur de description minimale (MDL) 95
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2 Apprentissage (de modles) comme compression de donnes . . . . . 98
6.3 Codes et lois de probabilit . . . . . . . . . . . . . . . . . . . . . . . 100
6.4 MDL (codage en deux parties) . . . . . . . . . . . . . . . . . . . . . 103
6.4.1 Complexit de Kolmogorov MDL "Idal" . . . . . . . . . . . 103
6.4.2 Codage en deux parties . . . . . . . . . . . . . . . . . . . . . 104
6.5 Codeurs universels et MDL (codage en une partie) . . . . . . . . . . 107
6.5.1 Maximum de Vraisemblance Normalis comme Modle Uni-
versel Optimal . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.5.2 MDL (codage en un partie) et complexit stochastique . . . . 112
6.6 Approximations de la complexit stochastique . . . . . . . . . . . . . 113
6.6.1 Maximum de Vraisemblance Gnralis . . . . . . . . . . . . 113
6.6.2 MDL et Compression . . . . . . . . . . . . . . . . . . . . . . 114
6.6.3 Interprtation gomtrique . . . . . . . . . . . . . . . . . . . 114
6.6.4 Interprtation Bayesienne . . . . . . . . . . . . . . . . . . . 117
6.6.5 Interprtation prdictive . . . . . . . . . . . . . . . . . . . . 118
6.7 MDL Gnral pour la slection de modles paramtriques . . . . . . . 120
6.7.1 Complexit paramtrique infinie . . . . . . . . . . . . . . . . 120
6.7.2 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
3
94
Chapitre 6
Identification de modles :
le principe de longueur de
description minimale (MDL)
6.1 Introduction
Le problme didentification de modles peut tre formul comme celui de choi-
sir une parmi plusieurs explications alternatives pour un ensemble de donnes x(n) (en
nombre n limit, en toute situation pratique). Dans ce Chapitre, nous exposons une m-
thode pour lidentification de modles connue par le nom de "principe de description
minimale" ou encore par lacronyme MDL (de langlais Minimum Description Length).
Ses premires versions ont t proposes par N. Rissanen dans les annes 1970 [2], et
btissent sur les travaux dautres chercheurssur la thorie de la complxit (notamment
le chercheur russe Kolmogorov [3]) qui datent des annes 60. Cette mthodologie est
base sur deux ides fondamentales :
1. Apprendre un modle pour le systme qui a engendr les donnes observes
consiste dtecter les rgularits prsentes dans lensemble observ. Liden-
tification de modles est une tche dapprentissage, o lobjectif est de capturer
tant que possible les rgularits des donnes, et, donc, tre capable de trouver sa
description la plus simple : sparer ce qui est structure de ce qui est accidentel
(bruit).
2. Les rgularits des donnes (lensemble de rgles, ou proprits, qui cet en-
semble satisfait) peuvent tre exploites pour les comprsser, cest dire, pour
les dcrire (exactement) avec un nombre de symboles minimal (infrieur celui
qui dcrit les observations). Un modle correspond donc un langage pour d-
crire les donnes. Dans le cas de modles dcrits par des familles de distributions
de probabilit (hypothses composes dans la terminologie des tests de dcision
statistique), un bon modle doit correspondre un codeur universel pour les
donnes dans la famille considre.
95
Ces deux observations restent valables indpendament de considrations sur lexis-
tence dun vrai modle probabiliste qui aurait engendr les donnes observes. Lap-
proche du MDL se distingue dune manire fondamentale, sur ce point particulier, des
approches statistiques classiques o ce vrai modle (probabiliste) est un ingrdient
fondamental (comme lapproche Bayesienne, o la distribution a priori est cense tra-
duire notre connaissance sur lidentit de ce vrai modle). Les diffrentes distributions
dans un mme modle correspondent des diffrentes ralisations des mmes rgula-
rits structurelles. Bien que nexcluant pas le type de modles "signal + bruit, pour
le MDL le bruit est le nombre de bits ncessaires pour identifier la squence observe
laide dun modle qui contraint ses rgularits. Un modle avec un niveau de bruit
lev implique uniquement que les donnes ne sont pas compressibles avec le modle
considr. Pour le MDL, linfrence est base uniquement sur les donnes observes.
Une procdure dinfrence statistique est consistante si elle identifie la vraie hypo-
thse avec probabilit 1 (asymptotiquement, pour un nombre de donnes n trs grand).
Bien que le MDL ne dpende pas, comme nous venons de le dire, de considrations sur
lexistance de cette vraie distribution, il est important que, si jamais les donnes sont
une ralisation dune des distributions contenues dans les modles considrs, cette
distribution soit correctement identifie. Comme nous le verrons, le MDL est consis-
tant.
Comme nous le verrons avec plus de dtail le long de ce Chapitre, la mthode

MDL trouve des analogies et relations avec dautres mthodes et problmes danalyse
de donnes :
Rasoir dOccam. Le "rasoir" dOccam (ou principe de parsimonie), nonc par
le philosophe mdival William Occam (sicle XVI, Angleterre), sous la forme
pluritas non est ponenda sine necessitate, (une pluralit ne doit pas tre in-
voque sans besoin), conduit, dans le cas du problme didentification de mo-
dles, choisir le modle le plus simple qui nest pas contredit par les donnes.
Comme nous le verrons plus tard, le principe du MDL conduit lui aussi la
recherche dun quilibre entre la complexit du modle qui est ajust aux don-
nes, et sa capacit pour les dcrire exactement. En fait, quand deux modles
sajustent galement bien aux donnes, MDL choisit le plus simple (dans le sens
quil permet description plus courte), et dans ce sens, il ralise une sorte de "ra-
soir dOccam". Nous remarquons cependant que cette prfrence nest pas un
choix "phylosophique", qui impliquerait une quelconque supposition sur la sim-
plicit de la nature, mais uniquement la traduction du fait quil ny a pas de sens
identifier des modles complexes avec un volume de donnes rduit. En fait,
comme nous le verrons dans une section de ce Chap tre, pour une mme source
le modle slectionn par MDL peut tre de plus en plus complexe, mesure que
plus de donnes sont observes.
Le problme de sur-ajustement (overfitting, en anglais). Ce problme est bien
connu dans les problmes didentification de modles paramtriques, o lordre
du modle, cest dire, le nombre de degrs de libert du modle qui est utilis
pour dcrire les observations, est inconnu et doit tre aussi dtermin partir
des donnes. Le MDL donne une rponse formellement justifie (sur les propri-
96
F IG . 6.1 William Occam.
ts des codes universels) pour le choix de lordre du modle. Il conduit ainsi

un quilibre entre les capacits de description des donnes et les proprits de
gnralisation du modle identifi.
Approche Bayesienne. Lapproche Bayesienne (du nom du rvrend anglais
Thomas Bayes, XVIII-me sicle), fourni une mthode systmatique pour com-
biner (fusionner) des informations imprcises. Dans le cadre du problme diden-
tification de modles, lapproche Bayesienne conduit aussi la recherche dun
quilibre entre la plausabilit pour que les donnes soient engendres par le mo-
dle, et sa probabilit a priori. Une des objections qui sont souleves lap-
proche Bayesienne est larbitrarit du choix de ces distributions a priori. Nous
pouvons essayer de contre-carrer le problme de sur-ajustement en associant des
probabilits a priori plus grandes aux modles plus simples (ce que le "rasoir"
dOccam semble sugrer : "la nature prfre la simplicit"). Comme nous le ver-
rons, le MDL possde des relations troites avec lapproche Bayesienne, et peut
tre interprtr comme une mthodologie pour choisir la distribution a priori.
Codage prdictif. Plusieurs mthodes didentification ont t proposes pour
lesquelles le critre pour la slection du modle est la capacit prdictive du
modle, cest dire, pour prdire des valeurs qui nont pas encore t observes.
Comme nous le discuterons plus tard, le MDL possde aussi des relations avec
F IG . 6.2 Thomas Bayes.
97
ce critre.
Ce Chaptre est organis de la faon suivante. Dans la Section 6.2 nous motivons
le problme dappretissage dun modle pour un ensemble dobservations comme une
recherche du langage (code) qui les dcrit de la manire la plus compacte. Dans la sec-
tion 6.3 nous rappelons les relations troites entre lois de probablit et codes optimaux
qui sont la base du MDL. La section 6.4 prsente une version particulire du MDL
(codage en deux parties) qui permet une interprtation intuitive de son fonctionnement.
La section 6.5 prsente la notion de codeur universel, et propose une formulation g-
nrale du MDL base sur cette notion, qui nous conduira la dfinition de complexit
stochastique. La section 6.6 prsente des expressions asymptotiques pour la complexit
de modles paramtriques, mettant en vidence la relation du MDL avec dautres ap-
proches au problme dapprentissage de modles. Finalement, la section 6.7 discute
des gnralisations de la dfinition prcdante, nottamment pour le cas de modles
pour lesquels la complexit paramtrique est infinie.
6.2 Apprentissage (de modles) comme compression de

donnes
Pour tablir dune manire intuitive la relation entre le problme didentification
dun modle pour un ensemble de donnes et le problme de compression de donnes,
nous considrons les trois squences binaires du tableau suivant
squence
x1 001001001001001001001001001001001001001001001001001001001
x2 01110101100111000000111101110111100010011001011100011001
x3 00000000010010100010010000100000011010001000000000000001
La squence x1 est la rptition du motif 001. Elle a une structure trs simple et
peut tre dcrite dune manire efficace par la rgle (programme) suivante
crire 20 fois la squence 001. Stop.
Cette rgle est elle mme une suite de symboles (caractres) qui peuvent tre cods
avec des symboles binaires (par exemple, avec le code ASCII).
La squence x2 est une suite de 56 tirages indpendants dune loi uniforme en {0, 1}.
Elle ne possde donc pas de rgularits. Comme nous avons vu dans les Chaptres
prcdants, la squence x2 ne peut pas tre comprime car son entropie (en bits) est
gale sa longueur.
La squence x3 est moins alatoire" que la squence x2 . Nous pouvons comencer
par constater que le nombre de 0s dans cette squence (45) est beaucoup plus grand
que le nombre de 1s (11). Nous pouvons exploiter ce fait pour coder efficacement
x3 . En fait, il nexiste quun nombre fini (et beaucoup plus petit que 256 !) de squence
binaires avec 11 lments gales 1. Il est possible dordonner (par exemple par ordre
lexicographique) ces squences. Un code plus efficace pour x3 commencerait donc par
coder le nombre k de symboles 1 dans x3 (k = 11) et ensuite indiquer uniquement
lindex ik (x3 ) de la squence x3 dans lensemble de toutes les squences de taille 56
98
avec k 1s :
x3 (k, ik (x3 ))
Un exemple dune nature diffrente (et plus prs de beaucoup de cas practiques de
problmes didentification de modle), et pos par le codage des valeurs du tableau
suivant
xi yi
-5 -286.4260
-4 -160.7825
-3 -85.7549
-2 -26.8838
-1 3.9952
0 16.7044
1 7.0395
2 7.0602
3 1.1894
4 -5.0388
5 8.2898
La figure 6.3 reprsente yi en fonction de xi . La forme de cette courbe sugre une

dpendance polynomiale de yi en xi :
yi = Pk (xi ) = ak xki + ak1 xk1

i + + a1 x i + a0
Nous pouvons alors coder efficacement les donnes (yi , xi ) en envoyant dabord lodre
k du polynome Pk () et ses coefficients {an }kn=0 (ou ses zros) suivis de mots de
code pour les valeurs de {xi }ni=1 et pour les rsidus {i }ni=1 du modle polynomial
(diffrence entre la valeur du poynome P (xi ) et les valeurs yi ) :

{(yi , xi )}ni=1 k, {an }kn=0 , {xi }ni=1 , {i }ni=1
Si, n 1 et k n cette description des donnes doit tre plus compacte que la
description directce des donnes : nous avons exploit la relation (polynomiale) sous-
jacente tous les pairs pour les dcrire plus efficacement
Code de prfixe pour les entiers

Dans lexemple prcdant nous avons eut besoin (pour coder les squences x1 et x2 ,
de coder des entiers. Nous allons maintenant introduire un code (de prfixe) pour les
entiers qui sera utilis par la suite.
Pour toute squence binaire x {0, 1}? , (de taille `(x) 1), nous pouvons construire
un code de prfixe pour x, en le faisant prcder le code binaire de x par un mot
Csd (m) qui indique la taille m de la squence binaire ultrieurement utilise pour
coder la valeur de x :
x C(x) = Csd (m)Cm (x)
99
50
50
100
150
200
250
300
5 4 3 2 1 0 1 2 3 4 5
F IG . 6.3 William Occam.
o Csd (m) est un code auto-dlimit (self-delimited) pour lentier m, et Cm (x) est un
code de longueur constante gale m.
Le prfixe Csd (m) peut tre, par exemple, une squence de m = `(x) zros suivie dun
1:
x = 0100110; `(x) = 7 C(x) = 000000010100110,
o m = 7, Csd (7) = 00000001 et C7 (x) = 0100110.
Le dcodage de C(x) est simple : nous identifions la fin du prfixe par loccurrence du
symbole 1. Nous pouvons alors dterminer la taille m de la squence qui code x, et
donc, lextraire du message.
Considrons maintenant le codage dun entier k {1, 2, 3, . . .}. Comme k {1, 2dlog ke },
nous pouvons coder k avec un code o le prfixe Csd (m) est une squence de m =
dlog ke zros suivie dun 1.
Le nombre total de bits de ce code de prfixe pour les entiers est gal 2dlog ke + 1.
Par exemple, pour k = 21, le code sera
00000 1 10101
Le rcepteur comence par conter le nombre de 0s : 5, il sait donc que les 5 bits aprs
le 1 contiennent le code pour k.
6.3 Codes et lois de probabilit

Le lien entre le choix dhypothses/modles et la comprssion des donnes na pas
encore t tabli. De ltude du problme de codage source que nous avons mene dans
les Chapitres prcdants, nous savons que
1. un code (de prfixe, complet) C sur un alphabet X nous pouvons associer une
loi de probabilit pC sur X :
C pC (x) = 2`(c(x)) , x X .
100
o `(c(x)) est la longueur du mot de code que C associe x X . Lingalit
de Kraft nous affirme que pC est en gnral (pour des codes qui ne sont pas
complets) une distribution non-normalise (une semi-mesure), avec une masse
totale infrieure ou gale 1. Si le code est complet, alors, pC est une loi de
probabilit. Nous savons encore, du thorme de Shannon du codage sans pertes,
que le code C est optimal (il conduit une longueur moyenne de code minimale,
gale lentropie de la source H(X)) :
LC (X) = E [`(c(x))] = H(X).
2. une loi de probabilit p(x),x X , nous pouvons associer un code optimal Cp

(de longeur moyenne minimale), avec des longueurs de mots de code
p(x) `(Cp (x)) = d log p(x)e.
Ce code (de Shannon-Fano) a une redondance infrieure 1 bit. En fait, de la

non-ngativit de lentropie relative, il dcoule que
Ep [ log Q(x)] Ep [ log p(x)] .
(ingalit fondamentale de linformation.)

Nous introduisons maintenant la terminologie prcise qui sera utilise dans tout ce
Chaptre.
Dfinition 1 Modle probabiliste

Um modle probabiliste H est un ensemble de sources dcrites par lois de probabilit.
Les modles paramtriques, o les lments de lensemble H sont indxs par un
vecteur (de dimension finie) de paramtres appartenant un espace de paramtres
est particulirement intrssant :
H = {p(X|) : } , <k , k 1.
Exemple 1 Modle Gaussien

Pour des observations x(n) <n , le modle Gaussien
n o
G = p(x(n) |) : = (, ) , <n , = T 0 <nn ,
paramtr par la moyenne et la matrice de covariance , o
1/2 1
p(x(n) |) = (2 det()) exp{ (x(n) )T 1 (x(n) )},
2
est un modle paramtrique, paramtr par n + n(n + 1)/2 paramtres (o nous avons
considr les conditions de symmtrie de la matrice de covariance. 4
101
Dfinition 2 Estimateur du Maximum de Vraisemblance
Pour un modle probabiliste H et des donnes x(n) X (n) , lestimateur du Maximum
de Vraisemblance est llment du modle qui maximise la probabilit des donnes :
pM V (x(n) ) = arg max p(x(n) ).

pH
Pour les modles paramtriques, ce modle est obtenue en prennant llment de H qui
est indx par lestimateur du Maximum de Vraisemblance des [aramtres :
pM V (x(n) ) = p(|M V (x(n) )), M V (x(n) ) = arg max p(x(n) |).

Dfinition 3 Estimateur consistant

Nous disons quun estimateur est consistant si, pour des observations
x(n) pn n p? , x(n) X n
nous avons
lim pM V (x(n) ) = p? ,
n
o la convergence est en probabilit. Pour les modles paramtriques, o p? = p(|? ),
lim M V (x(n) ) = ? .
n
Nottez que la consistance est une proprit asymptotique, elle concerne le comporte-
ment des estimateurs pour un grand nombre n de donnes : avec probabilit 1, lesti-
mateur tend vers la vraie mesure qui a engendr les donnes.
Exemple 2 Modle de Markov

Nous avons dfini dans un Chapitre prcdant les chanes de Markov dordre 1 (in-
variantes dans le temps) avec tat xn X , o |X | = m. Ce modle est paramtr
par la distribution initiale p(x0 ) (m 1 paramtres) et par la matrice de transition
Pij = p(xn+1 = i|xn = j) (m(m 1) paramtres). La dimension de ce modle est
donc (m + 1) (m 1).
Nus introduisons maintenant les modles de Markov dordre k, o la valeur linstant
n dpend des k valeurs prcdantes :

p(Xn = i|xn11 ) = p Xn = i|xn1
nk , n > k.
Dans ce cas, le modle est indx par sa distribution initiale p(xk1 ) avec k (m 1)
paramtres, et par une matrice de transition de dimension (mk 1) (mk 1).
Le modle de Markov binaire (m = 2) dordre k avec X = {0, 1}, demande donc un
102
total de k + (2k 1)2 paramtres.
Il peut tre vrifi facilement que pour une chane de Markov dordre k = 1
h i nij
PM V (x(n) ) = , (6.1)
ij n
o nij est le nombre de fois que le symbole i est prcd par le symbole j dans la
squence x(n) . 4
Dfinition 4 Modle de Bernoulli

Le modle de Bernoulli (valeurs binaires statistiquement indpendantes et identique-
ment distribues), que nous notterons B, peut tre obtenu comme un modle de Markov
binaire dordre k = 0, avec une matrice de transition

0.5 0.5
P = .
0.5 0.5
Il est paramtr par un seul paramtre [0, 1], qui est la probabilit doccurrence
dune des valeurs de X :
n o n
Y
B = p(x(n) |) : [0, 1] , p(x(n) |) = p(xi |) = n1 (1 )nn1 ,
i=1
o n1 est le nombre de 1s dans la squence x(n) . Il est ais de vrifier que pour le
modle de Bernoulli
n1
M V (x(n) ) = .
n
4
6.4 MDL (codage en deux parties)

6.4.1 Complexit de Kolmogorov MDL "Idal"
Les exemples que nous avons prsent dans lIntroduction construisent des codes
efficaces pour les messages considrs, mais ces codes sont trouvs, chaque cas, par
des mthodes ad hoc. Pour que lapproche MDL soit bien dfinie, il faut spcifier les
types de codage qui sont des candidats pour coder les donnes.
Dans les annes 60, Kolmogorov [3] a propos la dfinition dune mesure de com-
plxit intrinsque dun objet X comme la taille du plus petit programme qui serait
capable de produire X (une squence, une image, une forme,...) et sarrter. Il a appel
cette mesure de complexit (que lon peut dmontrer qui est indpendante du langage
de programation choisi) complexit algorithmique. Dans le cadre de cette thorie (d-
veloppe paralllement par Solomonoff [4] et Chaitin [5]), les donnes sont dcrites
(codes) par un programme (qui doit sexcuter sur une machine de Turing). La no-
tion de complexit de Kolmogorov a depuis t reprise par plusieurs chercheurs, et est
103
dune grande puissance formelle. Cependant, il est possible de dmontrer quil nexiste
pas un programme qui puisse la dterminer : la complexit de Kolmogorov nest pas
calculable, ce qui ne permet pas la considrer comme la base dune mthode (pratique)
didentification.
Nanmoins, certains auteurs [6] ont propos une version idale du principe MDL, en
considrant le choix du modle dans lequel la complxit de Kolmogorov serait la plus
petite.
Nous allons nous intresser des versions pratiques du principe du MDL, et donc
des mthodes de description qui soient calculables. Le prix payer sera que nous de-
vrons abandonner les langages de programation gnriques, pour passer considrer
la complexit dun message par rapport un ensemble de langages (une encyclop-
die), et la complexit du message ne sera plus une proprit intrinsque du message.
Certaines squences rgulires ne seront pas comprimes.
Nous nonons maintenant le principe du MDL dune manire informelle, et pr-

senterons une approche (codage en deux parties) qui, sous certaines condtions, en est
une implmentation.
6.4.2 Codage en deux parties

Dfinition 5 Principe du MDL (dfinition informelle)
Soit M un ensemble dhypothses (de modles probabilistes H), et x(n) X n des
donnes. Le principe MDL nous dit de choisir le modle H? M qui comprime le
plus les donnes.
H? = arg min min LH (x(n) ),
HM HH
o LH (x) est la longueur du mot dun code optimal pour les donnes x correspondant
au modle H. 4
Les deux faits que nous avons tabli dans la Section prcdante justifient lassocia-
tion de lensemble dhypothses probabilistes H dans la dfinition 5 avec un ensemble
de lois de probabilit (et donc de codes). La dfinition suivante prcise une interprta-
tion possible de la notion de "codage optimal avec un modle" utilise dans la dfinition
informelle 5.
Dfinition 6 MDL (codage en deux parties)

Soient H(i) , i = 1, 2, . . ., un ensemble de modles, et x(n) des donnes. Alors le
meilleur modle pour les donnes, H? est le plus petit modle qui contient
H ? = arg min L(H) + L(x(n) |H), (6.2)

Hi=1,2,... H(i)
o L(H) est la taille ncssaire pour dcrire lhypothse, et L(x(n) |H) le nombre de
bits ncessaire pour coder les donnes davec lhypothse (code) H. 4
104
Le premier terme dans lquation (6.2) est la longueur de description de lhypothse H.
Le deuxime terme est la longueur de description des donnes x(n) laide de lhypo-
thse H, et est une mesure de lajuste du modle aux donnes. Remarquons que cette
version en deux parties du MDL rend explicite lide de chercher un quilibre entre
la complexit du modle utilis (modles plus complexes demandront un L(H) plus
grand), et lajuste des modles aux donnes x(n) (plus les donnes seront plausibles
(probables) dans le modle, plus petite sera la longeur de son code).
La dfinition prcdante laisse sans rponse deux questions :
1. Comment dtermine-t-on L(H) ?
2. Comment calculer L(x(n) |H) ?
La rponse la dernire question, le choix de L(x(n) |H), est relativement simple :

si nous admettons qu chaque hypothse H correspond une loi de probabilit p(x(n) |H)
(car H est un modle probabiliste), alors nous devons prendre comme longueur de des-
cription des donnes la taille du code optimal :
L(x(n) |H) = log p(x(n) |H).
La longueur des mots de ce code est gale moins la vraisemblance des donnes
ce qui correspond bien une mesure dajustement. Nous savons que, si les donnes
suivent la distribution p(x(n) |H ? ), alors pour ce choix la taille L(x(n) |H) sera mini-
mise pour la bonne hypothse H = H ? . Si (comme nous allons le voir) L(H) est
indpendante de n (ou si L)H) croit sub-linairement en n), alors, pour des grandes
valeurs de n la somme dans lquation (6.2) sera domine par L(x(n) |H). La proprit
dqui-rpartition asymptotique nous garanti alors que si les donnes sont une rali-
sation dune des hypothses contenues dans un des modles, alors, la mthode MDL
identifiera ce modle avec probabilit 1 (elle est donc consistante).
La rponse la premire question, le choix de L(H), est moins simple : si nous

choisissons arbitrairement la faon dont les hypothses sont codes, nous pouvons,
avec des schmas diffrents, avoir des codes qui atribuent des tailles trs diffrentes
aux hypothses, et nous naurions donc pas une faon objective de choisir le modle.
Comme nous le verrons, ce problme a conduit la proposition de diffrentes versions
alternatives du principe du MDL.
Souvent, lensemble de modles a une structure emboite

M = k>0 H(k) ,
o la dimension de H(k) croit avec k, et
H(k) H(k+1) , k = 1, 2, . . .
Cest le cas, par example, quand chaque H(k) est le modle dobservations bruites de
lensemble de polynomes dordre k ou pour lensemble modles de Markov dordre k.
Dans ces cas, pour chaque valeur de k nous pouvons utiliser un code fixe, en deux par-
ties, pour coder les diffrentes hypothses contenues dans H(k) , comme cest illustr
par lexemple suivant.
105
Exemple 3 Un test du MDL pour les modles de Markov
Nous pouvons dcrire un modle de Markov (binaire) dordre k en indiquant en premier
k
lieu la valeur de k, suivie de la valeur du paramtre [0, 1]2 :
H H(k) (k, ).
Lentier k peut tre cod avec le code prsent page 100, qui demande 2dlog ke + 1
bits :
L(k) = 2dlog ke + 1.
Pour coder le paramtre , nous devons indiquer les valeurs des 2k probabilits p1i ,
pour que le symbole 1 soit prcd par la i-me squence si de k symboles binaires,
si {0, 1}k , (cela dtermine la probabilit pour que le symbole 0 soit prcd par la
mme squence : p0i = 1 p1i ).
Nous remarquons maintenant que nous pouvons restreindre lensemble H(k) de tous
0
les modles de Markov dordre k n sous-ensemble discret fini H(k) . En fait, unique-
ment les modles qui peuvent tre identifis partir dune squence de taille n sont
pertinents, ce qui implique que les probabilits p1i soient de la forme de lquation
(6.1), page 103, o, ncessairement
nij {0, . . . , n}.
Construire un code qui associerait des mots de code des hypothses qui ne corres-
pondent pas des estims possibles aurait conduit une valeur suprieure pour L(H)
sans que les valeurs correspondantes de L(x(n) |H) puissent tre plus petites.
Il ny a donc que n + 1 valeurs possibles pour chaque probabilit p1i (frquence

n1j ), qui peuvent tre cods avec un nombre de bits non suprieur dlog(n + 1)e '
log(n + 1). Comme le paramtre du modle de Markov est dfini par 2k de ces
valeurs, pour identifier un modle particulier nous avons besoin dun nombre de bits
total gal
L(H) = L(k) + L() = 2 log k + 1 + 2k log(n + 1).
Le critre pour choisir le modle de Markov (lordre et les paramtres) est donc la
solution de
min min log p(x(n) |) + 2 log k + 1 + 2k log(k + 1),

k
ou encore, en faisant appel la dfinition destimateur de Maximum de Vraisemblance
min log p(x(n) |M V ) + 2 log k + 1 + 2k log(k + 1).

k
106
6.5 Codeurs universels et MDL (codage en une partie)
La Section prcdante a illustr lapplication du principe du MDL avec une ap-
proche de codage en deux parties : codage de lhyopthse (avec L(H) bits) suivie du
codage des donnes dans lhypothse (avec log pH (x(n) bits).
Cependant, le choix du codage effectu est heuristique, et nidentifie pas dune faon
formelle le code qui doit tre associe un modle probabiliste H. Nous allons intro-
duire la notion codeur universel dans une classe de modles, qui permet de dpasser ce
problme.
Dfinition 7 Codeur universel (dans une classe de modles)

Soit H un modle probabiliste (et donc un ensemble de longeurs de codes optimaux)
pour des donnes x(n) . Un code L est universel pour H sil est capable (assymptoti-
quement) de coder la squence x(n) avec un nombre de bits gal au code optimal pour
x(n) dans le modle H :
1 1
x(n) lim L(x(n) ) = lim min L(x(n) |H). (6.3)
n n n HH n
Nottons que si la squence x(n) est une ralisation dune des hypothses dans H, alors
ce limite est gal au taux dentropie H(X). 4
Nous remarquons que cette dfinition de code universel correspond une notion de
code universel ponctuel, cest dire, la proprit (6.3)est vrifie pour toutes les s-
quences x(n) . Dans le Chaptre prcdant nous avons prsent, dans le contexte de
ltude de lalgorithme de Lempel-Ziv, une notion de code universel qui est base sur la
longueur moyenne des mots de code.
Les deux exemples suivants montrent que les codes en deux parties sont des codes
universels.
Exemple 4 Nombre fini dhypothses

Soit x(n) une squence binaire, et considrons le modle suivant :
i
H = {B(i ), i = 1, . . . 9}, i = ,
10
de faon que

(n) 10 i
log p(x |B(i )) = n1 log(i/10) (n n1 ) log .
10
Nous pouvons construire un code universel (en deux parties) pour ce modle de la
faon suivante. Nous codons dabord i? ,
i? = arg max p(x(n) |B(i ))

i=1,...,9
107
en utilisant un code uniforme en {1, . . . , 9}, avec donc dlog 9e bits. Le message x(n)
est ensuite cod avec le code Bi? , ce qui demande

Li? = log p x(n) |B(i? ) = LB(i? ) (x(n) )
bits. Ce code a une taille totale

LH (x(n) ) = dlog 9e log p x(n) |B(i? ) = dlog 9e + min LH (x(n) ).
HH
Nous pouvons facilement constater que

1 1
lim L(x(n) ) = lim min LH (x(n) ),
n n n n HH
qui est la limite atteinte par le meilleur code pour x(n) dans le modle H, et que le code
prsent est donc universel pour le modle considr. 4
Dans cet exemple nous avons utilis un code uniforme pour coder les lments H
H (lindex i? de lexemple prcdant), ce qui correspond admettre une distribution
uniforme pour toutes les hypothses H du modle H. Autres choix seraient possibles.
Cependant, ce choix minimise la redondance du code dans le pire cas (le cas o la vraie
hypothse reoit le mot de code le plus long pour la distribution admise).
Exemple 5 Modle avec un ensemble dnombrable dhypothses
Considrons maintenant le cas dun modle avec un nombre infini dhypothses :
H = {H1 , H2 , . . .}.
Un codage en deux parties pour ce modle peut tre obtenu, dune faon analogue
lexemple prcdant, en considrant le codage de lindex i? avec le code pour les
entiers que nous avons introduit page 100, qui demande 2dlog ke + 1 bits pour coder
lentier k. Nous devons donc maintenant choisir
n o
i? = arg inf 2dlog ie + 1 + LHi (x(n) ) ,
i=1,2,...
et donc n o
L(x(n) ) = inf 2dlog ie + 1 + LHi (x(n) ) .
i=1,2,...
Contrairement au cas prcdant, nous ne pouvons plus borner par une constante la
redondance de ce code par rapport au code qui atteint la longueur de code minimale
dans le modle H. Par contre,

1 (n) 2 log i + 1 1 (n)
lim L(x ) = lim inf log p(x |Hi ) ,
n n n i=1,2,... n n
et, si les observations x(n) sont une ralisation dune des lois de probabilit p(|Hi0 )1
dans H,
1
lim L(x(n) ) = H(pi0 )
n n
1 et si le modle correspondant est ergodique.
108
o H(pi0 ) est le taux dentropie associ la loi de probabilit correspondante la
vraie distribution des donnes. Pour cet exemple, le taux avec lequel le nombre de bits
par symbole approche le taux dentropie de la source nest plus constant comme pour
lexemple prcdant. 4
Lassociation entre codes et lois de probabilit nous permet dassocier aux codes
utiliss pour dcrire le modle (avec des longueurs de code L(H)) des lois de probabi-
lit dfinies dans lensemble des hypothses contenues dans H
p(H) = 2L(H) , H H,
tablissant ainsi un pont entre le codage MDL en deux parties et lapproche Baye-
sienne. Lexemple suivant illustre cette relation, montrant que les marginales de Bayes
sont aussi des modles (codes) universels.
Exemple 6 Modle Bayesien universel

Soit H un ensemble fini ou dnombrable dhypothses (lois de probabilt), paramtres
par un vecteur de paramtres :
n o
H = p(x(n) |) : .
Soit W une distribution de probabilit dans . chaque distribution W nous pouvons

associer un modle de mlange pour les observations :
X
p(x(n) |H, W ) = W ()p(x(n) |). (6.4)

Il est immdiat que p(x(n) |H, W ) est un modle universel pour H. La longueur du
code correspondant est :
LH,W (x(n) ) = log p(x(n) |H, W ).
Et donc
1 (a) 1
limLH,W (x(n) ) lim log W ()p(x(n) |) (6.5)
n n n n
1
lim max log W () + log p(x(n) |)
n n
o (a) est vraie pour tout choix de dans le membre droit. Ceci dcoule du fait que
tous les termes de la somme sont non-ngatifs, et de la monotonicitt du logarithme. Si
nous nottons 0 la valeur de correspondante ce maximum,
1 1
lim LH,W (x(n) ) lim log p(x(n) |0 ) = H(p(|0 )) ,
n n n n
car, parce que W (0 ) est une constante indpendante de n,
1
lim log W (0 ) = 0.
n n
109
Ceci dmontre que la distribution de mlange Bayesienne de lquation (6.4) conduit
un code universel pour les donnes. Elle est donc un exemple de modle universel
(pour le modle H). Une analyse de lquation (6.5) nous montre que le code universel
de Bayes est suprieur au codage en deux parties avec un code L(H) driv de la
distribution a priori W . Dans ce dernier cas, nous serions conduits une longueur de
code
min log p(x(n) |) + log W (),

(n)
qui, sauf pour le cas o p(x |) = 0, 6= 0 , est strictement suprieur la valeur
dans le membre gauche de (6.5), correspondante au modle de mlange. 4
6.5.1 Maximum de Vraisemblance Normalis comme Modle Uni-

versel Optimal
Dfinition 8 Pnalit PP ,H,x(n)
Soit H un modle probabiliste, et soit P une loi de probabilit dfinie en X n . Soient
x(n) les observations, x(n) X n .
La pnalit de la loi P par rapport au modle H pour les observations x(n) est, par
dfinition
PP ,H,x(n) = log P (x(n) ) min log p(x(n) ) .
pH
Cette pnalit est la diffrence entre (i) la taille du code associ P , et le (ii) nombre
de bits ncessaire pour coder les observations avec le meilleur code dans le modle H.
Pour le cas de modles paramtriques, H = {p(|) : },2

PP ,H,x(n) = log P (x(n)) ) + log p x(n) |M V (x(n) ) . (6.6)
Avec cette dfinition, nous pouvons dj constater quune loi P sera un modle (code)
universel pour le modle H si pour toute squence x(n) la pnalit croit plus lentement
que n
1
x(n) lim P (n) = 0.
n n P ,H,x
La notion de pnalit, qui dpend de la squence observe x(n) , ne doit pas tre
confondue avec celle de redondance, introduite dans les Chapitres prcdants, et qui
concerne le comportement en moyenne de la longueur des mots du code.
Il est intressant dtudier la pnalit pour un modle (code) universel pour H. Ce-
pendant, la valeur de la pnalit, telle quelle est propose dans la dfinition prcdante,
dpend de la squence observe x(n) . Pour certaines squences elle peut mme tre n-
gative, et en mme temps quelle prend des valeurs grandes pour dautres squences.
La dfinition suivante considre la plus grande valeur (sur toutes les observations x(n) )
2 Nous admettons ici que lestime du Maximum de Vraisemblance est bien dfinie.
110
de la pnalit pour un code P et un modle H.
Dfinition 9 Pnalit au pire cas RP ,H

Soit H un modle probabiliste, et P une loi de probabilit en X n . La pnalit au pire
cas de P par rapport H est, par dfinition
RP ,H = max PP ,H,x(n) . (6.7)

x(n) X n
Nous sommes en ce moment en position de dfinir un modle universel optimal

?
P comme celui qui minimize la pnalit au pire cas :
?
P = arg min RP ,H
P
n o
= arg min max log P (x(n)) ) + log p x(n) |M V (x(n) ) ,
P x(n) X n
o nous avons considr le cas dun modle probabiliste paramtrique. Ce problme

doptimisation a une solution qui est gale

p x(n) |M V (x(n)
P mvn (x(n) ) = P , (6.8)
(n) | (n) )
y (n) X n p y M V (y
quand le dnominateur de cette expression est fini.

La distribution (6.8) est connue par le nom de distribution de Shtarkov, du nom du
chercheur qui a tabli son optimalit. Elle associe chaque possible squence observe
x(n) une probabilit qui est proportionnelle celle qui lui est assigne par le modle
correspondant lestimateur du Maximum de Vraisemblance pour x(n) (la distribution
qui lui attribue la probabilit la plus grande). Ceci explique la notation "mvn" dans
lexpression prcdante, indiquant "Maximum de Vraisemblance Normalis".
La distribution dfinie en (6.8) est toujours bien dfinie quand H est un ensemble
fini. Autrement, la somme dans le dnominateur peut tre infinie, et donc P mvn nest
pas dfini.
Dfinition 10 Complexit paramtrique C(H)

Soit H un modle probabiliste paramtrique. Sa complexit est, par dfinition
X
C(H) = log p x(n) |M V (x(n) ) . (6.9)
x(n) X n
Avec cette dfinition, la distribution de Shtarkov scrit

log P mvn (x(n) ) = log p x(n) |M V (x(n) C(H).
111
De par sa dfinition, nous pouvons constater que la complxit paramtrique dun mo-
dle, C (H) est dautant plus grande que le modle H peut dcrire (avec probabilit
leve) un grand nombre de squences x(n) . Comme nous le verrons, la complexit
stochastique C(M) est lie au nombre de degrs de libert du modle M.
La dmonstration de loptimalit de P mvn est immdiate. Si nous utilisons (6.8)

dans la dfinition (6.6), nous obtenons
X
RP mvn ,H = log p x(n) |M V (x(n) ) = C(H),
x(n) X n
indpendamment de x(n) . La pnalit devient donc indpendante de la squence x(n) .

Comme p 6= P mvn il doit exister au moins un z (n) X n tel que p(z (n) ) <
P mvn (z (n) ),
Rp,H = max Pp,H,x(n)
x(n) X n

Pp,H,z(n) = log p(z (n)) ) + log p z (n) |M V (z (n) )

> log P mvn (z (n)) ) + log p z (n) |M V (z (n)
= RP mvn ,H,z(n) = RP mvn ,H .
Ceci montre que la pnalit au pire cas de toutes les autres distributions p dans H doit
tre suprieure celle de P mvn .
6.5.2 MDL (codage en un partie) et complexit stochastique

Nous prsentons maintenant une formulaiton du principe de la longueur de descrip-
tion minimale, qui fait appel la notion de modle universel optimal prsente dans la
section prcdante, et qui permet de rsoudre quelques problmes associs aux codes
en deux parties tudis dans la Section 6.4.
Nous conduisons cette prsentation dans le cadre simple de choix entre deux mo-
dles H1 et H2 , et en admettant que la complexit de ces deux modles est finie, de fa-
on que les distributions de Shtarkov correspondantes, que nous nottons P mvn (|Hi ),
i = 1, 2, sont bien dfinies. Nous reviendrons dans une section postrieure sur le pro-
blme de choisir entre un nombre infini de modles.
Dfinition 11 Principe MDL (codage en une partie)
Soient H1 , H2 des modles alternatifs pour les observations x(n) , et P mvn (|Hi ), i =
1, 2, les distributions qui minimizent la pnalit au pire cas par rapport aux modles
Hi , i = 1, 2, respectivement. Alors, le principe du MDL nous dit de choisir le modle
Hj ? pour lequel la longueur du mot de code qui est associ aux observations par le
modle universel optimal est minimale :

j ? = arg min log P mvn x(n) |Hj (6.10)
j=1,2
n o
= arg min log p x(n) |j (x(n) ) + C (Hj ) . (6.11)
j=1,2
112
4
Cette dernire expression nous donne une interprtation en deux parties de cette ver-
sion reformule du MDL : le modle optimal Hj ? ralise un quilibre
entre la capacit
de dcrire exactement les donnes (le terme p x(n) |j (x(n) ) ) et sa complexit para-
mtrique (mesure par le terme C (Hj )).
La dfinition prcdante du principe du MDL implique donc que le modle choisit
pour les donnes est celui pur lequel le code universel a le meilleur comportement
(pnalit minimale) dans le pire cas.
Dfinition 12 Complexit stochastique des donnes L(x(n) , H)

Soit H un modle probabiliste (paramtrique). La complexit des observations x(n)
pa rapport au modle H est, par dfinition, la probabilit qui lui est attribue par la
distribution de Shtarkov associe H :

L(x(n) , H) = log P mvn x(n) |H .
Le principe du MDL que nous venons de formuler, nous indique donc de prendre
le modle pour lequel la complexit stochastique des observations est minimale.
En gnral, la complexit paramtrique dun modle (et donc la complexit sto-

chastique des observations dans ce modle) ne peut pas tre calcule, ni mme num-
riquement, la seule exception connue tant le cas Gaussien. Cependant, des approxi-
mations de la complexit stochastique des donnes L(x(n) , H), valables pour n grand,
peuvent tre dtermines, comme cest prsent dans la section suivante.
6.6 Approximations de la complexit stochastique

6.6.1 Maximum de Vraisemblance Gnralis
Pour les problmes de dcision entre plusieurs hypothses composes Hi , (o
chaque hypothse est associe une famille de lois de probabilit), le principe du Maxi-
mum de Vraisemblance Gnralis nous dit de choisir lhypothse Hi? qui maximize
ppi (x(n) ) = max p(x(n) ) + c,

pHi
o c est une constante qui dtermine la performance du test (la probabilit des diffrents
types derreur). Souvent, une version simplifie de ces tests est applique, qui consiste
ignorer la constante c et choisir simplement lhypothse qui maximise la probabilit
des donnes. Ceci correspond, dans la perspective du MDL que nous venons dnoncer
dans la section prcdante, ngliger la complexit paramtrique de chaque modle,
C(Hi ), et pour des modles avec un nombre de degrs de libert disffrents, en gnral
113
conduit un choix systmatique du modle le plus complexe (celui qui a le plus grand
nombre de degrs de libert, et qui peut donc dcrire plus prcisment les observations
x(n) ).
Le MDL essaie de contrarier cette tendance pour choisir un modle de complexit
leve en considrant la distribution de Shtarkov, qui utlilise, comme nous avons vu,
une version normalise du Maximum de Vraisemblance. Le plus grand sera le nombre
dobservations qui peuvent tre bien dcrites par les distributions contenues dans un
modle, plus grande sera sa complexit paramtrique C(H), et donc plus le modle
doit finement dcrire les observations x(n) pour quil puisse tre choisi.
6.6.2 MDL et Compression

Lide originale de Rissanen qui justifie le principe du MDL est de considrer le
problme didentification de modles comme celui dapprendre le modle qui le mieux
exprime les rgularits prsentes dans les donnes. Nous venons de voir que cela cor-
respond choisir le modle pour lequel la distribution de Shtarkov associe conduit
un code de longueur minimale. Lutilisation de P mvn semble justifie par les deux
remarques suivantes :
1. le mieux la meilleure distribution dans Hj dcrira les donnes, le plus petite sera
la longueur de code.
2. aucune distribution dans chaque Hj nest donne une prfrence : en effet, la
pnalit (qui a le sens dune redondance pour chaque squence) est la mme pour
toutes les squences x(n) , indpendemment de la loi qui a gnre la squence
observe. Ce code est le seul code de prfixe avec cette proprit : P mvn traite
toutes les distributions de la mme manire.
La complexit stochastique des donnes x(n) dans un modle H peut tre interpr-
te comme la quantit dinformation sur le modle contenue dans les donnes. Elle
est la somme de deux termes. La complexit paramtrique du modle, qui mesure la
quantit de structure dans les donnes (dans le contexte du modle H), et le terme
log p(x(n) |(x(n) ), qui mesure la quantit de bruit dans les donnes.
6.6.3 Interprtation gomtrique

La complexit paramtrique dun modle peut tre interprte comme le nombre
de distributions discernibles dans le modle. Intuitivement, comme nous lavons dj
remarqu, plus de distributions diffrentes un modle contient plus grand est le nombre
de messages quil peut dcrire, et donc plus grand est le risque de over-fitting. Cepen-
dant, si ces distributions sont "similaires", dans le sens quelles dcrivent essentielle-
ment le mme ensemble dobservations, elles ne doivent pas contribuer sparament
la complexit stochastique du modle. Dans cette perspective, la complexit devrait
tre une mesure du nombre de distributions "diffrentes" quun modle donn contient.
Lanalyse suivante montre dans un cas simple que C(H) mesure exactement ceci.
Soit H = {p(|i ), i {1, . . . , M }} un modle avec un nombre fini de distribu-
114
tions. Alors
X
C(H) = log p(x(n) |M V (x(n) )
x(n) X n
X X
= log p(x(n) |j )
j=1,...,M x(n) : M V (x(n) =j

X X
= log 1 p(x(n) |j )
j=1,...,M x(n) : M V (x(n) 6=j

X n o
= log M Pr M V (x(n) 6= j |j
j=1,...,M
log M .
Nous voyons donc que la complexit paramtrique est dans ce cas simple gale la
diffrence entre le nombre de modles dans H (M ) et la probabilt pour que les mo-
dles soient confondus. Lexistence de distributions qui peuvent tre confondues avec
une probabilit leve conduit une diminution de la complexit paramtrique (ces
distributions ne sont pas comptabilises dune faon indpendante). Pour des grandes
valeurs de n, cette probabilt derreur tend vers zro (sauf dans des cas pathologiques),
et la complexit paramtrique tend vers log M , le (logarithme du) nombre de modles
diffrentes dans H.
Ce fait a t formellement tabli en [1], laide darguments sur la gomtrie de la

varit Riemanienne associe des modles probabilites paramtriques {p(x(n) |) :
} par la dfinition dune mtrique qui est donne par la matrice de Fisher I().
(On admet que est compact.) Nous prsentons ici trs sommairement largument
utilis. Considrons les ellipsoides centrs sur une grille discrte de points i :
( i )T I(i )( i ) d(n)
o la grille {i } est telle que les rectangles maximales contenus dans ces ellipsoides
dterminent un partitionnent non-uniforme de lespace de paramtres . Considrons
maintenant que d(n) dpend du nombre de donnes n de telle faon que le volume de
ces ellipsoides peut tre approxim par
k/2
2
Vi (n) = | det(I(i ))|1/2 ,
n
de faon que si i et j sont des lments voisins dans cette grille, alors, la probablit
derreur
Pr{(x(n) ) = i |j } n 0, i 6= j.
Le taux de diminution du volume Vi (n) des ellipsoides (et donc daugmentation du
nombre de points dans la grille discrte i ) est critique, dans le sens que pour une va-
riation de d(n) qui induirait une diminution plus rapide de Vi (n), la probablit de conf-
fondre deux points voisins de la grille ne convergerait pas vers zro. Lauteur montre
115
que le nombre de points dans la grille ainsi construite est gal la complexit para-
mtrique C(H), quil dsigne par complexit gomtrique. Nous pouvons donc com-
prendre le terme correspondant la complexit paramtrique dans le code universel
optimal de Shtarkov (maximum de vraisemblance normalis) comme la longueur des
mots de code pour une distribution uniforme p(i ) = 1/C(H) dans cet ensemble de
modles discernibles en H pour les observations x(n) . Le terme log p(x(n) |(x(n) ),
code les donnes comme une des squences qui correspondent llment de la parti-
tion associe au modle choisit, cest dire, les dtails des donnes.
Remarque 1
Lanalyse que nous venons de prsenter montre que pour des modles finis les codes en
deux parties avec une distribution a priori uniforme sont asymptotiquement optimales.
Comme nous lavons vu (exemple 4) la pnalit de ces codes est log M , et nous venons
de voir que pour le code universel optimal la pnalit prend asymptiquement la valeur
de log M . Cependant, pour des valeurs de n petits, et pour certaines squences x(n) ,
la probabilit derreur est non-nulle, et donc la complexit paramtrique est infrieure
cette valeur asymptotique. Le code en deux parties considre donc une pnalit qui
sera pour certaines squences, suprieure celle du code optimal en une seule partie.
4
Pour le cas plus intresssant de modles qui contiennent un nombre infini de dis-
tributions, la complexit paramtrique a une interprtation comme un quotient de deux
volumes. Cette interptation est base dans lexpansion asymptotique de la distribution
P mvn prsente dans le lemme suivant.
Lemme 1
Soit H un modle paramtrique de dimension m. Sous certaines conditions de rgula-
rit Z
k n p
C(H) = log + log det(I()) d + o(1), (6.12)
2 2
o n est la longueur de la squence observe, I() est la matrice de Fisher pour le

vecteur de paramtres , dlment gnrique

1 2 (n)
[I()]ij = lim E log p(x |) ,
n n i j
et o(1) 0 quand n . 4
Le dernier terme en (6.12) ne dpend pas de n et donc sa contribution devient ngli-

geable pour des valeurs de n grandes, impliquant que pour n trs grand,
k n
C(H) ' log , n >> 1. (6.13)
2 2
Le membre droit de cette expression coincide ( part un facteur k/2 log 2) avec le
terme de pnalit utilis par la mthode BIC (Bayesian Information Criterion) pour le
116
problme didentification de modles. Le fait que MDL et BIC, pour des valeurs suffi-
sament grandes de n, conduisent la mme pnalit a conduit laffirmation (errone)
que MDL et BIC sont quivalents.
En particulier, le Lemme 1 est vrai si H est une famille exponentielle :
p(x(n) |) = exp( T t(x(n) ))f (x(n) )g().
Cette famille contient un grand nombre de densits usuelles, comme les Bernoulli et
multinomiale Gaussienne, Gamma, etc.
Le premier terme de (6.12) mesure directement le nombre de degrs de libert du
modle, k. Le deuxime terme est une correction qui dpend de la forme fonctionnelle
du modle. Cest une correction qui ne dpend pas de n, et qui donc peut tre nglige
pour des valeurs de n trs grandes.
Exemple 7 Complexit du modle de Bernoulli

Pour le modle de Bernoulli introduit dans la page 103 la dimension est k = 1. La
matrice de Fisher pour ce modle est
1
I() = .
(1 )
Lutilisation de ce rsultat dans lexpansion asymptotique (6.12) conduit

1 1
C(B) = log n + log 3 + o(1).
2 2 2
4
6.6.4 Interprtation Bayesienne

Les tests de dcision Bayesiens ont un lien fort avec la mthode MDL. Considrons
le test entre deux hypothses composes suivant
n o
H1 : x(n) p1 (x) H = p(x(n) |1 ), 1 1 , 1 w1 (1 )
n o
H2 : x(n) p2 (x) H = p(x(n) |2 ), 2 2 , 2 w2 (2 )
o les hypothses sont quiprobables : Pr{H1 } = Pr{H2 }. Le test optimal au sens de

Bayes (pour le critre de probabilit derreur minimale) choisit lhypothse i? qui a la
plus grande probabilit a posteriori :
Z
? (n) (n)
i = arg max p(x |Hi ), p(x |Hi ) = p(x(n) |i )wi (i ) di . (6.14)
i{1,2} i
Quand les Hi sont des familles exponentielles, et sous conditions de rgularit, une
expansion de Laplace (dvelopement en srie de la fonction intgre dans lexpression
117
prcdante) conduit lapproximation suivante
k n
log p x(n) |Hi = log p x(n) |i (x(n) ) + log log w i (x(n) )
2 q 2
+ log det(I(i (x(n) )) + o(1).
Si nous comparons cette expression lquation (6.12), nous pouvons constater que
la longueur de code atteinte par ce code de Bayes diffre par une constante de la
longueur optimale log P mvn . Pour des grandes valeurs de n, les deux approches
conduiront donc au choix du mme modle.
Si nous considrons le cas particulier o les distributions a priori sont les distribu-
tions de Jeffrey (least informative prior, introduite par Jeffrey en 1946) :
p
det(I())
w() = R p , (6.15)
0
det(I(0 )) d0
nous pouvons facilement constater que (6.15) coincide exactement avec (6.12) : pour
des familles exponentielles, pour n grand, lapproche Bayesienne avec une distribution
a priori de Jeffrey est quivalente au principe du MDL.
Quand les modles Hi nappartiennent pas la famille exponentielle, lexpression
suivante est valable sous des conditions de rgularit :
k n
log p(x(n) |Hi ) = log p(x(n) |i (x(n) )) + log
q2 2
(n) ) + o(1), (6.16)
log w(|i (x(n) ) + log det(I(x
(n) ) est linformation observe.

o I(x
Pour les familles exponentielles, linformation observe coincide avec linforma-
tion de Fisher, et nous sommes conduits lexpression prcdante. En dehors des mo-
dles exponentiels, si la vraie distribution des donnes appartient un des modles
Hi , linformation observe converge encore vers linformation de Fisher, et lapproche
Bayesienne est encore asymptotiquement optimale.
6.6.5 Interprtation prdictive

Soit p une distribution en X n . Alors
Yn Yn
p(xi1 )
p(x (n)
)= i1
= p(xi |xi1
1 ), (6.17)
i=1
p(x1 ) i=1
et donc
n
X
log p(x(n) ) = log p(xi |xi1
1 ). (6.18)
i=1
Nous pouvons interprter le terme log p(xi |xi1

1 ) comme la pnalit associe lob-
servation Xi = xi quand nous essayons de prdire la valeur de Xi avec la distribution
118
p( |xi1
1 ) construite avec les observations prcdentes. Cette pnalit sera dautant
plus petite que la valeur observe aura une probabilit leve pour ce modle condi-
tionnel. Lexpression (6.18) nous dit donc que la longueur des mots du code associ
la distribution p est la somme des pnalits pour la prdiction de chaque valeur Xi de
la squence base sur toutes les valeurs prcdentes xi1
1 (valeurs observes).
Lquation (6.17) tablit une relation entre les modles de probabilit pour des
squences x(n) et des stratgies de prdiction, qui associent chaque possible squence
passe x1i1 une loi de probabilit pour la valeur future Xi . De la mme faon, cette
quation nous permet dassocier une loi de probabilit dfinie en X n des statgies de
prdiction.
Soit maintenant H un modle paramtrique, et P un code universel par rapport au
modle H. Dans le cadre de lestimation Bayesienne, et pour des observation i.i.d., il
est bien connu que la distribution prdictive converge (quand n ), vers la distri-
bution du Maximum de Vraisemblance p(|1i1 ). Le mme comportement est obtenu
pour tous le codes universels, de faon que nous pouvons approximer les distributions
conditionnelles P (|xi1 i1
1 ) par p(|1 ) :
P (Xi |xi1 1) ' p(|1i1 ), (6.19)
et donc
n
X
log P (x(n) ) ' log p(|1i1 ). (6.20)
i=1
Sous des conditions de rgularit, il peut tre dmontr que le membre droit de cette
quation peut tre crit comme
n
X k
log p(|1i1 ) = log p |(x(n) ) + log n + o(1),
i=1
2
qui diffre par une constante de lexpression (6.12), dmontrant que cette appproche
prdictive conduit asymptotiquement au mme choix que le principe du MDL. Cette
analyse nous fourni une interprtation alternative du MDL comme choisisant le modle
pour lequel lerreur de prdiction accumule est minimale.
Nous remarquons finalement que lestime en (6.20) peut ne pas tre lestime
du Maximum de Vraissemblance, pouvant tre remplace par un autre estimateur qui
converge vers lestimateur MV. Dans certains cas, comme le montre lexemple suivant,
le comportement peut mme tre suprieur.
Exemple 8 Modle de Bernoulli

Condirons le modle de Bernoulli, dcrit dans la page 103, o [0, 1] est la proba-
bilit dobserver un 1. Admettons que
x(n) = 0 0 1 ,
et donc lestimateur du Maximum de Vraisemblance de est
M V (x21 ) = 0,
119
impliquant que
p(x3 |M V (x21 )) = 0 log p(x3 |M V (x21 )) = log p(1|M V (x21 )) = ,
dmontrant que ce modle nest pas universel. Cependant, la distribution prdictive

base sur lestimateur modifi suivant (propos par Laplace)
n1 +
L (x21 ) = ,
n + 2
conduit un code universel. En effet, il peut tre dmontr que pour = 1, la distri-
bution prdictive avec cet estimateur coincide avec la distribution marginale de Bayes
relativement une distribution a priori uniforme pour . Pour = 2, nous obtenons
lestimateur Baysien pour la distribution a priori de Jeffrey pour le modle de Ber-
noulli, qui atteint (asymptotiquement) le mme comportement que le code universel
optimal (maximum de vraisemblance normalis).
Cette approche a des ressemblances avec la mthode du Maximum de Vraisem-

blance Gnalis, dcrite dans la section 6.6.1. La diffrence fondamentale entre les
deux approches, et qui explique que lapproche prdictive qui vient dtre dcrite ne
souffre pas des problmes de overfitting associs aux tests de Vraisemblance Gnrali-
se, est le fait quici chaque observation est prdicte (code) avec le modle dtermin
par les observations passes, ce qui nest pas le cas pour le test Maximum de Vraisem-
blance Gnralis. Celui-ci utilise dans un premier pas toutes les observations pour
estimer le paramtre , et utilise ensuite cette estime pour coder x(n) .
6.7 MDL Gnral pour la slection de modles para-

mtriques
Le matriel prsent dans le Chaptre prcdent considre le cas o le nombre de
modles est fini, et la solution avance (la distribution de Shtarkov) requiert que la
complxit paramtrique des modles soit finie. Dans ce Chaptre nous prsentons une
version plus gnrale du MDL qui peut traiter des modles avec une complxit infinie.
6.7.1 Complexit paramtrique infinie

La complexit paramtrique des modles les plus comuns est infinie. Un exemple
important est celui des modles Gaussiens, comme le montre lexemple suivant.
Exemple 9 Complexit du modle Gaussien

Soit H la famille de distributions Gaussiennes avec variance 2 fixe :

1 (x)2
H2 = p2 (x|) = e 22 : < ,
2
120
tendue x(n) <n par hypothse dindpendance (produit des densits marginales).
Lestimateur du Maximum de Vraisemblance de la moyenne est
i
1X
(xi1 ) = xj .
i j=1
Alors, Z
C(H) = log p2 (x(n) |(x(n) ) dx(n) = ,
x(n) <+
et donc le code universel optimal nest pas dfini pour ce modle.
La matrice de Fisher pour ce modle est
1
I() = ,
2
et donc nous avons galement
Z p
det(I()) d = ,
<
et donc le mlange Bayesien pour la distribution a priori de Jeffrey nest pas dfini non
plus.
Cependant, si nous considrons que [a, b], avec a, b < , la complexit pour
ce modle limit est finie :
Z
ba
p2 (x(n) |(x(n) ) dx(n) = n.
x(n) :(x(n) )[a,b] 2
Soient alors les modles emboits suivants :

1 (x)2
HK = p2 ,K (x|) = e 22 , || K , K 0, (6.21)
2
de faon que
H = K0 HK .
Maintenant, pour chaque K, C(HK ) < , et donc les codes universels optimaux cor-
respondants, P mvn (x(n) |HK ) existent.
Nous pouvons maintenant coder les donnes avec un code en deux parties, P meta (x(n) |H),
qui code dans un premier temps la constante K, et utilise ensuite le code optimal cor-
respondant pout coder les donnes. Ce code a une longueur
n o
log P meta (x(n) |H) = min log P mvn (x(n) |HK ) + L(K) , (6.22)
K
o L(K) est la longueur du mot de code utilis pour K.
Cette approche, base sur un codage en deux parties, est sous-optimale. La cause
de la non-optimalit est lie au fait que le code rserve plusieurs mots de code pour
121
la mme squence, une pour chaque valeur possible de K. Une alternative cette ap-
proche, qui est base dans la restriction de lespace dobservations, consiste limiter
lespace des paramtres. Dans [7] Rissanen propose une approche alternative, base
sur lutilisation dune version re-normalise du code universel optimal :

(n)
P mvn x(n) |H|(x(n) )
P rmvn (x )|H) = R
P
y (n) X n mvn
y (n) |H|(x(n) ) dy (n)
6.7.2 Sommaire
Le matriel prsent indique que si nous souhaitons appliquer le principe du MDL
pour choisir entre diffrents modles, nous devons chercher dfinir un modle univer-
sel pour lensemble de modles, qui soit capable de coder toutes les squences dune
taille donne n.
Si lensemble de modles est fini, nous utilisons une distributions a priori uniforme
pour les modles (longueur de code constante). Dans le cas contraire, la distribution
uniforme nexiste plus, et nous sommes forcs donner une prfrence certains mo-
dles sur les autres.
Quand la complexit paramtrique des modles est infinie, et donc le modle uni-
versel optimal de Shtarkov nexiste pas, nous devons dcomposer H comme lunion
de sous-modles emboits Hk , de complexit croissante en k. Un code universel pour
lensemble de modles est ensuite construit, avec une pnalit qui est proche de la
pnalit associe au sous-modle de complexit minimale qui contient lestime du
Maximum de Vraissemblance.
122
Bibliographie
[1] Vijay Balasubramanian, A geometric framework for Occams razor for inference
of parametric distributions, Princeton Physics Preprint PUPT-1588, Princeton,
NJ, USA, 1996. (http ://arxiv.org/pdf/adap-org/9601001).
[2] J. Rissanen, Modelling by shortest data description, Automatica, 14 :465 :471,
1978.
[3] A. Kolmogorov, Three approaches to the quantitative definition of information,
Problems Inform. Transmission, (1), 1 :7, 1965.
[4] Ray Solomonoff, "A Formal Theory of Inductive Inference, Part I (II), Informa-
tion and Control, Part I : Vol 7, No. 1(2), pp. 1 :22 (224 :254), March(June) 1964.
(http ://world.std.com/ rjs/1964pt1.pdf/http ://world.std.com/ rjs/1964pt2.pdf)
[5] Gregory Chaitin, On the length of programs for computing fi-
nite binary sequences, Journal of the ACM 13 (1966), pp. 547-569.
(http ://www.cs.auckland.ac.nz/CDMTCS/chaitin/acm66.pdf)
[6] Paul Vitanyi, Ming Li, Minimum description Length Induction, Bayesia-
nism and Kolmogorov Complexity, IEEE Trans. Inf. the., 46 :2, 446 :464,
2000.(http ://www.cwi.nl/ paulv/papers/mdlindbayeskolmcompl.pdf)
[7] J. Rissanen, Strong Optimality of the Normalized ML Models as Universal
Codes and Information in Data, IEEE Trans. Information Theory, vol. 47(5),
pp. 1712-1717, 2001. (http ://www.mdl-research.org/pub/bound2.ps)
123

Théorie de L Information

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Théorie de L Information

Încărcat de

Drepturi de autor:

Formate disponibile

Theorie de lInformation

October 11, 2006

Mesures dInformation et leurs

Nous pesentons dans ce Chapitre les mesures fondamentales de la Theorie de lin-

La loi de probabilite pX (x) verifie les conditions suivantes:

Nous allons maintenant introduire une des definitions fondamentales de la Theorie

Remarque 1 Dans la definition de H(X), nous utilisons la convention 0 log 0 = 0.

Reprennons la definition dune variable aleatoire X definie dans lespace de prob-

Quand X est un ensemble fini, nous pouvons associer a X une partition QX de :

et pX (x) = P (Qx ). Nous utiliserons aussi la notation

Qx = X 1 (x) = { : X() = x}.

On remarquera finalement que lentropie de la variable aleatoire X depend unique-

est une collection de sous-ensembles de telleSque : (i) B, (ii)si A B Ac B (le complement de

Dans la Definition 1, nous utilisons la fonction logarihtme. Le choix de la base

Figure 1.2: graphe de x log(1/x) sur lintervalle unitaire.

Lentropie possede les proprietes suivantes :

Propriete 2 Changement de base.

Hb (X) = logb (a)Ha (X).

Cette relation decoule immediatement de la formule pour le changement de base du

Exemple 1 Entropie dune variable aleatoire binaire.

ou q [0, 1]. Son entropie est, par definition

H(X) = q log q (1 q) log(1 q). (1.4)

Figure 1.3: Entropie dune variable aleatoire binaire.

Exemple 2 Entropie dune variable dans un ensemble fini.

Considerons maintenant une autre intrepretation de lentropie, plus proche de la

0( a)10( b)0( a)10( b)0( a)0( a)110( c).

Exemple 3 Entropie dune variable uniforme.

Propriete 3 Borne superieure de lentropie (alphabet fini).

Pour resoudre ce probleme nous utilisons la methode des multiplicateurs de Lagrange,

La Figure 1.4 illustre la variation de lentropie dans le simplex probabiliste de di-

Definition 2 Entropie conjointe.

4 Les triples (p1 , p2 , p3 ), tels que p1 + p2 + p3 = 1 et pi [0, 1], i = 1, 2, 3.

0.4 0.6 0.2 0.2

Figure 1.4: Entropie des distributions ternaires (vue tridimensionnelle, a gauche, et

Propriete 4 Borne inferieure de lentropie conjointe.

Exemple 4 Entropie conjointe entre entree et sortie dun canal binaire.

Figure 1.5: Transmission dune source par un canal de communication.

H(S) = H(q) = 0.8113 bits, H(O) = H(0.6875) = 0.8960 bits.

La loi de probabilite conjointe de lentree (S) et de la sortie (O) est

pS,0 = [q(1 ) (1 q) q (1 q)(1 )] , (1.6)

H(S, O) = H([0.2188 0.0938 0.0313 0.6563]) = 1.3548 bits.

La Figure 1.6 illustre la variation de lentropie conjointe pour les valeurs de q et

Figure 1.6: Entropie conjointe de lentree et de la sortie.

lentropie de la source pour la valeur de q correspondante. Cette Figure montre donc

Definition 3 Entropie conditionnelle.

H(Y |X) = EX [H(Y |x)] , (1.7)

Cette derniere equation (1.8) est lentropie de la distribution conditionnelle de Y sachant

Propriete 5 Non-negativite de lentropie conditionnelle.

Exemple 5 Entropie conditionnelle de l entree dun canal binaire sachant sa sortie.

Nous obtenons les entropies suivantes :

H(S|O = 0) = 0.8813 et H(S|O = 1) = 0.5746 bits.

Lentropie conditionnelle est donc

H(S|O) = pO (0)H(S|O = 0) + pO (1)H(S|O = 1) = 0.4588,

Figure 1.7: Entropie conditionnelle H(S|0) en fonction de la probabilite derreur.

Propriete 6 Regle de chane pour lentropie conjointe (deux variables).

H(X, Y ) = H(X) + H(Y |X) = H(Y ) + H(X|Y ). (1.9)

La demonstration de cette relation est immediate a partir de la definition de lentropie

Lequation alternative en termes de H(X|Y ) est obtenue en factorisant la loi conjointe

Exemple 6 Lapplication de cette formule nous permet de calculer plus facilement

H(S|O) = H(S, O) H(O) = 1.3548 0.8960 = 0.4588.

La Propriete 6 peut etre etendue a un ensemble denombrable de variables aleatoires :

Propriete 7 Regle de chane pour lentropie conjointe (n variables).

ou la notation X i represente lensemble {X1 , . . . , Xi }, et, par convention, X 0 = .