Documente Academic
Documente Profesional
Documente Cultură
Notes de Cours
2006-2007
SIC-SICOM
Maria-Joao Rendas
Considerez une variable aleatoire X qui prend des valeurs dans un ensemble de-
nombrable X (X est une variable aleatoire discrete), et soit pX (x) sa loi de probabilite:
X pX (x). (1.1)
Cette equation doit etre lue comme : la variable aleatoire X suit la loi pX (x), impli-
quant
Pr{X = x} = pX (x) x X .
pX (x) 0, x X ,
P
xX pX (x) = 1.
Souvent, par souci de simplicite, nous utiliserons la notation simplifiee p(x) pour
representer la loi de probabilite, la variable aleatoire etant deduite de largument de
la fonction: pX (x) p(x).
3
Definition 1 Entropie
Soit X p(x) une variable aleatoire, X X , avec X un ensemble denombrable.
Alors, lentropie de X, notee H(X) est, par definition
X 1
H(X) = p(x) log . (1.2)
p(x)
xX
Si F BX X 1 (F ) = { : X() F } B.
La Figure 1.1 illustre la definition de cette partition pour un exemple ou X = {x, y, z},
et donc
= Qx Qy Qz .
Lentropie de la variable aleatoire est donc uniquement fonction de la partition QX =
{Qx }xX , et peut etre ecrite en termes de la mesure de probabilite originale, P :
X 1
H(X) = P (Qx ) log .
P (Qx )
xX
4
X
r r
r r
r x y
r r
r
Qx r
r
r
r z
r r
Figure 1.1: Partition de associee a une variable aleatoire dicrete (prenant uniquement
3 valeurs) finie definie sur .
meme que celle qui est determinee par X. Pour cette raison, nous representerons sou-
vent lentropie comme une fonction de la loi de probabilite pX : H(X) H(pX ) ou
encore de la partition QX : H(X) H(QX ) .
5
0.7
0.6
0.5
0.4
x log(1/x)
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Propriete 1 Non-negativite.
H(X) 0.
Ceci est facilement deduit du fait que tous les termes dans la somme (1.2) sont non-
negatifs (voir Figure 1.2).
pX (a) = q, pX (b) = 1 q,
Comme nous lavons affirme, lentropie ne depend pas des valeurs a et b pris par X,
mais uniquement de la valeur de q. Pour indiquer cela, nous utiliserons suivent la
notation H(q) pour indiquer lentropie dune variable aleatoire binaire qui prend un
des deux valeurs possibles avec probabilite q. Il est evident que H(q) = H(1 q),
et que donc H(q) est une fonction symmerique autour de q = 1/2. La Figure 1.3
6
1
0.9
0.8
0.7
0.6
H(q)
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
q
represente les valeurs de lentropie pour q dans lintervalle unitaire. Nottons que si
q = 1/2 = 1 q, la valeur de lentropie est maximale et egale a log2 2 = 1, et que
pour q = 1 et q = 0 (et donc 1 q = 1) nous obtenons la valeur minimale zero:
0 H(q) 1. Nous verrons plus tard que ce comportement (valeur maximale quand
les elements de X sont equiprobables, et entropie nulle quand un des evenements est
certain) est verifie pour toutes les variables discretes dans un alphabet fini (meme de
dimension superieure a 2).
4
7
Le nombre moyen de tirages de la variable aleatoire U necessaires pour obtenir
une valeur de X est:
1 1 1
(1) + (2) + (3) = 1.75,
2 4 4
ce qui est exactement la valeur de lentropie de X. Nous reviendrons plus tard sur
cette interpretation de lentropie dune variable aleatoire X comme le nombre moyen
de tirages sur une variable aleatoire binaire (uniforme) necessaires pour simuler les
valeurs de X.
xX code u1 u2 u3
a 0
b 10
c 110
d 111
Nottons que le code obtenu est un code de prefixe (aucun mot de code nest prefixe
dun autre mot de code). Ceci implique que le code est immediatement decodable.
Par exemple le decodage de la s equence binaire 0100100110 peut etre fait au fur et a
mesure que les bits sont examines:
Nous pouvons egalement constater (Essayez!) que nimporte quelle sequence de chifres
binaires peut etre d ecodee comme une sequence de symboles dans X (le code est com-
plet : il ny a pas de mots de code non utilisees).
Soit l(x), x X , la longueur du mot de code pour levenement x, par exemple
l(b) = 2. Nous pouvons constater facilement que la longueur moyenne des mot de
code est encore egale a 1.75, cest a dire, a H(X), inferieure au nombre de (2) bits
necessaires pour coder les elements de X avec un code de longueur constante. La
relation entre entropie et longueur moyenne des mots de code est un des resultats fon-
damentaux de la Theorie de lInformation, et sera presente rigoureusement plus tard.
Nous pouvons maintenant constater que la valeur H(1/2) = 1 obtenue dans lexemple
1 est un cas particulier de celui-ci. La propriete suivante montre que log m est en fait
8
une borne superieure.
Cette inegalite peut etre obtenue de plusieurs facons. En particulier, elle decoule de
certaines inegalites fondamentales de la Theorie de lInformation, comme nous le ver-
rons plus tard (Propriete 15, page 23). Nous pouvons lobtenir directement comme la
solution dun probleme doptimisation sous contraintes:
P
max H(X), s.c. xX pX (x) = 1.
pX
Si nous egalons a zero la derivee par rapport a chaque pX (x) (nous considerons ici que
log loge )
L
= log pX (x) 1 = 0,
pX (x)
ce qui nous permet de conclure que les valeurs optimaux (qui maximisent H(X) sous la
constrainte de somme unitaire) de pX (x) sont independants de x. Comme leur somme
doit etre egale a 1, nous obtenons pX (x) = 1/m, comme nous voulions demontrer.
9
1
0.9
1.4 1.4
0.8
1.2 1.2
0.7
1 1
1 0.6
0.8
0.8 0.5 0.8
0.6
0.4
0.4
0 0.6 0.6
0.2
0 0.2 0.3
0 0.4 0.4
0.2 0.4 0.2
Cette definition est une application de la definition originale a lensemble de toutes les
paires possibles des valeurs de X et Y , le produit X Y.
Nottons que lentropie conjointe est symmetrique, i.e., H(X, Y ) = H(Y, X).
H(X, Y ) H(X).
4
Cette inegalite decoule directement du fait que la probabilite conjointe de deux evenements
est toujours inf erieure ou egale a la probabilite de chaque evenement : p(x, y) p(x),
x X , y Y :
X X
H(X, Y ) = p(x, y) log p(x, y) = p(y|x)p(x) log p(y|x)p(x)
x,y x,y
!
X X X
p(y|x)p(x) log p(x) = p(y|x) log p(x)
x,y x y
X
= p(x) log p(x) = H(X)
x
10
s o
canal
Nous avons donc les valeurs suivants pour les entropies de la source H(S) et de la
sortie du canal H(O) :
ou nous avons ordonnee les quatre evenements possibles de la facon suivante {(s =
0, o = 0), (s = 1, o = 0), (s = 0, o = 1), (s = 1, o = 1)}. Lentropie de cette loi est
1.8
2
1.6
1.4
1.5
1.2
1
1
0.5 0.8
0.6
0
1
0.4
0.8 1
0.6 0.8
0.6 0.2
0.4
0.4
0.2
0.2 0
0 0
11
ou X 1
H(Y |x) = pY |x (y|x) log . (1.8)
pY |x (y|x)
yY
H(Y |X) 0.
4
Cette inegalite decoule directement du fait que lentropie de chaque distribution condi-
tionnelle (chaque terme de (1.7) ) est non-negative. Nous remarquons que H(X|Y ) =
0 si et seulement si H(Y |x) = 0, x X . Mais lentropie est nulle uniquement quand
toute la probabilite est concentree dans un seul evenement, et donc, H(Y |X) = 0
Y = f (X).
qui est inferieure a lentropie de la source, H(S) = 0.8113. La Figure 1.7 illus-
tre la variation de lentropie conditionnelle H(S|O) avec sur lintervalle unitaire.
12
H(S|O)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Remarquez que pour = 0 ou = 1, cest a dire, quand la sortie est une fonction
deterministe de lentree, cette entropie conditionnelle devient nulle. Sa valeur maxi-
male, egale a lentropie de la source (verifiez cette affirmation et interpretez ce fait),
est obtenue pour = 1/2.
Remarque 2
Comme cas particulier, nous pouvons conclure que
H(X|X) = 0.
13
Cette derniere propriete nous permet de decomposer en deux pas lentropie con-
jointe de deux variable al eatoires : on observe dabord la valeur de X (ou Y ), avec
une entropie H(X) (respectivement H(Y )). Lobservation de Y (X) a alors une incer-
titude qui est quantifiee par lentropie conditionnelle H(Y |X) (H(X|Y )).
Remarque 3
A partir de cette decomposition nous pouvons obtenir la Propriete 4, qui decoule du
fait que lentropie conidtionnelle H(Y |X) est non-negative (Propriete 5).
Il est facile de demontrer que linformation mutuelle peut encore etre ecrite comme
14
Propriete 8
I(X; Y ) = H(X) + H(Y ) H(X; Y ). (1.12)
4
et donc nous pouvons interpreter lentropie comme linformation dune variable sur
soit meme.
H(Y)
H(X|Y)
H(X)
I(X;Y)
H(X|Y)
15
I(S,0)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Lequation (1.11), ainsi que la Propriete 8, eq. (1.12), montrent que les roles de X
et Y peuvent etre interchanges dans la definition de linformation mutuelle. Cependant,
nous le d emontrons directement, ce qui nous permetra dobtenir un resultat qui nous
sera utile par la suite.
La demonstration est faite en ecrivant p(y) comme la marginale de la distribution con-
jointe X
p(y) = p(x, y),
xX
16
X 1 X p(x)
= p(y, x) log p(y, x) log
xy
p(y) x,y
p(y, x)
X p(y, x)
= p(y, x) log
x,y
p(x)p(y)
p(y, x)
= EX,Y log (1.16)
p(x)p(y)
Cette derniere expression montre bien que I(X; Y ) est une fonction symmetrique des
deux variables al eatoires.
Remarque 6
La definition precedante na de sens que si p(x) = 0 pour tous les x pour lesquels
s(x) = 0 :
s(x) = 0 p(x) = 0,
cest a dire, si la mesure p est absolument continue par rapport a s, que nous nottons
s >> p. Quand ce nest pas le cas, nous definissons D(p||s) = . La loi s est
designee par mesure de ref erence.
D(p||s) 0. (1.18)
17
Cette inegalite fondamentale de la Theorie de lInformation decoule directement de
linegalite de Jensen.
Avant de presenter linegalite de Jensen, nous rappelons la notion de fonctions con-
vexes (concaves).
f : <n <
x f (x)
On dit que f () est une fonction convexe si et seulement si x1 , x2 <n , [0, 1],
Si linegalite est satisfaite avec < a la place de , nous dirons que f est strictement
convexe.
Ceci veut dire que le segment de droite qui joint les points (x1 , f (x1 )) et (x2 , f (x2 ))
en <n+1 est au- dessus de la surface de la fonction, voir Figure 1.10. Des exemples de
fonctions convexes sont
x (qui nest pas strictement convexe!)
|x| (idem)
ex
log x1 , x > 0
7 log2(1/x)
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
18
Si la deuxieme derivee de f () existe, alors une condition sufisante pour que f soit
convexe est que son Hessian soit une matrice definie non-negative (ne pas confondre,
dans lequation suivante, lHessian Hf matrice des derivees partielles de f avec
lentropie !!)
2 f (x)
Hf (x) 0, x <n f est convexe, [H]ij = , , i, j = 1, . . . , n.
xi xj
(x x0 )2 f 00 (x? ) 0.
EpX [f (x)] f (x0 ) + EpX [(x x0 )] f 0 (x0 ) = f (x0 ) + (EpX [x] x0 )f 0 (x0 ),
car x0 est une constante fixee. Si nous prennons x0 = E[x], le deuxieme terme devient
nul, et nous obtenons directement linegalite de Jensen:
19
Propriete 13
Si f est strictement convexe, et linegalite de Jensen se verifie avec egalite, cest a dire,
si
EpX [f (x)] = f (EpX [x]),
alors X est une constante, cest a dire, sa loi de probabilite est concentree dans un seul
point x? X :
pX (x) = (x x? )
4
Remarque 7
Linegalite de Jensen nous permet de prouver facilement que la variance est toujours
non-negative (x2 est une fonction convexe!):
D(p||s) 0.
Comme log() est une fonction strictement concave, nous pouvons encore affirmer
que
s(x)
D(p||s) = 0 x X : = c,
p(x)
ou c est une constante, cest a dire, nous devons avoir
s(x) = cp(x), x X
pour que D(p||s) = 0. Mais, comme les deux lois doivent avoir une somme egale a 1,
la seule solution possible est c = 1, et donc,
p(x) = s(x), x X .
20
Nous venons de prouver
Propriete 14 Soient p(x) et s(x) deux lois de probabilite sur le meme alphabet X et
D(p||s) lentropie relative de p par rapport a s. Alors
D(p||s) = 0 p = s. (1.21)
Remarque 8
Une demonstration alternative (et plus simple) de la non-negativite de lentropie rela-
tive est obtenue a partir de linegalite
log x x 1, (1.22)
avec egalite si et seulement si x = 1 (voir Figure 1.11). Alors nous pouvons ecrire
X X X X
s(x) s(x)
D(p||s) = p(x) log p(x) 1 = s(x) p(x) = 0,
p(x) p(x)
xX xX xX xX
D(p||s) 0.
x1
log x
6
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
21
Les Proprietes 11 and 14 justifient lintrepretation de lentropie relative comme une
distance (ou mesure de similarite) entre des lois de probabilite. Cependant, elle nest
pas une vraie distance, au sens mathematique du terme, car elle nest pas symmetrique :
D(p||s) 6= D(s||p),
Comme elle est non-negative, et egale a zero uniquement quand les deux lois coinci-
dent, lentropie relative est une mesure de distortion, qui peut etre consideree comme
une generalisation de distance.
Linterpretation de D comme une distance est souvent utile pour analyser le son
comportement, et nous verrons quelle exibe des relation avec des mesures de distance
ordinaires entre des lois de probabilite. Elle joue un r ole fondamentale en theorie
de linformation, et comme nous le verrons, toutes les autres mesures que nous utilis-
erons (entropie, information mutuelle, et ses versions conditionnelles) peuvent etre
exprimees comme une divergence.
Il y a trois manieres de voir lentropie comme un cas particulier de divergence.
La premiere consiste a permettre a la mesure s de ne pas avoir masse unitaire (s est
une mesure generale, pas une mesure de probabilite), et prendre pour s la mesure s
quattribue une masse unitaire a chaque point de X (s est donc la fonction indicatrice
de X ) :
X
x X , s(x) = 1, D(p||s) = p(x) log p(x) = H(X).
xX
ou encore
H(X) = D(u||s) D(p||u),
22
ou nous avons utilise log |X | = H(u) = D(u||s), ou s est la mesure uniforme
introduite plus haut.
Finalement, nous pouvons encore etablir une troisieme relation entre entropie et en-
tropie relative, en faisant appel a notion de mesure produit. Soient p et q deux mesures
de probabilite definies dans un m eme alphabet X . Nous allons definir, a partir de la
loi p, deux mesures de probabilite dans le produit X X de la forme suivante:
p0 est la mesure diagonale:
p(x), si x = y
p0 (x, y) =
0, si x 6= y
Cest la loi conjointe de deux variables aleatoires X et Y parfaitement correles:
avec probabilite 1 les variables prennent la meme valeur : toutes les realisations
sont de la forme (x, x), x X .
p q est la mesure produit usuelle:
p q(x, y) = p(x)q(y),
et donc lentropie peut encore etre intrepretee comme la divergence entre ces deux
mesures produit extremes, qui correspondent aux cas de correlation parfaite (p0 ) et
independance statistique (p p).
A = {p : D(p||s) }
il peut etre demontre que A est un ensemble convexe (voir la Figure 1.12, ou la loi s est
indiquee par une etoile jaune), ce qui est une propriete importante dans des problemes
doptimisation.
23
2
1.8
1.6
* 1.4
1
0.5 1.2
0
1
0.5
1 0 0.8
0
0.2 0.6
0.2
0.4
0.4 0.4
0.6
0.6
0.2
0.8 0.8
0
1 1
Figure 1.12: Entropie relative par rapport a la mesure indiquee par une etoile (jaune).
I(X; Y ) 0 (1.26)
I(X; Y ) = 0 p(x, y) = p(x)p(y) X, Y stat. ind. (1.27)
24
avec egalite si et seulement si les deux variables sont statistiquement independantes.
Ceci est une cons equence immediate de la definition dinformation mutuelle, eq.
(1.11), et de la Propriete 11. 4
La propriete 18 peut etre interpretee comme les observations sont toujours utiles
: la connaissance dune autre variable Y ne peut que faire diminuer lincertitude exis-
tante sur la variable X.
Remarque 9
Cette derniere intrepretation suppose, bien-sur, une utilisation optimale de la nouvelle
information !
Remarque 10
Notez que la borne presentee dans la Propriete 18 concerne lentropie conditionnelle
H(X|Y ). Elle peut etre violee pour lentropie de la loi conditionnelle pX|y (x|y) :
pour certaines valeurs particulieres de y nous pouvons avoir H(X|Y = y)>H(X)!
En moyenne, cependant, lentropie doit decroitre.
Cette Propriete affirme donc que lentropie du melange de deux distributions est
superieure a la moyenne ponderee (avec les memes coefficients) de lentropie des deux
lois. Elle peut, evidement, etre etendue au melange dun ensemble denombrable de
lois de probabilite. La demonstration de cette inegalite peut etre faite directement en
calculant les deuxiemes derivees. Nous presentons une demonstration alternative, qui
fait appel a la regle de chane de lentropie, etablie dans la Propriete 7, page 14.
Designons par X X et Y X des variables aleatoires qui suivent les lois p1 et p2 ,
respectivement. Soit une variable aleatoire binaire {1, 2}, avec
p (1) = P r{ = 1} = , p (2) = P r{ = 2} = 1 .
Nous construisons une nouvelle variable aleatoire Z, selon la regle suivante. On genere
dabord p . Si = 1, nous procedons a un tirage selon p1 : z p1 (X); sinon
nous utilisons la loi p2 : z p2 (Y ). La loi de la nouvelle variable est
25
cest a dire, pZ est la loi de melange de p1 et p2 avec coefficents (, 1 ). Lentropie
conditionnelle de Z sachant est, par application de la Definition 3, page 12,
Mais
H(Z| = 1) = H(p1 ), et H(Z| = 2) = H(p2 ).
De la borne superieure pour lentropie conditionnelle, nous obtenons finalement
Propriete 20
26
Finalement, nous etablissons une relation qui nous sera utile plus tard. Pour cela
nous introduisons dabord la notion de raffinement dune partition.
P2 < P3 , P1 6< P3 .
Cest a dire, cette Propriete nous dit quun raffinement de la partition conduit a une aug-
mentation de lentropie et de la distance entre lois de probabilite. Ceci veut dire, par
exemple, que si nous diminuons le nombre de bits qui codent (en regroupant, par ex-
emple, les niveaux deux a deux) chaque pixel dune image, sont entropie doit d ecroitre.
Nous allons maintenant demontrer linegalite sur les entropies relatives. La de-
monstration de linegalite sur les entropies peut etre faite selon la meme approche.
Si le raffinement de la partition conduit a des lois qui ne sont pas absolument con-
tinues (cela veut dire que certains evenements de mesure nulle selon MR ont une prob-
abilite positive selon PR ), alors D(PR ||MR ) = et la propriete est triviellement
satisfaite.
27
Si D(PQ ||MQ ) = , cela veut dire quil existe au moins un element Qi Q tel
que M (Qi ) = 0 mais P (Qi ) 6= 0. Alors, il existe un Rj Qi tel que M (Rj ) = 0
et P (Rj ) > 0, cest a dire P nest pas absolument continue par rapport a M et donc
D(PR ||MR ) = ,et donc linegalite est satisfaite avec egalite ( = ).
Comme Q < R, nous pouvons regrouper la somme sur les elements de R en con-
siderant tous ceux qui appartiennent a un meme element de Q :
X X P (Rj ) P (Qi )
D(PR ||MR )D(PQ ||MQ ) = P (Rj ) log P (Qi ) log .
i
M (R j ) M (Qi )
j:Rj Qi
Nous pouvons maintenant demontrer que chaque terme entre parentheses est non-
negatif. S
Fixons une valeur de i. Comme Qi = Rj , si P (Qi ) = 0 P (Rj ) = 0, j :
Rj Qi , et donc le terme correspondant est nul. Si P (Qi ) 6= 0, nous pouvons
re-ecrire le terme correspondant comme
X P (Rj ) P (Rj )/P (Qi )
P (Qi ) log
P (Qi ) M (Rj )/M (Qi )
j:Rj Qi
ou nous avons utilise le fait que D(PQ ||MQ ) 6= et donc P (Qi ) 6= 0 M (Qi ) 6= 0.
Pour les valeurs de j dans chaque terme, Rj Qi , et donc
T
P (Rj ) P (Rj Qi )
Rj = Rj Qi = = P (Rj |Qi ).
P (Qi ) P (Qi )
Pour les autres valeurs de j, pour lesquelles Rj 6 Qi , alors Rj Qi = , et
P (Rj |Qi ) = 0 .
Des expressions equivalentes peuvent etre etablies pour la mesure M . Une expression
equivalente de chaque terme entre parentheses dans lexpression de la difference des
entropies relatives est donc
X P (Rj |Q )
i
P (Qi ) P (Rj |Qi ) log = P (Qi )D (P (R|Qi )||M (R|Qi )) 0 ,
j
M (R j |Q i)
28
et nous obtenons lexpression souhaitee :
29
Theorie de lInformation
Notes de Cours (part 2)
2006-2007
SIC-SICOM
Maria-Joao Rendas
Compression de donnees
2.1 Introduction
Lobjectif de ce Chapitre est detablir les limites fondamentaux de la compression de
donnees, cest a dire de la determination de codes le plus efficaces possibles.
Nous comencons par formuler mathematiquement loperation de codage (et even-
tuelle compression). Considerons une source, X, qui emet des sequences x de sym-
boles {xi } dans un alphabet X , telle que nous representons dans la Figure 2.1. Soit
c(x) le resultat de loperation du codeur C (que nous admettons pour linstant binaire)
sur le message x X . La sequence (binaire) c(x) peut maintenant etre enregistree
pour une ulterieure recuperation/lecture, ou servir a transmettre le message x a travers
un canal de communication. Associe au codeur C, il doit exister un decodeur, D, qui
reconstruit, a partir de la sequence binaire c(x), le message initial x X . Le codeur
est donc une application
C: X {0, 1}?
,
x c(x)
D: {0, 1}? X
c(x) d(c(x))
Nous designerons lensemble C(X ) des mots (binaires) qui peuvent etre engendres par
le code C, par code.
31
Source X x Codeur C c(x) Canal/disque c(x) Decodeur D d(c(x))
inversible sur X , nous dirons que le codages est sans pertes. Dans le cas contraire,
nous dirons que C est un codeur avec pertes.
Remarque 1 Nous pouvons deja conclure quun code sans pertes doit verifier la con-
dition suivante:
|C(X )| = |X |.
n(x) = |c(x)|.
Si tous les elements du code C(X ) ont la meme longueur, nous dirons que C est un
code de longeur fixe. Dans le cas contraire, nous parlerons dun code de longueur
variable. La longueur n des mots dun code (binaire) sans pertes de longueur fixe doit
necessairement satisfaire
n log2 |X |. (2.2)
Cependant, si nous acceptons que des pertes (cest a dire, que des sequences dis-
tinctes c1 6= c2 soient d ecodees par le meme message d(c1 ) = d(c2 ) X ), nous
pouvons utiliser des mots de longueur inferieure a la borne de lequation (2.2). Si la
probabilite des messages pour lesquelles ces erreurs se produisent est tres petite, la per-
formance globale du code peut etre acceptable. Pour pouvoir contrler cette probabilite,
il faut utiliser une caracterisation probabiliste de la source.
1 Pour des sequences x = x1 xn , n(x) designe le nombre delements de la sequence (sa longueur).
32
H(X)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
H (X) = log |S |.
La valeur de H (X) nous indique le nombre minimal de bits dun code de longeur fixe
qui peut transmetre sans erreur toutes les sequences de lensemble S , et qui a donc
une probabilite derreur inferieure a .
33
xk X p(xk ) Hk (X)
0000 (0.2)4 log2 (15) = 3.9069
0001 (0.2)3 0.8 log2 (14) = 3.9069
0010 (0.2)3 0.8 log2 (13) = 3.8074
0100 (0.2)3 0.8 log2 (12) = 3.7004
1000 (0.2)3 0.8 log2 (11) = 3.5850
0011 (0.2)2 (0.8)2 log2 (10) = 3.4594
0101 (0.2)2 (0.8)2 log2 (9) = 3.3219
1001 (0.2)2 (0.8)2 log2 (8) = 3.1699
0110 (0.2)2 (0.8)2 log2 (7) = 3.0000
1010 (0.2)2 (0.8)2 log2 (6) = 2.8074
1100 (0.2)2 (0.8)2 log2 (5) = 2.5850
1110 0.2 (0.8)3 log2 (4) = 2.0000
1101 0.2 (0.8)3 log2 (3) = 1.5850
1011 0.2 (0.8)3 log2 (2) = 1.0000
0111 0.2 (0.8)3 log2 (1) = 0
1111 (0.8)4
La colonne a gauche liste par ordre croissante de probabilite les possibles sequences
xk X , k = 1, . . . , 16. La colonne centrale indique leur probabilite p(xk ), fonction
uniquement du nombre de zeros et 1s dans la sequence xk . Les ensembles Sk sont
construits iterativement en enlevant les sequences par cet ordre (les moins probables
avant les plus probables), avec linitialisation S 0 = X :
[
S0 = X Sk1 = Sk {xk }, k = 1, 2, . . . , 16,
La colonne a droite du tableau liste le logarithme de cette taille, i.e., les valeurs de
Hk (X). Finalement, la probabilite k pour quune sequence ne soit pas dans Sk est
obtenue recursivement de la facon suivante:
La Figure 2.3 illustre la variation de H (X)/n pour n = 10. Comparez avec la Figure
precedante.
Ces exemples nous montrent que si nous admettons une probabilite derreur > 0,
nous pourrons transmettre les messages dune source source avec moins de bits que
H0 (X). Les valeurs de H obtenus dans les exemples precedants dependent fortement
de la longeur de la sequence binaire (n = 4, 10 dans les exemples). La Figure 2.4
montre que pour des valeurs de n grands (les trois courbes representees correspondent
aux valeurs de n = 20, 50, 100), le nombre de bits par symbole de la source,H (X)/n
tend vers une valeur constante, egale a H(p), sauf dans les limites de linterval unitaire
: = 0 (codage sans pertes) et = 1 tres grande probabilite derreur). Cest cela qui
affirme le Theoreme du codage source de Shannon, que nous ennoncons maintenant:
34
H(X)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.2 0 0.2 0.4 0.6 0.8 1 1.2
H(X)/n
1
0.9
0.8
H(0.8)
0.7
n=100
0.6
0.5
n=50
0.4
0.3 n=20
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
35
Theoreme 1 Theoreme du codage source (Shannon)
Soit X une source avec entropie H(X). Alors
1
> 0, ]0, 1[, n0 : n > n0 H (X (n )) H < . (2.3)
n
Dans cette equation, X (n) designe lensemble de toutes les sequences de taille n
dont les elements sont des tirages statistiquement independants de la meme variable
aleatoire X. 4
Par la loi des grands nombres (voir Theoreme 3), une sequence longue, x(n) (de
longueur n), de symboles statistiquement independants emis par une source avec des
valeurs dans un alphabet discret X = {1, . . . , m} de taille m, i.e. |X | = m, contient
un nombre ni (x) de occurrences de chaque symbole i dans x(n) , ni (x) ' np(i). Sa
probabilite est donc
m
Y m
Y
p(x(n) ) = p(i)ni (x) ' p(i)np(i) ,
i=1 i=1
Xm
1 1
log (n) ' n p(i) log ' nH(X), (2.4)
p x i=1
p(i)
(n)
Definition 3 Ensemble typique A
Soient X1 , X2 , . . . , Xn des variables aleatoires independantes et identiquement dis-
tribuees (i.i.d.), avec loi de probabilite p(x), x X . Lensemble -typique par rapport
a p est le sous- ensemble de X n :
n h io
A(n)
= x (n)
X n
: p(x (n)
) 2 n(H(X)+) n(H(X))
, 2 (2.5)
36
ou, dune facon equivalente,
1 1
A(n)
= x(n)
X n
: log [H(X) + , H(X) ] (2.6)
n p(x(n) )
4
Remarque 3 Par sa propre definition, eq. (2.5), les elements de lensemble typique
ont tous essenciellement la meme probabilite. Cest ce fait que justifie le nom de la
Propriete 1 que nous allons maintenant enoncer.
Nous verrons que quand n est tres grand, cet ensemble typique contient presque
toute la probabilite.
Propriete 1 Propriete dequi-repartition assymptotique
Pour n suffisament large, une sequence x(n) de symboles statistiquement independants
emis par une source X appartient presque surement a un sous-ensemble de X qui
contient seulement 2nH(X) el ements, chacun avec une probabilite proche de 2nH(X) .
4
37
La Loi (faible) des grands nombres est une consequence de linegalite de Cheby-
shev.
Theoreme 4 Inegalite de Chebychev
Soit X une variable aleatoire non-negative et > 0. Alors
E[X]
Pr {X } . (2.9)
4
(b) X x E[X]
Pr {X } p(x) =
xX
38
Considerons maintenant les variables aleatoires (i.i.d.)
1
Zi = log , i = 1, . . . , n.
p(Xi )
E [Zi ] = H(X),
2
et une variance que nous designons par Z . La condition (2.6) qui defini lensemble
typique peut donc etre ecrite en fonction des variables Zi :
n n !2
1 X 1X
Zi H(X) Zi H(X) 2 .
n n
i=1 i=1
Par la loi faible des grands nombres,nous sommes capables de calculer une borne
inferieure pour la probabilite de cet evenement :
!2
1X n 2
Pr Zi H(X) 2 Z2 n 0, (2.11)
n n
i=1
La demonstration est faite en deux etapes. Dans la premiere, nous allons demontrer
que > 0, [0, 1], n0 tel que
1
H (X (n) ) H(X) < , n > n0 . (2.14)
n
39
(n)
A
n(H+)
Pr {S } = 1 n |Ao | 2
(n)
Pr A 1 (n, )
Le deuxieme pas etabli que Pr{S } = 1 , n > n0 implique que sa taille H doit
satisfaire
1
H (X (n) ) > n (H(X) ) H (X (n) ) H(X) > , (2.15)
n
et donc lequation (2.3) est vraie.
1 (n)
n H (X ) H(X) <
(n)
Lensemble typique A nest pas le meilleur ensemble pour compression, au sens
que nous avons discute dans la section precedante. Par exemple, il est simple de con-
stater que dans les exemples de la section precedante la sequence la plus probable
(n) (n)
nappartient pas a A . La taille de A fourni donc une borne superieure pour la
taille de S :
H (X (n) ) = log |S | log |A(n)
|. (2.16)
Nous allons montrer que S doit etre petit, en calculant une borne superieure Bs pour
(n)
la taille de A :
|A(n)
| Bs H log Bs .
40
X
= 2n(H+) 1 = 2n(H+) |A(n)
|
(n)
x(n) A
|A(n)
|<2
n(H+)
(2.17)
ou nous avons utilise en (a) la borne inferieure pour la probabilite des sequences qui
appartiennent a lensemble typique qui decoule de sa definition (2.5). Si nous fixons
n0 tel que
2 2
(n0 , ) = 2 Z n0 2Z , (2.18)
n0
par lequation (2.11), n > n0 lensemble typique a une probabilite superieure a 1 :
n o
Pr A(n)
1 (n, ) 1 (n0 , ) 1 .
(n)
A satisfait donc la condition du Theoreme de Shannon : pour toute valeur de > 0
et de [0, 1], nous pouvons determiner un n0 (eq. (2.18)) tel que pour des sequences
de longueur n plus grande que n0 nous verifions simultanement
n o
Pr A(n) 1 , et log |A(n)
| n (H(X) + ) .
Si nous utilisons la borne superieure (2.17) dans lequation (2.16), nous obtenons
linegalite recherchee :
H (X (n) ) < n(H + ) . (2.19)
1 (n)
n H (X ) H(X) >
41
|T | < 2n(H(X)) (n)
A2
(n)
x A/2 p(x) 2n(H(X)/2)
OC
C
C
C
C
(n)
C
T A/2 C n o
(n)
Pr T A/2 2n/2
Si n est suffisament large, le graphe de la fonction H (X (n) ) est donc bien com-
pris dans une region horizontale autour de la valeur de lentropie, comme nous avions
affirme, et verifie numeriquement dans la Figure 2.4 de la page 35.
Remarque 4 La premiere partie du theoreme nous dit quil suffit dune petite tolerance
' 0 aux erreurs pour que le nombre de bits par symbole ne doive pas exceder
42
2
1.8
1.4
1.2
0.8
0.6
0.4
0.2
0
0 10 20 30 40 50 60 70 80 90 100
n
H + . La deuxieme partie montre que meme si nous admettons une grande probabilite
derreur ' 1, le nombre de bits par symbole devra encore etre a de lentropie de
la source. Ceci demontre le sens de lentropie comme le nombre moyen de bits (par
symbole) necessaires pour coder les symboles dune source.
43
Theorie de lInformation
Notes de Cours (part 4)
2006-2007
SIC-SICOM
Maria-Joao Rendas
3
66
Chapter 4
Dans le Chapitre 3 nous avons etudie le Theoreme du Codage Source pour des sources
blanches, cest a dire, dont les symboles produits par la source sont statistiquement
independants et identiquement distribuees. Dans ce Chapitre nous allons generaliser ce
resultat pour des sources avec memoire, en faisant appel a la notion de taux dentropie.
Nous introduisons egalement la notion de codes universels, et nous presentons lalgo-
rithme de Lempel-Ziv, comme exemple de code universel qui exploite la structure de
correlation de la source.
Propriete 1 Pour une source stationnaire, le limite dans la definition (4.1) existe et est
egal a
H 0 (X) = lim H(Xn |Xn1 , Xn2 , . . . , X1 ) (4.2)
n
Demonstration
Nous allons demontrer dans un premier temps que le limite H 0 dans lequation (4.2)
existe.
67
(a)
H(Xn |Xn1 , . . . , X2 )
(b)
= H(Xn1 |Xn2 , . . . , X1 ) = H(Xn1 |X1n2 ),
ou (a) est justifiee car le conditionnement diminue lentropie, et (b) par la stationnarite
de Xn .
Nous voyons donc que
n = H(Xn |X1n1 ) (4.3)
est une sequence non-croissante (n n1 ) de nombres non-negatifs (n 0). Elle
doit necessairement avoir une limite:
lim n = H 0 .
n
Nous enoncons maintenant un Lemme qui sera utilise par la suite pour etablir
legalite entre (4.1) et (4.2).
an a.
Soit bn la sequence :
n
1X
bn = ai .
n i=1
Alors
bn a lim bn = lim ai .
n i
Demonstration
Comme an a :
Soit n() lordre dont lexistance est garantie par la convergence de la serie an . Alors,
pour n n(),
n
1 X
|bn a| = ai a
n
i=1
X 1
n
a
= ai
n n
i=1
68
n
1 X
= (ai a)
n
i=1
n() n
1 X 1 X
(a a) + (a a) (4.4)
n i n i
i=1 i=n()+1
n n()
= max |ai a|
i>n() n
max |ai a|
i>n()
|bn a| < 2.
69
Nous pouvons maintenant finir la demonstration de legalite entre (4.1) :
n n
(a) 1 (b) 1X (c) 1X
H(X) = lim H(X1n ) = lim H(Xi |X1i1 ) = lim i ,
n n n n n n
i=1 i=1
70
Theoreme 1 (Codage Source)
Soit L?n (X) la longueur moyenne (par symbole) dun code optimal sans pertes pour
des sequences de taille n : X n = {X1 , . . . , Xn }. Alors
n
L?n (X) H(X).
Ce theoreme affirme que le taux dentropie H(X) est asymptotiquement (dans le limite
de blocs de grande taille (n )) le nombre minimal de bits par symbole source pour
coder sans pertes les sequences de la source Xn . Le taux de compression optimal est
donc le taux dentropie de la source.
Nous verrons dans une Section ulterieure quil existent effectivement des codes uni-
versels, et que le code de Lempel-Ziv est un exemple bien connu de ce type de codes.
La version que nous avons presentee (dans le Chapitre 3) du Theoreme du Codage
Source, pour des sources i.i.d., est basee dans la Propriete dequi-repartition asympto-
tique, qui affirme que si Xn sont des variables i.i.d., alors
1 n
log p(xn ) H(X),
n
ou la convergence est en probabilite, et H(X) est lentropie de Shanon des variables
aleatoires i.i.d. Xn .
Nous avons alors vu que pour n suffisament grand, lensemble -typique defini par
1
An = xn : log p(xn ) H(X) <
n
satisfait les relations suivantes:
Ces equations affirment quil existent ' 2nH(X) sequences qui concentrent presque
toute la masse de probabilite. Nous pouvons alors concentrer nos efforts de codage sur
cet ensemble, en utilisant un code dont la longeur est pres de lentropie de la source,
avec une probabilite derreur aussi petite que lon souhaite.
Cependant, la Loi Forte des Grands Nombres, dans laquelle est basee la Propriete
dequi-repartition asymptotique, est valable pour des processus plus generaux que les
sources i.i.d.: les processus ergodiques, dont nous donnons maintenant la definition.
71
Definition 3 Source ergodique
Soit Xn = {. . . , X1 , X0 , X1 , . . .}, Xn X , une source stationnaire, et representons
par T (X) loperateur de translation (shift):
Y = T k (X) Yn = Xnk .
Dune facon informelle, nous pouvons dire quune source est ergodique si sa carac-
terisation statistique peut etre deduite a partir de lobservation dune de ses realisations
(un seul sample path).
1
lim `n (X n ) H(X) w.p. 1,
n n
pour toute source X stationnaire et ergodique. 4
ou xn X , n = 1, . . . , n + 1.
Nous designons les noyaux p(Xn+1 = xn+1 |Xn = xn ) distributions condition-
nelles de Xn+1 sachant la valeur de Xn par probabilites de transition du processus
de Markov. 4
72
Ceci est lexpression mathematique de la notion intuitive de processus sans memoire.
Formule autrement, nous dirons que le passe (Xi , i < n) et le futur (Xi , i > n) sont sta-
tistiquement independants sachant le present (Xn ).
La matrice P est une matrice stochastique: la somme des elements de toutes ses
colonnes doit etre egale a 1. Ces matrices possedent plusieurs proprietes algebriques
interessantes, comme nous le verrons par la suite.
pn+1 = Pn+1 pn ,
73
ou Pn+1 est la matrice de transition, definie dans (4.7).
Pour une Chane de Markov invariante dans le temps, les matrices Pn ne dependent pas
de n: Pn = P, n. Dans ce cas, on obtient facilement
pn = P n p0 , (4.8)
A chaque pas, letat de chaque carre est modifie en fonction de son voisinage Vi,j .
Nous precisons cette notion de voisinage :
Vi,j = {(p, q), p {(i1)n , (i+1)n }{(p, q), q {(j1)n , (j+1)n }}, i = j, i = 1, . . . , n.
ou
(a)n = a, si a {1, . . . , n}, (0)n = n, (n + 1)n = 1.
Ceci defini une geometrie de doughnut dans le carre (comme si on construisait un
cilyndre en collant son cote inferieur a son cote superieur, et apres un doughnut en
collant les deux frontieres circulaires ensemble).
Avec cette definition, letat de chaque carre est determine de la facon suivante. Pour
chaque site (i, j) on choisit (avec egale probabilite) un element (p, q) Vi,j de son
voisinage, et le carre Xk+1 (i, j) prend la couleur Xk (p, q):
Ce modele est assez facile a simuler, mais lanalyse de sa matrice de transition est
difficil (Essayez de specifier cette matrice, meme pour le cas simple de K = 2 (image
2
binaire) et n = 3. Notez que dans ce cas la dimension de lespace detats est K n =
9
2 = 512!). La Figure 4.1 illustre la configuration initiale X1 et les configurations
dune realisation de cette Chane pour n = 1, 30, 31 and 80.
Vous pouvez constater que cette Chane tends vers un des k etats ou tout le tableau
a la meme couleur (etats absorbants de la Chane). 4
74
X1 X30 X31 X80
1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
5 5 5 5
6 6 6 6
7 7 7 7
8 8 8 8
9 9 9 9
10 10 10 10
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figure 4.1: Evolution de letat du modele de lexemple 1, pour k = 1, 30, 31, 80.
(les tableaux de couleur constante). Tous les autres etats sont transitoires.
Le diagramme de la Figure 4.2 illustre cette partition des etats, et le sens des matrices
Q et R.
75
Q
'$
R Xt
&%
'$
Xa
&%
Figure 4.2: Structure dune Chane de Markov absorbante.
Ceci veut dire que la Chane peut transiter, avec probabilite non-nulle, de Xn = xj vers
Xn+k = xi , pour nimporte quel pair detats (xi , xj ) X 2 . Nottez que le nombre de
pas k peut dependre du pair delements (xi , xj ) X 2 de depart et darrive consideres.
Ceci exclue, bien evidement, la possibilite de lexistance detats absorvents.
76
Definition 14 Chane fortement connectee (ou reguliere)
Sil existe un k tel que
k
P ij > 0, i, j {1, . . . , m},
Dans cette derniere definition, la valeur de k est la meme pour tous les pairs (xi , xj )
X 2 . Notez que si une chane est reguliere alors elle est necessairement ergodique :
regularite ergodicite
mais linverse nest pas vrai. Toute matrice de transition qui ne contient pas de zeros
define une chane reguliere (et donc ergodique).
Si = ou = 0, la Chane nest pas connectee (il existe un etat qui ne peut pas etre
atteint a partir de lautre etat).
Pour 6= 0 et 6= 0, la Chane possede la distribution stationnaire suivante:
" #
= + .
+
Si = = 1, la Chane est connectee, mais elle nest pas fortement connectee (en
effect, elle est periodique, de periode egale a 2) :
0 1 1 0
P 2k+1 = P 2k =
1 0 0 1
77
Demonstration
Soit mj le nombre minimal de pas pour que la chane puisse passer a un etat absorbant
x Xa a partir de letat j:
Soit pj la probabilite pour que la chane ne soit pas absorbee en mj pas a partir de letat
j: X m
pj = 1 Pij j < 1,
iXa
m = max mj , p = max pj .
jXt jXt
De la meme maniere,
et donc
lim Pr { pas absorbee en im pas } 0.
i
Comme
et donc
lim Qn = 0.
n
78
Demonstration
Nous constatons dabord que I Q est une matrice inversible, en montrant que son
espace nul ne contient que le vectuer zero :
(I Q)x = 0 x = 0. (4.12)
x = Qx x = Qn x.
lim Qn x = 0 x = 0.
n
La seule solution de (4.12) est donc le vecteur nul, et la matrice I Q possede une
inverse, que nous designons par N = (I Q)1 .
et donc
I + Q + Q2 + + Qn = N (I Qn+1 ),
ce qui implique
n
X
lim Qi = lim N (I Qn+1 ) = N, (4.13)
n n
i=0
La distribution statistique des variables `ij (k) est deduite de la distribution de letat de
la chane a linstant k:
Pr {Xk = i|X0 = j} , `=1
Pr {`ij (k) = `} =
Pr {Xk 6= i|X0 = j} , `=0
79
cest a dire,
Qkij , `=1
Pr {`ij (k) = `} =
1 Qkij , ` = 0
Comme ils sagit de variables aleatoires binaires dans {0, 1}, il resulte imediatement
Lesperance du nombre de fois que la chane passe par letat xi jusqua linstant k a
partir de letat xj a linstant zero est donc
X X X p
E {Nij (k)} = E `ij (p) = E {`ij (p)} = Qij
pk pk pk
En prennant la limite k :
X
lim E {Nij (k)} = Qpij = Nij .
k
p=0
Lemme 2 Contraction
Soit P une matrice stochastique de dimensionm m avec toutes les composantes
differentes de zero (et donc correspondante a une chane fortement connectee, ou
reguliere). Soit d sa plus petite composante:
d = min Pij .
i,j
Alors
Mz mz (1 2d)(My my ) (4.14)
Ce Lemme affirme que les elements de z = yP sont plus proches les uns des autres
que ceux de y.
Demonstration
80
sont des moyennes des composantes du vecteur y, avec des poids ({Pji }m j=1 ) qui
sont donnees par les colonnes de P . Nous allons determiner des bornes (inferieure
et superieure) pour ces moyennes.
La moyenne la plus grande, Mz , est obtenue pour un vecteur y qui a toutes ses
composantes egales a la valeur maximale (My ) et une seule composante (la k-eme)
egale a la valeur minimale (my ), et quand cette derniere composante est multipliee par
la plus petite entree de P . Nous avons donc, dans ces conditions :
X X
Mz dmy + My Pij = dmy + My Pij = dmy + (1 d)My My
i6=k i
ou nous avons utilise le fait que la somme de tous les elements dune colonne sauf le
k-ieme est egale a 1 d, et la derniere inegalite decoule du fait que my My .
La valeur la plus petite possible, mz , est obtenue dans la situation inverse : tous
les les elements sauf un sont egales a la valeur la plus petite (my ) et la valeur la plus
grande (My ) est multipliee par d:
mz dMy + (1 d)my my
ou la derniere inegalite est justifiee par le fait que My my (la moyenne dun en-
semble (mz ) est necessairement superieure ou egale a la valeur la plus petite dans
lensemble). De ces deux inegalites nous pouvons deduire la relation (4.14)
81
Comme P est une matrice stochastique, la somme de toutes ses colonnes est egale
a 1:
1T P = 1,
ce qui montre que 1 est effectivement un vecteur propre (a gauche) de P avec valeur
propre unitaire.
La decomposition de limn P n donnee dans le theoreme implique
P wm = wm P w = w,
ce qui montre que : (i) w est un vecteur propre (a droite) de P ; (ii) w est la distribution
stationnaire associee a la matrice de transition P .
Nous avons donne un sens plus precis aux vecteurs w et 1 qui interviennent dans
lennonce de ce theoreme. Nous allons maintenant le demontrer.
Soit y un vecteur (ligne) de dimension m, et, comme dans le Lemme 2, pour z (n) =
yP n , soient
(n) (n)
Mzn = max zi , mnz = min zi .
i i
Le meme argument que nous avons utilise pour demontrer le Lemme 2 nous permet
daffirmer
Mz1 Mz2 m1z m2z .
Ces sequences monotonnes sont encadrees par les valeurs minimales et maximales de
y:
My Mzn mnz my
et donc elles possedent une limite quand n . Soient
ce qui implique
Mzn mnz (1 2d)n (My my ).
82
Pour m 2 (pour m = 1 le theoreme est trivial), nous avons necessairement d 1/2,
et donc 1 2d 1, ce qui implique
lim Mn mn = 0.
n
Ceci veut dire que les composantes de yP n tendent toutes vers la meme valeur, egale
a m = M .
Prenons maintenant
y = ei ,
le vecteur (ligne) de dimension m avec toutes les composantes egales a zero sauf la
i-eme. La limte limn yP n est dans ce cas egale a la ligne i de P = limn P n .
Nous venons donc de demontrer que cette ligne tend vers une valeur constante Pi .
Comme ceci doit etre vrai pour toutes les lignes de la matrice, nous pouvons conclure
que P n est effectivement une matrice de rang unitaire.
Comme les elements de limn P n sont des probabilites, Pi est necessairement
positive. Comme limn P n est une matrice stochastique, elle possede une valeur
propre (a gauche) egale a 1, et elle doit donc pouvoir secrire dans la forme dyadique
lim P n = w1T
n
lim P n = 1T .
n
lim pn = .
n
Demonstration(1)
Soit p0 la distribution initiale de de la Chane. Sa distribution a linstant n est
pn = P n p0 .
83
Lapplication du Theoreme precedant conduit directement au resultat pretendu:
lim pn = lim P n p0 = 1T p0 = .
n n
Demonstration(2)
Soit Xn X une chane de Markov avec matrice de transition P et distribution initiale
p0 , et Yn X une autre chane, avec la meme matrice de transition, mais initialisee
avec la distribution stationnaire . Formons la chane Zn X X :
Xn
Zn = .
Yn
Les deux chanes sont evoluees de maniere independante, de facon que les elements de
la matrice de transition de Zn (de dimension m m, sont des produits des entrees de
P . La regularite de P implique donc la regularite de Zn , et donc la nouvelle chane
peut atteindre nimporte quel etat z X 0 = X X dans un nombre fini de pas. Soit
T ? linstant de premier passage de Zn sur la diagonale de X 0 , cest a dire, un etat de
la forme (i, i), i {1, . . . , m}. Il peut etre demontre que
lim Pr {T ? > n} = 0.
n
(application de linegalite de Chebychev Pr{T ? > n} E[T ? ]/n, avec le fait que le
temps moyen pour aller dans un etat, E[T ? ], est fini).
Pour n > T ? ,
p(Xn = j|n T ? ) = p(Yn = j|n T ? ).
Comme
p(Xn = j) = p(Xn = j|n T ? )Pr {T ? n} + p(Xn = j|n < T ? )Pr {n < T ? }
nous obtenons
lim p(Xn = j) = lim p(Xn = j|n T ? )Pr {T ? n}
n n
= lim p(Yn = j|n T ? )Pr {T ? n} = j ,
n
84
4
= P .
Nottez que ce resultat est valable meme dans le cas ou la Chane nest pas stationnaire
(elle nest pas initialisee avec la distribution stationnaire).
85
Nous presentons ici une inegalite qui est souvent utilisee pour demontrer des inegalites
en Theorie de lInformation.
Demonstration
Basee sur le fait que t log t est une fonction convexe, et donc, par linegalite de Jensen:
Dans cette section nous avons caracterise le comportement asymptotique des Cha-
nes de Markov regulieres, demontrant, en particulier, lexistence dune distribution
stationnaire asymptotique (Theoreme 5) , et etablissant une expression pour leur taux
dentropie H (Theoreme 7), qui indique la longueur des codes optimaux. La sec-
tion suivante presente le lalgorithme de Lempel-Ziv, qui est un exemple de codeur
universel, atteignant la longueur de code optimale sans connaissance du modele prob-
abiliste de la source.
1 0 11 01 010 00 10.
86
Chaque nouvelle phrase est de la forme w b, ou w est une phrase trouvee precedemment,
et b un bit b {0, 1}. Nous pouvons alors la decrire par le pair (i, b), ou i est lindex
de w (ou pointer):
w b (i, b). (4.18)
Pour la sequence de lexemple precedent, nous obtenons
u
@
@
0 @ 1
@
@
j @ j
2 1
A A
0 A1 0 A1
A A
A A
A j A j
6j 4 7j 3
0
5j
Soit c(xn ) le nombre de phrases dans la sequence xn (le nombre de noeuds dans
larbre qui represente le dictionnaire). La description de chaque phrase yi requiert un
nombre de bits
87
Lemme 4 Nombre maximal de phrases
Le nombre de phrases distinctes dans une sequence de longueur n satisfait
n
c(xn ) , (4.19)
(1 n ) log n
ou n 0 quand n . 4
en constatant que les deux expressions satisfont lequation de recurrence suivante, avec
la meme condition initiale :
nk = nk1 + k 2k , n1 = 2.
nk(n) n nk(n)+1 ,
88
nk(n)
+
k(n) 1 k(n) + 1
nk(n) +
k(n) 1
n
= ,
k(n) 1
ou nous avons utilise (4.22).
Comme
Allors,
n
k(n) + 2 log k(n) 1 log n log(log n + 2) 3
log n + 2
log(log n + 2) 3
= 1 log n
log n
log(2 log n) + 3
(pour n 4) 1 log n
log n
log log n + 4
= 1 log n = (1 n ) log n
log n
ou
log log(n) + 4
n = min 1, ,
log n
ce qui, utilise en (4.23) complete la demonstration du Lemme 4.
89
Nous allons borner le taux du code de Lempel-Ziv par le taux dentropie de lappro-
ximation de Markov dordre k de la loi de la source, pour toutes valeurs de k. Comme
celle-ci converge vers le taux dentropie de la source ergodique quand k , nous
pouvons ainsi demontrer loptimalite de lalgorithme de Lempel-Ziv.
yi = xi+1
i
1
.
Pour i = 1, . . . , c, soient
si = xii 1
k ,
lensemble de bits qui determine xi selon le modele de Markov Qk : les k bits qui
precedent yi (voir diagramme). Soit c`s le nombre de phrases yi de taille ` qui sont
precedees par la sequence s, pour ` = 1, 2, . . . et s X k . Alors
X X
c`s = c (le nombre total de phrases), `c`s = n (le nombre total de bits).
`,s `,s
x1 x2 1 xi k xi 1 xi xi+1 1 xc xn
y1 si yi yc
Le Lemme suivant donne une borne pour la probabilite dune sequence basee son
decoupage en phrases.
Demonstration
c
X
log Qk (xn1 |x0k+1 ) = log P (yi |si )
i=1
X X
= log P (yi |si )
`s i : |yi |=`,si =s
X X 1
= c`s log P (yi |si )
c`s
`s i : |yi |=`,si =s
90
X X 1
c`s log P (yi |si )
c`s
`s i : |yi |=`,si =s
Lemme 7
Pour toute sequence binaire x {0, 1} ,
Demonstration
Pour simplifier la notation, nous utilisons dans cette demonstration c pour designer
c(xn ).
De linegalite du Lemme 5
X c`s c
log Qk (xn1 |s1 ) c`s log
c
`,s
X c`s c`s
= c log c c log (4.24)
c c
`s
Soient X X
c`s n
`,s = , `,s = 1, ``,s = .
c c
`,s `,s
91
Soient U et V des variables aleatoires telles que
Pr {U = `, V = s} = `,s
Alors,
n
E {U } = .
c
et de (4.24)
1 c c
log Qk (xn1 |s1 ) log c H(U, V ), (4.25)
n n n
ou encore
c 1 c
log c log Qk (xn1 |s1 ) + H(U, V ), (4.26)
n n n
Par le Lemme 6,
Nottons que
log log n
k (n) = O 0 (quand n )
log n
independamment de xn1 et de P Pk . Lutilisation de ce resultat en (4.26) implique
c 1
log c log Qk (xn1 |s1 ) + k (n),
n n
92
pour tout P Pk , et donc, en particulier
c 1
log c log max Qk (xn1 |s1 ) + k (n),
n n P Pk
Theoreme 8
Soit `(xn ) la taille du code produit par lalgorithme de Lempel-Ziv pour une source
stationnaire et ergodique xn . Alors, pour tout xn {0, 1}n ,
1 1
lim sup `(xn ) lim lim sup log max Qk (xn1 |s1 )
n n k n n P Pk
Demonstration
Consequence imediate du fait que
`(xn ) c(xn )(log c(xn ) + 2),
et donc
1 c(xn ) log c(xn ) c(xn )
lim sup `(xn ) lim sup +2
n n n n n
et que, par le Lemme 4
c(xn )
lim sup = 0,
n n
donc :
1 c(xn ) log c(xn )
lim sup `(xn ) lim sup .
n n n n
Par le Lemme 7,
c(xn ) log c(xn ) 1
lim sup lim sup log max Qk (xn1 |x0k+1 )
n n n n P Pk
93
Demonstration
Nous avons vu que pour des sources ergodiques (eq. (4.23))
1 j1
lim log Qk (xn1 |x1
k+1 ) = H(Xj |Xjk )
n n
et, pour des sources stationnaires,
Nous avons montre que le nombre de bits par symbole source utilise par le code de
Lempel-Ziv ne depasse pas (assymptotiquement) le taux dentropie de la source. Le
code de Lempel-Ziv est un exemple simple de codeur universel, qui atteint un com-
portement (asymptotiquement) optimal sans avoir besoin de connatre la distribution
statistique de la source.
References
1. J. Ziv, A. Lempel, A universal algorithm for sequential data compression, IEEE
Trans. Inf. Th., Vol IT-23, pp 337:343, May 1977,
2. J. Ziv, A. Lempel, Compression of individual sequences via variable rate coding,
IEEE Trans. Inf. Th., Vil IT-24, pp 530:536, Sept. 1978.
3. A. Lempel, J. Ziv, On the complexity of finite sequences, IEEE Trans. Inf. Th.,
Vol IT-22, pp 75:81, Jan. 1976.
94
Thorie de lInformation
Notes de Cours (part 5)
2006-2007
SIC-SICOM
Maria-Joo Rendas
19 novembre 2006
2
Table des matires
6 Identification de modles :
le principe de longueur de description minimale (MDL) 95
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2 Apprentissage (de modles) comme compression de donnes . . . . . 98
6.3 Codes et lois de probabilit . . . . . . . . . . . . . . . . . . . . . . . 100
6.4 MDL (codage en deux parties) . . . . . . . . . . . . . . . . . . . . . 103
6.4.1 Complexit de Kolmogorov MDL "Idal" . . . . . . . . . . . 103
6.4.2 Codage en deux parties . . . . . . . . . . . . . . . . . . . . . 104
6.5 Codeurs universels et MDL (codage en une partie) . . . . . . . . . . 107
6.5.1 Maximum de Vraisemblance Normalis comme Modle Uni-
versel Optimal . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.5.2 MDL (codage en un partie) et complexit stochastique . . . . 112
6.6 Approximations de la complexit stochastique . . . . . . . . . . . . . 113
6.6.1 Maximum de Vraisemblance Gnralis . . . . . . . . . . . . 113
6.6.2 MDL et Compression . . . . . . . . . . . . . . . . . . . . . . 114
6.6.3 Interprtation gomtrique . . . . . . . . . . . . . . . . . . . 114
6.6.4 Interprtation Bayesienne . . . . . . . . . . . . . . . . . . . 117
6.6.5 Interprtation prdictive . . . . . . . . . . . . . . . . . . . . 118
6.7 MDL Gnral pour la slection de modles paramtriques . . . . . . . 120
6.7.1 Complexit paramtrique infinie . . . . . . . . . . . . . . . . 120
6.7.2 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
3
94
Chapitre 6
Identification de modles :
le principe de longueur de
description minimale (MDL)
6.1 Introduction
Le problme didentification de modles peut tre formul comme celui de choi-
sir une parmi plusieurs explications alternatives pour un ensemble de donnes x(n) (en
nombre n limit, en toute situation pratique). Dans ce Chapitre, nous exposons une m-
thode pour lidentification de modles connue par le nom de "principe de description
minimale" ou encore par lacronyme MDL (de langlais Minimum Description Length).
Ses premires versions ont t proposes par N. Rissanen dans les annes 1970 [2], et
btissent sur les travaux dautres chercheurssur la thorie de la complxit (notamment
le chercheur russe Kolmogorov [3]) qui datent des annes 60. Cette mthodologie est
base sur deux ides fondamentales :
1. Apprendre un modle pour le systme qui a engendr les donnes observes
consiste dtecter les rgularits prsentes dans lensemble observ. Liden-
tification de modles est une tche dapprentissage, o lobjectif est de capturer
tant que possible les rgularits des donnes, et, donc, tre capable de trouver sa
description la plus simple : sparer ce qui est structure de ce qui est accidentel
(bruit).
2. Les rgularits des donnes (lensemble de rgles, ou proprits, qui cet en-
semble satisfait) peuvent tre exploites pour les comprsser, cest dire, pour
les dcrire (exactement) avec un nombre de symboles minimal (infrieur celui
qui dcrit les observations). Un modle correspond donc un langage pour d-
crire les donnes. Dans le cas de modles dcrits par des familles de distributions
de probabilit (hypothses composes dans la terminologie des tests de dcision
statistique), un bon modle doit correspondre un codeur universel pour les
donnes dans la famille considre.
95
Ces deux observations restent valables indpendament de considrations sur lexis-
tence dun vrai modle probabiliste qui aurait engendr les donnes observes. Lap-
proche du MDL se distingue dune manire fondamentale, sur ce point particulier, des
approches statistiques classiques o ce vrai modle (probabiliste) est un ingrdient
fondamental (comme lapproche Bayesienne, o la distribution a priori est cense tra-
duire notre connaissance sur lidentit de ce vrai modle). Les diffrentes distributions
dans un mme modle correspondent des diffrentes ralisations des mmes rgula-
rits structurelles. Bien que nexcluant pas le type de modles "signal + bruit, pour
le MDL le bruit est le nombre de bits ncessaires pour identifier la squence observe
laide dun modle qui contraint ses rgularits. Un modle avec un niveau de bruit
lev implique uniquement que les donnes ne sont pas compressibles avec le modle
considr. Pour le MDL, linfrence est base uniquement sur les donnes observes.
Une procdure dinfrence statistique est consistante si elle identifie la vraie hypo-
thse avec probabilit 1 (asymptotiquement, pour un nombre de donnes n trs grand).
Bien que le MDL ne dpende pas, comme nous venons de le dire, de considrations sur
lexistance de cette vraie distribution, il est important que, si jamais les donnes sont
une ralisation dune des distributions contenues dans les modles considrs, cette
distribution soit correctement identifie. Comme nous le verrons, le MDL est consis-
tant.
96
F IG . 6.1 William Occam.
97
ce critre.
Ce Chaptre est organis de la faon suivante. Dans la Section 6.2 nous motivons
le problme dappretissage dun modle pour un ensemble dobservations comme une
recherche du langage (code) qui les dcrit de la manire la plus compacte. Dans la sec-
tion 6.3 nous rappelons les relations troites entre lois de probablit et codes optimaux
qui sont la base du MDL. La section 6.4 prsente une version particulire du MDL
(codage en deux parties) qui permet une interprtation intuitive de son fonctionnement.
La section 6.5 prsente la notion de codeur universel, et propose une formulation g-
nrale du MDL base sur cette notion, qui nous conduira la dfinition de complexit
stochastique. La section 6.6 prsente des expressions asymptotiques pour la complexit
de modles paramtriques, mettant en vidence la relation du MDL avec dautres ap-
proches au problme dapprentissage de modles. Finalement, la section 6.7 discute
des gnralisations de la dfinition prcdante, nottamment pour le cas de modles
pour lesquels la complexit paramtrique est infinie.
squence
x1 001001001001001001001001001001001001001001001001001001001
x2 01110101100111000000111101110111100010011001011100011001
x3 00000000010010100010010000100000011010001000000000000001
La squence x1 est la rptition du motif 001. Elle a une structure trs simple et
peut tre dcrite dune manire efficace par la rgle (programme) suivante
crire 20 fois la squence 001. Stop.
Cette rgle est elle mme une suite de symboles (caractres) qui peuvent tre cods
avec des symboles binaires (par exemple, avec le code ASCII).
La squence x2 est une suite de 56 tirages indpendants dune loi uniforme en {0, 1}.
Elle ne possde donc pas de rgularits. Comme nous avons vu dans les Chaptres
prcdants, la squence x2 ne peut pas tre comprime car son entropie (en bits) est
gale sa longueur.
La squence x3 est moins alatoire" que la squence x2 . Nous pouvons comencer
par constater que le nombre de 0s dans cette squence (45) est beaucoup plus grand
que le nombre de 1s (11). Nous pouvons exploiter ce fait pour coder efficacement
x3 . En fait, il nexiste quun nombre fini (et beaucoup plus petit que 256 !) de squence
binaires avec 11 lments gales 1. Il est possible dordonner (par exemple par ordre
lexicographique) ces squences. Un code plus efficace pour x3 commencerait donc par
coder le nombre k de symboles 1 dans x3 (k = 11) et ensuite indiquer uniquement
lindex ik (x3 ) de la squence x3 dans lensemble de toutes les squences de taille 56
98
avec k 1s :
x3 (k, ik (x3 ))
Un exemple dune nature diffrente (et plus prs de beaucoup de cas practiques de
problmes didentification de modle), et pos par le codage des valeurs du tableau
suivant
xi yi
-5 -286.4260
-4 -160.7825
-3 -85.7549
-2 -26.8838
-1 3.9952
0 16.7044
1 7.0395
2 7.0602
3 1.1894
4 -5.0388
5 8.2898
Nous pouvons alors coder efficacement les donnes (yi , xi ) en envoyant dabord lodre
k du polynome Pk () et ses coefficients {an }kn=0 (ou ses zros) suivis de mots de
code pour les valeurs de {xi }ni=1 et pour les rsidus {i }ni=1 du modle polynomial
(diffrence entre la valeur du poynome P (xi ) et les valeurs yi ) :
{(yi , xi )}ni=1 k, {an }kn=0 , {xi }ni=1 , {i }ni=1
Si, n 1 et k n cette description des donnes doit tre plus compacte que la
description directce des donnes : nous avons exploit la relation (polynomiale) sous-
jacente tous les pairs pour les dcrire plus efficacement
99
50
50
100
150
200
250
300
5 4 3 2 1 0 1 2 3 4 5
o Csd (m) est un code auto-dlimit (self-delimited) pour lentier m, et Cm (x) est un
code de longueur constante gale m.
Le prfixe Csd (m) peut tre, par exemple, une squence de m = `(x) zros suivie dun
1:
x = 0100110; `(x) = 7 C(x) = 000000010100110,
o m = 7, Csd (7) = 00000001 et C7 (x) = 0100110.
Le dcodage de C(x) est simple : nous identifions la fin du prfixe par loccurrence du
symbole 1. Nous pouvons alors dterminer la taille m de la squence qui code x, et
donc, lextraire du message.
Considrons maintenant le codage dun entier k {1, 2, 3, . . .}. Comme k {1, 2dlog ke },
nous pouvons coder k avec un code o le prfixe Csd (m) est une squence de m =
dlog ke zros suivie dun 1.
Le nombre total de bits de ce code de prfixe pour les entiers est gal 2dlog ke + 1.
Par exemple, pour k = 21, le code sera
00000 1 10101
Le rcepteur comence par conter le nombre de 0s : 5, il sait donc que les 5 bits aprs
le 1 contiennent le code pour k.
100
o `(c(x)) est la longueur du mot de code que C associe x X . Lingalit
de Kraft nous affirme que pC est en gnral (pour des codes qui ne sont pas
complets) une distribution non-normalise (une semi-mesure), avec une masse
totale infrieure ou gale 1. Si le code est complet, alors, pC est une loi de
probabilit. Nous savons encore, du thorme de Shannon du codage sans pertes,
que le code C est optimal (il conduit une longueur moyenne de code minimale,
gale lentropie de la source H(X)) :
H = {p(X|) : } , <k , k 1.
1/2 1
p(x(n) |) = (2 det()) exp{ (x(n) )T 1 (x(n) )},
2
est un modle paramtrique, paramtr par n + n(n + 1)/2 paramtres (o nous avons
considr les conditions de symmtrie de la matrice de covariance. 4
101
Dfinition 2 Estimateur du Maximum de Vraisemblance
Pour un modle probabiliste H et des donnes x(n) X (n) , lestimateur du Maximum
de Vraisemblance est llment du modle qui maximise la probabilit des donnes :
Pour les modles paramtriques, ce modle est obtenue en prennant llment de H qui
est indx par lestimateur du Maximum de Vraisemblance des [aramtres :
x(n) pn n p? , x(n) X n
nous avons
lim pM V (x(n) ) = p? ,
n
lim M V (x(n) ) = ? .
n
Nottez que la consistance est une proprit asymptotique, elle concerne le comporte-
ment des estimateurs pour un grand nombre n de donnes : avec probabilit 1, lesti-
mateur tend vers la vraie mesure qui a engendr les donnes.
Dans ce cas, le modle est indx par sa distribution initiale p(xk1 ) avec k (m 1)
paramtres, et par une matrice de transition de dimension (mk 1) (mk 1).
Le modle de Markov binaire (m = 2) dordre k avec X = {0, 1}, demande donc un
102
total de k + (2k 1)2 paramtres.
Il peut tre vrifi facilement que pour une chane de Markov dordre k = 1
h i nij
PM V (x(n) ) = , (6.1)
ij n
o nij est le nombre de fois que le symbole i est prcd par le symbole j dans la
squence x(n) . 4
Il est paramtr par un seul paramtre [0, 1], qui est la probabilit doccurrence
dune des valeurs de X :
n o n
Y
B = p(x(n) |) : [0, 1] , p(x(n) |) = p(xi |) = n1 (1 )nn1 ,
i=1
o n1 est le nombre de 1s dans la squence x(n) . Il est ais de vrifier que pour le
modle de Bernoulli
n1
M V (x(n) ) = .
n
4
103
dune grande puissance formelle. Cependant, il est possible de dmontrer quil nexiste
pas un programme qui puisse la dterminer : la complexit de Kolmogorov nest pas
calculable, ce qui ne permet pas la considrer comme la base dune mthode (pratique)
didentification.
Nanmoins, certains auteurs [6] ont propos une version idale du principe MDL, en
considrant le choix du modle dans lequel la complxit de Kolmogorov serait la plus
petite.
Nous allons nous intresser des versions pratiques du principe du MDL, et donc
des mthodes de description qui soient calculables. Le prix payer sera que nous de-
vrons abandonner les langages de programation gnriques, pour passer considrer
la complexit dun message par rapport un ensemble de langages (une encyclop-
die), et la complexit du message ne sera plus une proprit intrinsque du message.
Certaines squences rgulires ne seront pas comprimes.
o LH (x) est la longueur du mot dun code optimal pour les donnes x correspondant
au modle H. 4
Les deux faits que nous avons tabli dans la Section prcdante justifient lassocia-
tion de lensemble dhypothses probabilistes H dans la dfinition 5 avec un ensemble
de lois de probabilit (et donc de codes). La dfinition suivante prcise une interprta-
tion possible de la notion de "codage optimal avec un modle" utilise dans la dfinition
informelle 5.
o L(H) est la taille ncssaire pour dcrire lhypothse, et L(x(n) |H) le nombre de
bits ncessaire pour coder les donnes davec lhypothse (code) H. 4
104
Le premier terme dans lquation (6.2) est la longueur de description de lhypothse H.
Le deuxime terme est la longueur de description des donnes x(n) laide de lhypo-
thse H, et est une mesure de lajuste du modle aux donnes. Remarquons que cette
version en deux parties du MDL rend explicite lide de chercher un quilibre entre
la complexit du modle utilis (modles plus complexes demandront un L(H) plus
grand), et lajuste des modles aux donnes x(n) (plus les donnes seront plausibles
(probables) dans le modle, plus petite sera la longeur de son code).
La dfinition prcdante laisse sans rponse deux questions :
1. Comment dtermine-t-on L(H) ?
2. Comment calculer L(x(n) |H) ?
105
Exemple 3 Un test du MDL pour les modles de Markov
Nous pouvons dcrire un modle de Markov (binaire) dordre k en indiquant en premier
k
lieu la valeur de k, suivie de la valeur du paramtre [0, 1]2 :
H H(k) (k, ).
Lentier k peut tre cod avec le code prsent page 100, qui demande 2dlog ke + 1
bits :
L(k) = 2dlog ke + 1.
Pour coder le paramtre , nous devons indiquer les valeurs des 2k probabilits p1i ,
pour que le symbole 1 soit prcd par la i-me squence si de k symboles binaires,
si {0, 1}k , (cela dtermine la probabilit pour que le symbole 0 soit prcd par la
mme squence : p0i = 1 p1i ).
Nous remarquons maintenant que nous pouvons restreindre lensemble H(k) de tous
0
les modles de Markov dordre k n sous-ensemble discret fini H(k) . En fait, unique-
ment les modles qui peuvent tre identifis partir dune squence de taille n sont
pertinents, ce qui implique que les probabilits p1i soient de la forme de lquation
(6.1), page 103, o, ncessairement
Construire un code qui associerait des mots de code des hypothses qui ne corres-
pondent pas des estims possibles aurait conduit une valeur suprieure pour L(H)
sans que les valeurs correspondantes de L(x(n) |H) puissent tre plus petites.
Le critre pour choisir le modle de Markov (lordre et les paramtres) est donc la
solution de
106
6.5 Codeurs universels et MDL (codage en une partie)
La Section prcdante a illustr lapplication du principe du MDL avec une ap-
proche de codage en deux parties : codage de lhyopthse (avec L(H) bits) suivie du
codage des donnes dans lhypothse (avec log pH (x(n) bits).
Cependant, le choix du codage effectu est heuristique, et nidentifie pas dune faon
formelle le code qui doit tre associe un modle probabiliste H. Nous allons intro-
duire la notion codeur universel dans une classe de modles, qui permet de dpasser ce
problme.
Nottons que si la squence x(n) est une ralisation dune des hypothses dans H, alors
ce limite est gal au taux dentropie H(X). 4
Nous remarquons que cette dfinition de code universel correspond une notion de
code universel ponctuel, cest dire, la proprit (6.3)est vrifie pour toutes les s-
quences x(n) . Dans le Chaptre prcdant nous avons prsent, dans le contexte de
ltude de lalgorithme de Lempel-Ziv, une notion de code universel qui est base sur la
longueur moyenne des mots de code.
Les deux exemples suivants montrent que les codes en deux parties sont des codes
universels.
107
en utilisant un code uniforme en {1, . . . , 9}, avec donc dlog 9e bits. Le message x(n)
est ensuite cod avec le code Bi? , ce qui demande
Li? = log p x(n) |B(i? ) = LB(i? ) (x(n) )
qui est la limite atteinte par le meilleur code pour x(n) dans le modle H, et que le code
prsent est donc universel pour le modle considr. 4
Dans cet exemple nous avons utilis un code uniforme pour coder les lments H
H (lindex i? de lexemple prcdant), ce qui correspond admettre une distribution
uniforme pour toutes les hypothses H du modle H. Autres choix seraient possibles.
Cependant, ce choix minimise la redondance du code dans le pire cas (le cas o la vraie
hypothse reoit le mot de code le plus long pour la distribution admise).
Exemple 5 Modle avec un ensemble dnombrable dhypothses
Considrons maintenant le cas dun modle avec un nombre infini dhypothses :
H = {H1 , H2 , . . .}.
Un codage en deux parties pour ce modle peut tre obtenu, dune faon analogue
lexemple prcdant, en considrant le codage de lindex i? avec le code pour les
entiers que nous avons introduit page 100, qui demande 2dlog ke + 1 bits pour coder
lentier k. Nous devons donc maintenant choisir
n o
i? = arg inf 2dlog ie + 1 + LHi (x(n) ) ,
i=1,2,...
et donc n o
L(x(n) ) = inf 2dlog ie + 1 + LHi (x(n) ) .
i=1,2,...
Contrairement au cas prcdant, nous ne pouvons plus borner par une constante la
redondance de ce code par rapport au code qui atteint la longueur de code minimale
dans le modle H. Par contre,
1 (n) 2 log i + 1 1 (n)
lim L(x ) = lim inf log p(x |Hi ) ,
n n n i=1,2,... n n
et, si les observations x(n) sont une ralisation dune des lois de probabilit p(|Hi0 )1
dans H,
1
lim L(x(n) ) = H(pi0 )
n n
1 et si le modle correspondant est ergodique.
108
o H(pi0 ) est le taux dentropie associ la loi de probabilit correspondante la
vraie distribution des donnes. Pour cet exemple, le taux avec lequel le nombre de bits
par symbole approche le taux dentropie de la source nest plus constant comme pour
lexemple prcdant. 4
Lassociation entre codes et lois de probabilit nous permet dassocier aux codes
utiliss pour dcrire le modle (avec des longueurs de code L(H)) des lois de probabi-
lit dfinies dans lensemble des hypothses contenues dans H
p(H) = 2L(H) , H H,
tablissant ainsi un pont entre le codage MDL en deux parties et lapproche Baye-
sienne. Lexemple suivant illustre cette relation, montrant que les marginales de Bayes
sont aussi des modles (codes) universels.
Il est immdiat que p(x(n) |H, W ) est un modle universel pour H. La longueur du
code correspondant est :
Et donc
1 (a) 1
limLH,W (x(n) ) lim log W ()p(x(n) |) (6.5)
n n n n
1
lim max log W () + log p(x(n) |)
n n
o (a) est vraie pour tout choix de dans le membre droit. Ceci dcoule du fait que
tous les termes de la somme sont non-ngatifs, et de la monotonicitt du logarithme. Si
nous nottons 0 la valeur de correspondante ce maximum,
1 1
lim LH,W (x(n) ) lim log p(x(n) |0 ) = H(p(|0 )) ,
n n n n
car, parce que W (0 ) est une constante indpendante de n,
1
lim log W (0 ) = 0.
n n
109
Ceci dmontre que la distribution de mlange Bayesienne de lquation (6.4) conduit
un code universel pour les donnes. Elle est donc un exemple de modle universel
(pour le modle H). Une analyse de lquation (6.5) nous montre que le code universel
de Bayes est suprieur au codage en deux parties avec un code L(H) driv de la
distribution a priori W . Dans ce dernier cas, nous serions conduits une longueur de
code
min log p(x(n) |) + log W (),
(n)
qui, sauf pour le cas o p(x |) = 0, 6= 0 , est strictement suprieur la valeur
dans le membre gauche de (6.5), correspondante au modle de mlange. 4
Cette pnalit est la diffrence entre (i) la taille du code associ P , et le (ii) nombre
de bits ncessaire pour coder les observations avec le meilleur code dans le modle H.
Pour le cas de modles paramtriques, H = {p(|) : },2
PP ,H,x(n) = log P (x(n)) ) + log p x(n) |M V (x(n) ) . (6.6)
Avec cette dfinition, nous pouvons dj constater quune loi P sera un modle (code)
universel pour le modle H si pour toute squence x(n) la pnalit croit plus lentement
que n
1
x(n) lim P (n) = 0.
n n P ,H,x
La notion de pnalit, qui dpend de la squence observe x(n) , ne doit pas tre
confondue avec celle de redondance, introduite dans les Chapitres prcdants, et qui
concerne le comportement en moyenne de la longueur des mots du code.
Il est intressant dtudier la pnalit pour un modle (code) universel pour H. Ce-
pendant, la valeur de la pnalit, telle quelle est propose dans la dfinition prcdante,
dpend de la squence observe x(n) . Pour certaines squences elle peut mme tre n-
gative, et en mme temps quelle prend des valeurs grandes pour dautres squences.
La dfinition suivante considre la plus grande valeur (sur toutes les observations x(n) )
2 Nous admettons ici que lestime du Maximum de Vraisemblance est bien dfinie.
110
de la pnalit pour un code P et un modle H.
La distribution dfinie en (6.8) est toujours bien dfinie quand H est un ensemble
fini. Autrement, la somme dans le dnominateur peut tre infinie, et donc P mvn nest
pas dfini.
111
De par sa dfinition, nous pouvons constater que la complxit paramtrique dun mo-
dle, C (H) est dautant plus grande que le modle H peut dcrire (avec probabilit
leve) un grand nombre de squences x(n) . Comme nous le verrons, la complexit
stochastique C(M) est lie au nombre de degrs de libert du modle M.
Nous conduisons cette prsentation dans le cadre simple de choix entre deux mo-
dles H1 et H2 , et en admettant que la complexit de ces deux modles est finie, de fa-
on que les distributions de Shtarkov correspondantes, que nous nottons P mvn (|Hi ),
i = 1, 2, sont bien dfinies. Nous reviendrons dans une section postrieure sur le pro-
blme de choisir entre un nombre infini de modles.
Dfinition 11 Principe MDL (codage en une partie)
Soient H1 , H2 des modles alternatifs pour les observations x(n) , et P mvn (|Hi ), i =
1, 2, les distributions qui minimizent la pnalit au pire cas par rapport aux modles
Hi , i = 1, 2, respectivement. Alors, le principe du MDL nous dit de choisir le modle
Hj ? pour lequel la longueur du mot de code qui est associ aux observations par le
modle universel optimal est minimale :
j ? = arg min log P mvn x(n) |Hj (6.10)
j=1,2
n o
= arg min log p x(n) |j (x(n) ) + C (Hj ) . (6.11)
j=1,2
112
4
Cette dernire expression nous donne une interprtation en deux parties de cette ver-
sion reformule du MDL : le modle optimal Hj ? ralise un quilibre
entre la capacit
de dcrire exactement les donnes (le terme p x(n) |j (x(n) ) ) et sa complexit para-
mtrique (mesure par le terme C (Hj )).
La dfinition prcdante du principe du MDL implique donc que le modle choisit
pour les donnes est celui pur lequel le code universel a le meilleur comportement
(pnalit minimale) dans le pire cas.
Le principe du MDL que nous venons de formuler, nous indique donc de prendre
le modle pour lequel la complexit stochastique des observations est minimale.
o c est une constante qui dtermine la performance du test (la probabilit des diffrents
types derreur). Souvent, une version simplifie de ces tests est applique, qui consiste
ignorer la constante c et choisir simplement lhypothse qui maximise la probabilit
des donnes. Ceci correspond, dans la perspective du MDL que nous venons dnoncer
dans la section prcdante, ngliger la complexit paramtrique de chaque modle,
C(Hi ), et pour des modles avec un nombre de degrs de libert disffrents, en gnral
113
conduit un choix systmatique du modle le plus complexe (celui qui a le plus grand
nombre de degrs de libert, et qui peut donc dcrire plus prcisment les observations
x(n) ).
Le MDL essaie de contrarier cette tendance pour choisir un modle de complexit
leve en considrant la distribution de Shtarkov, qui utlilise, comme nous avons vu,
une version normalise du Maximum de Vraisemblance. Le plus grand sera le nombre
dobservations qui peuvent tre bien dcrites par les distributions contenues dans un
modle, plus grande sera sa complexit paramtrique C(H), et donc plus le modle
doit finement dcrire les observations x(n) pour quil puisse tre choisi.
114
tions. Alors
X
C(H) = log p(x(n) |M V (x(n) )
x(n) X n
X X
= log p(x(n) |j )
j=1,...,M x(n) : M V (x(n) =j
X X
= log 1 p(x(n) |j )
j=1,...,M x(n) : M V (x(n) 6=j
X n o
= log M Pr M V (x(n) 6= j |j
j=1,...,M
log M .
Nous voyons donc que la complexit paramtrique est dans ce cas simple gale la
diffrence entre le nombre de modles dans H (M ) et la probabilt pour que les mo-
dles soient confondus. Lexistence de distributions qui peuvent tre confondues avec
une probabilit leve conduit une diminution de la complexit paramtrique (ces
distributions ne sont pas comptabilises dune faon indpendante). Pour des grandes
valeurs de n, cette probabilt derreur tend vers zro (sauf dans des cas pathologiques),
et la complexit paramtrique tend vers log M , le (logarithme du) nombre de modles
diffrentes dans H.
115
que le nombre de points dans la grille ainsi construite est gal la complexit para-
mtrique C(H), quil dsigne par complexit gomtrique. Nous pouvons donc com-
prendre le terme correspondant la complexit paramtrique dans le code universel
optimal de Shtarkov (maximum de vraisemblance normalis) comme la longueur des
mots de code pour une distribution uniforme p(i ) = 1/C(H) dans cet ensemble de
modles discernibles en H pour les observations x(n) . Le terme log p(x(n) |(x(n) ),
code les donnes comme une des squences qui correspondent llment de la parti-
tion associe au modle choisit, cest dire, les dtails des donnes.
Remarque 1
Lanalyse que nous venons de prsenter montre que pour des modles finis les codes en
deux parties avec une distribution a priori uniforme sont asymptotiquement optimales.
Comme nous lavons vu (exemple 4) la pnalit de ces codes est log M , et nous venons
de voir que pour le code universel optimal la pnalit prend asymptiquement la valeur
de log M . Cependant, pour des valeurs de n petits, et pour certaines squences x(n) ,
la probabilit derreur est non-nulle, et donc la complexit paramtrique est infrieure
cette valeur asymptotique. Le code en deux parties considre donc une pnalit qui
sera pour certaines squences, suprieure celle du code optimal en une seule partie.
4
Pour le cas plus intresssant de modles qui contiennent un nombre infini de dis-
tributions, la complexit paramtrique a une interprtation comme un quotient de deux
volumes. Cette interptation est base dans lexpansion asymptotique de la distribution
P mvn prsente dans le lemme suivant.
Lemme 1
Soit H un modle paramtrique de dimension m. Sous certaines conditions de rgula-
rit Z
k n p
C(H) = log + log det(I()) d + o(1), (6.12)
2 2
et o(1) 0 quand n . 4
116
problme didentification de modles. Le fait que MDL et BIC, pour des valeurs suffi-
sament grandes de n, conduisent la mme pnalit a conduit laffirmation (errone)
que MDL et BIC sont quivalents.
Cette famille contient un grand nombre de densits usuelles, comme les Bernoulli et
multinomiale Gaussienne, Gamma, etc.
Le premier terme de (6.12) mesure directement le nombre de degrs de libert du
modle, k. Le deuxime terme est une correction qui dpend de la forme fonctionnelle
du modle. Cest une correction qui ne dpend pas de n, et qui donc peut tre nglige
pour des valeurs de n trs grandes.
Quand les Hi sont des familles exponentielles, et sous conditions de rgularit, une
expansion de Laplace (dvelopement en srie de la fonction intgre dans lexpression
117
prcdante) conduit lapproximation suivante
k n
log p x(n) |Hi = log p x(n) |i (x(n) ) + log log w i (x(n) )
2 q 2
+ log det(I(i (x(n) )) + o(1).
Si nous comparons cette expression lquation (6.12), nous pouvons constater que
la longueur de code atteinte par ce code de Bayes diffre par une constante de la
longueur optimale log P mvn . Pour des grandes valeurs de n, les deux approches
conduiront donc au choix du mme modle.
Si nous considrons le cas particulier o les distributions a priori sont les distribu-
tions de Jeffrey (least informative prior, introduite par Jeffrey en 1946) :
p
det(I())
w() = R p , (6.15)
0
det(I(0 )) d0
nous pouvons facilement constater que (6.15) coincide exactement avec (6.12) : pour
des familles exponentielles, pour n grand, lapproche Bayesienne avec une distribution
a priori de Jeffrey est quivalente au principe du MDL.
Quand les modles Hi nappartiennent pas la famille exponentielle, lexpression
suivante est valable sous des conditions de rgularit :
k n
log p(x(n) |Hi ) = log p(x(n) |i (x(n) )) + log
q2 2
(n) ) + o(1), (6.16)
log w(|i (x(n) ) + log det(I(x
et donc
n
X
log p(x(n) ) = log p(xi |xi1
1 ). (6.18)
i=1
118
p( |xi1
1 ) construite avec les observations prcdentes. Cette pnalit sera dautant
plus petite que la valeur observe aura une probabilit leve pour ce modle condi-
tionnel. Lexpression (6.18) nous dit donc que la longueur des mots du code associ
la distribution p est la somme des pnalits pour la prdiction de chaque valeur Xi de
la squence base sur toutes les valeurs prcdentes xi1
1 (valeurs observes).
Lquation (6.17) tablit une relation entre les modles de probabilit pour des
squences x(n) et des stratgies de prdiction, qui associent chaque possible squence
passe x1i1 une loi de probabilit pour la valeur future Xi . De la mme faon, cette
quation nous permet dassocier une loi de probabilit dfinie en X n des statgies de
prdiction.
Soit maintenant H un modle paramtrique, et P un code universel par rapport au
modle H. Dans le cadre de lestimation Bayesienne, et pour des observation i.i.d., il
est bien connu que la distribution prdictive converge (quand n ), vers la distri-
bution du Maximum de Vraisemblance p(|1i1 ). Le mme comportement est obtenu
pour tous le codes universels, de faon que nous pouvons approximer les distributions
conditionnelles P (|xi1 i1
1 ) par p(|1 ) :
et donc
n
X
log P (x(n) ) ' log p(|1i1 ). (6.20)
i=1
Sous des conditions de rgularit, il peut tre dmontr que le membre droit de cette
quation peut tre crit comme
n
X k
log p(|1i1 ) = log p |(x(n) ) + log n + o(1),
i=1
2
qui diffre par une constante de lexpression (6.12), dmontrant que cette appproche
prdictive conduit asymptotiquement au mme choix que le principe du MDL. Cette
analyse nous fourni une interprtation alternative du MDL comme choisisant le modle
pour lequel lerreur de prdiction accumule est minimale.
Nous remarquons finalement que lestime en (6.20) peut ne pas tre lestime
du Maximum de Vraissemblance, pouvant tre remplace par un autre estimateur qui
converge vers lestimateur MV. Dans certains cas, comme le montre lexemple suivant,
le comportement peut mme tre suprieur.
x(n) = 0 0 1 ,
M V (x21 ) = 0,
119
impliquant que
n1 +
L (x21 ) = ,
n + 2
conduit un code universel. En effet, il peut tre dmontr que pour = 1, la distri-
bution prdictive avec cet estimateur coincide avec la distribution marginale de Bayes
relativement une distribution a priori uniforme pour . Pour = 2, nous obtenons
lestimateur Baysien pour la distribution a priori de Jeffrey pour le modle de Ber-
noulli, qui atteint (asymptotiquement) le mme comportement que le code universel
optimal (maximum de vraisemblance normalis).
120
tendue x(n) <n par hypothse dindpendance (produit des densits marginales).
Lestimateur du Maximum de Vraisemblance de la moyenne est
i
1X
(xi1 ) = xj .
i j=1
Alors, Z
C(H) = log p2 (x(n) |(x(n) ) dx(n) = ,
x(n) <+
et donc le code universel optimal nest pas dfini pour ce modle.
La matrice de Fisher pour ce modle est
1
I() = ,
2
et donc nous avons galement
Z p
det(I()) d = ,
<
et donc le mlange Bayesien pour la distribution a priori de Jeffrey nest pas dfini non
plus.
Cependant, si nous considrons que [a, b], avec a, b < , la complexit pour
ce modle limit est finie :
Z
ba
p2 (x(n) |(x(n) ) dx(n) = n.
x(n) :(x(n) )[a,b] 2
Soient alors les modles emboits suivants :
1 (x)2
HK = p2 ,K (x|) = e 22 , || K , K 0, (6.21)
2
de faon que
H = K0 HK .
Maintenant, pour chaque K, C(HK ) < , et donc les codes universels optimaux cor-
respondants, P mvn (x(n) |HK ) existent.
Nous pouvons maintenant coder les donnes avec un code en deux parties, P meta (x(n) |H),
qui code dans un premier temps la constante K, et utilise ensuite le code optimal cor-
respondant pout coder les donnes. Ce code a une longueur
n o
log P meta (x(n) |H) = min log P mvn (x(n) |HK ) + L(K) , (6.22)
K
Cette approche, base sur un codage en deux parties, est sous-optimale. La cause
de la non-optimalit est lie au fait que le code rserve plusieurs mots de code pour
121
la mme squence, une pour chaque valeur possible de K. Une alternative cette ap-
proche, qui est base dans la restriction de lespace dobservations, consiste limiter
lespace des paramtres. Dans [7] Rissanen propose une approche alternative, base
sur lutilisation dune version re-normalise du code universel optimal :
(n)
P mvn x(n) |H|(x(n) )
P rmvn (x )|H) = R
P
y (n) X n mvn
y (n) |H|(x(n) ) dy (n)
6.7.2 Sommaire
Le matriel prsent indique que si nous souhaitons appliquer le principe du MDL
pour choisir entre diffrents modles, nous devons chercher dfinir un modle univer-
sel pour lensemble de modles, qui soit capable de coder toutes les squences dune
taille donne n.
Si lensemble de modles est fini, nous utilisons une distributions a priori uniforme
pour les modles (longueur de code constante). Dans le cas contraire, la distribution
uniforme nexiste plus, et nous sommes forcs donner une prfrence certains mo-
dles sur les autres.
Quand la complexit paramtrique des modles est infinie, et donc le modle uni-
versel optimal de Shtarkov nexiste pas, nous devons dcomposer H comme lunion
de sous-modles emboits Hk , de complexit croissante en k. Un code universel pour
lensemble de modles est ensuite construit, avec une pnalit qui est proche de la
pnalit associe au sous-modle de complexit minimale qui contient lestime du
Maximum de Vraissemblance.
122
Bibliographie
[1] Vijay Balasubramanian, A geometric framework for Occams razor for inference
of parametric distributions, Princeton Physics Preprint PUPT-1588, Princeton,
NJ, USA, 1996. (http ://arxiv.org/pdf/adap-org/9601001).
[2] J. Rissanen, Modelling by shortest data description, Automatica, 14 :465 :471,
1978.
[3] A. Kolmogorov, Three approaches to the quantitative definition of information,
Problems Inform. Transmission, (1), 1 :7, 1965.
[4] Ray Solomonoff, "A Formal Theory of Inductive Inference, Part I (II), Informa-
tion and Control, Part I : Vol 7, No. 1(2), pp. 1 :22 (224 :254), March(June) 1964.
(http ://world.std.com/ rjs/1964pt1.pdf/http ://world.std.com/ rjs/1964pt2.pdf)
[5] Gregory Chaitin, On the length of programs for computing fi-
nite binary sequences, Journal of the ACM 13 (1966), pp. 547-569.
(http ://www.cs.auckland.ac.nz/CDMTCS/chaitin/acm66.pdf)
[6] Paul Vitanyi, Ming Li, Minimum description Length Induction, Bayesia-
nism and Kolmogorov Complexity, IEEE Trans. Inf. the., 46 :2, 446 :464,
2000.(http ://www.cwi.nl/ paulv/papers/mdlindbayeskolmcompl.pdf)
[7] J. Rissanen, Strong Optimality of the Normalized ML Models as Universal
Codes and Information in Data, IEEE Trans. Information Theory, vol. 47(5),
pp. 1712-1717, 2001. (http ://www.mdl-research.org/pub/bound2.ps)
123