Sunteți pe pagina 1din 42

1

1. Introducere.

Teoria informaţiei s-a impus în comunitatea oamenilor de ştiinţă şi


în special a inginerilor fixând un cadru general de abordare a problemelor
legate de comunicaţii (telecomunicaţii). Acest cadru teoretic permite
definirea şi evaluarea performanţelor precum şi a unor limite
fundamentale pentru diverse sisteme de comunicaţii. Rezultatele iniţiale
au fost obţinute de inginerul englez Claude Shannon şi au fost orientate
în a stabili modul de organizare a unui sistem de transmitere a informaţiei
pe canale perturbate astfel ca probabilitatea recepţionării unor semnale
eronate să fie mai mică decât o valoare impusă. Cum vehicularea
informaţiei este puternic dependentă de tipul şi proprietăţile canalului
utilizat a fost definită capacitatea unui canal de comunicaţii. Pentru o
corectă definire a problemelor analizate s-a introdus noţiunea de sursă
aleatoare de semnale discrete (care substituie conversia şi transmisia
semnalelor video sau audio). Aceste surse sunt în general extrem de
complexe ; prelucrarea primară în ideea transmiterii la distanţă produce
distorsiuni în raport de forma reală iniţială. Astfel de surse sunt definite
ca surse entropice.
Pornind de la lucrările de pionierat elaborate de Shannon , teoria
informaţiei a fost dezvoltată ulterior permiţând lărgirea cadrului în care
această teorie este aplicată cu succes. Domeniul de aplicabilitate este
foarte larg . În continuare vom enumera numai câteva domenii de
aplicabilitate:
 fizica statistică (termodinamică , fizică cuantică)
2

 ştiinţa calculatoarelor ( complexitatea algoritmilor , probleme de


calculabilitate)
 teoria probabilităţilor ( teorema limitei centrale)
 statistica matematică ( testarea ipotezelor statistice , teoria
informaţiei de tip Fisher , teoria estimaţiei)
 economie
 biologie
 criptografie ( securizarea transmiterii datelor)
 reţele de comunicaţii
În cadrul acestui curs vom orienta abordarea către problematica
transmiterii şi memorării datelor informaţionale.

1.2 Modelul general al sistemului de transmitere a informaţiei.

Schema cea mai generală a unui sistem de transmitere a informaţiei


este prezentată în figura 1.1

Codificator Codificator de
Sursa Modulator
de sursă. canal

Canal

Decodor de Decodor de
Receptor Demodulator
sursă canal

figura 1.1
3

 Sursa primară→ este modelată în general ca generator de semnal


aleatoriu discret sau continuu.
 Codorul de sursă→ realizează conversia semnalului dat de sursă
pentru a obţine o compactare a semnalului oferit de sursă ,
eliminând elementele lipsite de conţinut sau redundante
(compactarea semnalului iniţial).
 Codorul de canal→ realizează o conversie a semnalului astfel încât
acesta să poată fi reprodus la recepţie cu o cât mai mare fidelitate.
În general este necesară introducerea unei redundanţe pentru ca
recepţie semnalul să fie recunoscut chiar dacă acesta a fost
modificat datorită unor perturbaţii mai mult sau mai puţin
puternice ce apar pe canalul de transmisie.
 Modulatorul→ transmiterea pe canale perturbate a unor semnale de
tip ” tot sau nimic ” (impulsuri rectangulare) este puternic afectată
de zgomotele perturbatoare. În general , semnalele obţinute de la
codorul de canal sunt compuse pe o purtătoare sinusoidală
( semnalul iniţial, şi care formează intrarea în modulator modifică
unul din parametrii unui semnal sinusoidal şi care se transmite pe
canal).
 Canalul fizic→ mediu prin intermediu căruia se transmite
informaţia şi asupra căruia acţionează zgomotele perturbatoare. În
cazul nostru vom modela efectul perturbaţiilor prin probabilitatea
ca un semnal să fie recepţionat eronat de către receptor.
4

 Canalul receptor→ compus din demodulator, decodor de canal,


decodor de sursă realizează operaţii inverse în raport cu cele din
canalul de emisie.

1.3 Introducere în teoria informaţiei.

În continuare vom formula o serie de întrebări şi vom prezenta


răspunsuri într-o formă cât mai simplă în raport cu o serie de întrebări
care se impun natural în subiectul prezentat.
i) Ce reprezintă informaţia ?.
Informaţia reprezintă un mesaj aşteptat şi recunoscut de către
receptor dar incert în faza iniţială. Oricare mesaj recepţionat care
oferă rezultate cunoscute nu înlătură nici o incertitudine şi prin urmare
nu aduce nici o informaţie. Prin urmare numai eliminarea unei
incertitudini poate aduce informaţii. O astfel de abordare va conduce
la posibilitatea definirii nu numai a informaţiei dar şi a cantităţii de
informaţie care să o poată defini cantitativ.
După ce am obţinut informaţia problema care se pune este de a o
memora sau vehicula.
ii) Cum reprezentăm informaţia în ideea memorării sau
vehiculării cât mai comodă.
Cel mai eficient şi totodată natural mod de a memora sau
vehicula informaţia este introducerea unor simboluri şi a unor reguli
de concatenare a acestor simboluri. Astfel în limba română există 24
de simboluri şi prin concatenarea acestora putem transmite sau
memora oricare mesaj. Un alt exemplu, mult mai apropiat de
5

preocupările inginerului, îl reprezintă concatenarea simbolurilor 0 şi 1


(modalitate utilizată în dispozitivelor numerice de calcul sau în cazul
transmisiei de date numerice.
Totalitatea mesajelor ce pot fi formate reprezintă un dicţionar al
cuvintelor de cod. În funcţie de modul de definire, lungimea
cuvintelor de cod poate fi diferită de la un dicţionar la un alt dicţionar.
iii) Care este forma ce mai economică pentru reprezentarea
unui mesaj informaţional ?.
Considerăm cazul în care patru evenimente trebuie codate cu
ajutorul simbolurilor 0 şi 1. Dintre multitudinea de posibilităţi de
formare a unui dicţionar în tabelul 1.1 sunt prezentate două cazuri.

Tabel 1.1
Evenimen
Probabilitatea Cod1 Cod2
t
A 1/2 00 0
B 1/4 01 10
C 1/8 10 110
D 1/8 11 111

Problema care se pune este de a aprecia în ce măsură este mai


eficientă sau mai puţin eficientă reprezentarea printr-un cod sau
celălalt cod. Considerăm că probabilitatea de apariţie a celor patru
evenimente este diferită . Valorile probabilităţilor de apariţie sunt date
în tabelul 1.1. Prin urmare media biţilor de cod utilizaţi în cele două
coduri prezentate va fi:
1 1 1 1
Cod 1 → n1 = ⋅ 2 + ⋅ 2 + ⋅ 2 + ⋅ 2 = 2 biti de cod
2 4 8 8
6

1 1 1 1 7
Cod 2 → n2 = ⋅ 1 + ⋅ 2 + ⋅ 3 + ⋅ 3 = biti de cod
2 4 8 8 4

Evident, cel de al doilea cod este mai compact (mai economic) în


raport cu primul având o medie a cuvintelor de cod mai mică.
Problema minimizării lungimii medii va fi analizată ulterior.

iv) Cum poate fi măsurată informaţia ?.

Am specificat anterior că un mesaj care elimină o incertitudine


este un mesaj purtător de informaţie. Cu cât incertitudinea eliminată
este mai mare cu atât cantitatea de informaţie conţinută de acest mesaj
este mai mare. Este normal să considerăm că apariţia a două
evenimente elimină o incertitudine care reprezintă suma
incertitudinilor eliminate de apariţia fiecărui eveniment. În cazul a
două evenimente a căror probabilitate diferă foarte puţin diferenţa
dintre incertitudinile eliminate de fiecare eveniment. De exemplu
pentru două evenimente cu probabilităţi 0.20001 şi 0.19999 este
rezonabil să considerăm că informaţia este aceeaşi. Vom arăta în cele
ce urmează că numai funcţia logaritmică poate asigura proprietăţile
anterior remarcate şi poate constitui o măsură pentru informaţia
proprie.
În modul în care am abordat problema cantitatea de informaţie
este asociată fiecărui eveniment. Pentru caracterizarea globală vom
introduce o funcţie care evaluează informaţia medie a unei surse şi
care este definită ca funcţia entropie.
În exemplu anterior prezentat am arătat că evaluarea unui cod
trebuie să se bazeze pe lungimea medie a cuvintelor de cod . O
7

asemenea evaluare poate permite dimensionarea optimă a memoriei


necesare înregistrării mesajelor obţinute de la sursa primară.
În 1948 Shannon a arătat că cele două abordări ( prin lungimea
medie a cuvintelor de cod sau prin cantitatea medie de informaţie
conţinută de sursă ) sunt de fapt echivalente. Valoarea minimă pentru
lungimea medie a cuvintelor de cod este egală cu entropia sursei.
Pentru cazul prezentat entropia sursei va fi:
1 1 1 1 1 1 1 1 7
⋅ log + ⋅ log + ⋅ log + ⋅ log = biţi1
2 1/ 2 4 1/ 4 8 1/ 8 8 1/ 8 4

valoare care este identică cu valoarea de minim a lungimii cuvintelor


de cod (cazul celui de al doilea cod introdus).
În cazul în care informaţia este transmisă pe canale afectate de
zgomot (canale perturbate ) problema se va pune şi inerent va fi
soluţionată în mod diferit. Dacă pentru canale neperturbate ne
propunem exclusiv minimizarea lungimii cuvintelor de cod pentru a
asigura o eficienţă maximă transmisiei, în cazul canalelor perturbate
este necesar să asigurăm o recepţionare corectă a mesajelor transmise.
În cazul unui canal binar care operează pe simbolurile 0 şi 1 este
posibil ca datorită perturbaţiilor în recepţie 1 să fie interpretat ca 0 sau
0 ca 1. Dacă impunem transmiterea simbolului să fie repetată de un
număr de ori iar interpretarea în recepţie să fie făcută printr-o logică
majoritară probabilitatea de recepţionare a unui mesaj eronat scade
foarte mult. Prin urmare creşterea redundanţei codului creşte
fiabilitatea transmisiei dar diminuează considerabil eficienţa . Pentru
1
cazul considerat transmitem numai n
unităţi de informaţie pe simbol

1
În cadrul lucrării vom nota log subînţelegând logaritmarea în baza doi.
8

transmis pe canal. Este normal într-o astfel de situaţie să analizăm


cum putem realiza un compromis între eficienţă şi fiabilitate.
v) Fiind dat un canal perturbat cum putem maximiza
eficienţa transmisiei pentru o rată de eroare pe fiecare
simbol informaţional cât mai mică.
Reluăm exemplul anterior prezentat în care simbolurile 0 şi 1 se
transmit pe canal prin triplare simbolului informaţional. Prin urmare
0 → 000 şi 1 →111 . Considerăm că în urma apariţiei perturbaţiilor

semnalul este recepţionat corect cu probabilitatea 0.9 şi eronat cu


probabilitatea 0.1 (canal binar simetric). Un semnal va fi intercepta şi
interpretat eronat dacă sunt afectaţi doi sau trei biţi. Prin urmare rata
de eroare pentru o astfel de situaţie va fi:
C32 ⋅ ( 0.1) ⋅ 0.9 + C33 ⋅ ( 0.1) = 0.028
2 3

Problema este de a construi un cod care este mai eficient şi având


o rată de eroare mai mică,
9

2 Măsura informaţiei pentru evenimente


discrete.

În această expunere vom defini măsura informaţiei pentru


evenimente discrete printr-o abordare probabilistică. O dată stabilită
relaţia prin care definim cantitatea de informaţie, vom prezente o serie
de proprietăţi specifice utile în dezvoltările ulterioare.

2.1 Entropia , entropia cumulată şi entropia


condiţionată.

2.1.1 Informaţia proprie.

Considerăm un eveniment E a cărui probabilitate de apariţie este


Pr(E)=p(E). Vom considera I(E) ca fiind informaţia primită în cazul
apariţiei evenimentului E reprezentând şi care reprezintă informaţia
primită prim apariţia acestui eveniment. Evident că o astfel de
interpretare are un caracter subiectiv, şi în general depinde de la o
persoană la alta. Din acest motiv această informaţie mai este definită
10

ca informaţie proprie. În aceste condiţii se pune problema stabilirii


unor proprietăţi generale ale informaţiei.
i) I(E) este dependentă de Pr(E)=p(E).
Este normal să considerăm că informaţia asociată unui eveniment
E este dependentă de probabilitatea acestui eveniment →
I(E)=I(Pr(E)). Funcţia I(E) este definită pe spaţiul evenimentelor iar
I(p(E)) pe intervalul [0,1]. Este natural să considerăm că cu cât
probabilitatea evenimentului este mai mică cu atât informaţia
furnizată de acesta este mai mare. Prin urmare I(Pr(E)) este o funcţie
descrescătoare în raport cu probabilitatea Pr(E) a evenimentului
considerat.
ii) I(Pr(E)) este o funcţie continuă în raport cu Pr(E).
Introdusă axiomatic o astfel de proprietate are un caracter
natural, fiind normal ca informaţia adusă de două evenimente a căror
probabilitate diferă în mică măsură să fie similară, deci diferenţa
cantităţilor de informaţie să fie de asemenea mică.
iii) Dacă considerăm două evenimente E1 şi E 2 independente
ℑ( E1 ∩ E 2 ) = ℑ( E1 ) + ℑ( E 2 ) .

Deşi proprietatea este introdusă axiomatic este evident că


informaţia adusă prin realizarea simultană a evenimentelor este dată
de suma informaţiilor aduse separat de fiecare eveniment.
Bazaţi pe proprietăţile introduse vom demonstra că numai funcţia
logaritmică poate da o măsură a informaţiei.
Teoremă. Singura funcţie definită pe intervalul [0,1] care
satisface proprietăţile :
i. I(p) monoton descrescătoare în p.

ii. I(p) funcţie continuă pentru ∀ p ∈[0,1] .


11

iii. I ( p1 ⋅ p2 ) = I ( p1 ) + I ( p2 )
este funcţia logaritmică adică I ( p ) = −C ⋅ log( p ) unde C este o
constantă pozitivă (baza de logaritmare va fi ulterior precizată
deocamdată nefiind necesară).
Demonstraţie.
Demonstraţia teoremei va fi făcută urmărind următorii paşi:
1 1
iii) Vom arăta că pentru ∀n ∈ N ∗ ⇒ I   = −C ⋅ log  
 
n n

Conform proprietăţilor impuse:


1 1
∀n, m ∈ N ∗ cu n < m ⇒ I   < I  
n m

 1  1 1
∀ n, m ∈ N ∗ I  = I  + I 
m⋅n n m

Deducem cu uşurinţă aplicând rezultatele remarcate:


 1  1
I  k  = k ⋅ I   pentru ∀ n, k ∈ N ∗
n  n

O inegalitate cunoscută permite ca pentru r ∈ N ∗ fixat şi


∀n ∈N ∗ să determinăm k ∈ N astfel ca
n k ≤ 2 r ≤ n k +1
Utilizând inegalitatea prezentată şi ţinând cont că funcţia I (•)

este descrescătoare obţinem:


 1  1   1 
I k  ≤ I r  ≤ I  k +1 
n  2  n 

şi deci
1 1 1
k ⋅ I   ≤ r ⋅ I   ≤ ( k + 1) ⋅ I  
 
n  
2 n

1
Cum I   > I (1) = 0
n
12

1
I 
k k +1
≤  ≤
2
r 1 r
I 
n

Pe de altă parte, având în vedere monotonia funcţiei logaritmice


log n k ≤ log 2 r ≤ log n k +1

sau
k ⋅ log n ≤ r ⋅ log 2 ≤ ( k + 1) ⋅ log n

Rezultă imediat:
k log 2 k +1
≤ ≤
r log n r

Având în vedere inegalităţile prezentate, prin prelucrări


elementare obţinem:
1 
I 
log 2 1
−   <
2
log n 1  r
I 
n

Cum n este fixat, iar r poate fi ales ori cât de mare ( deci r → ∞)

rezultă:
1
I   = C ⋅ log n
n

1
I 
unde C =   >0.
2 Cu aceasta primul pas este încheiat.
log 2

ii) Vom arăta că I ( p ) = −C ⋅ log p pentru ∀ p ∈Q ( oricare p


raţional).
r
Fie numărul raţional p= r, s ∈ N ∗ . Conform condiţiilor
s

axiomatice
1  r 1  r  1
I  = I ⋅  = I  + I 
s s r s r
13

şi deci
r  1 1
I ( p) = I   = I   − I  
s s r 

Cum r, s ∈N ∗ , pe baza rezultatelor obţinute la pasul anterior


s
I ( p ) = C ⋅ log s − C ⋅ log r = C ⋅ log 
r
I ( p ) = −C ⋅ log p

iii) Rămâne să demonstrăm că relaţia I ( p ) = −C ⋅ log p este valabilă

pentru oricare p ∈[0,1] . În baza continuităţii admise

I ( p) = l i Im( a) = l i =m− C ⋅ l op g
a→ p b→ p
a r a t i o n b ra a l t i o n a l
2.1.2 Entropia.

Entropia reprezintă măsura conţinutului informaţional total al


unei surse. În continuare vom considera sursele ca o colecţie de
variabile aleatoare discrete. Vom neta simplificator, pentru un
eveniment xi ∈ X legea de probabilitate p( x = xi ) = pi . Câmpul de
evenimente discrete va fi reprezentat în forma:
x x2 ⋅ ⋅ ⋅ xn 
X =  1 
 p1 p2 ⋅ ⋅ ⋅ p n 

Definiţie. Pentru sursa X , entropia este definită în forma:


n
H ( X ) = − ∑ pi ⋅ log pi = E ( − log PX ( x ) )
i =1

Prin urmare entropia poate fi privită ca o medie a informaţiei

totale. În evaluarea entropiei vom considera 0 ⋅ log0 = 0 lim


x→ 0
( )
x ⋅ logx = 0 .
14

2.1.3 Proprietăţile entropiei

Dacă notăm cardinalul mulţimii evenimentelor X =n obţinem


următoarea inegalitate remarcabilă:
Teoremă. Dacă variabila aleatoare X definită pe setul
evenimentelor X cu n cardinalul acestei mulţimi atunci
H ( X ) ≤ log n

Demonstraţie.
n n
H ( X ) = − ∑ pi ⋅ log pi pentru care ∑ pi =1
i =1 i =1

Ne propunem determinarea distribuţiei pi i ∈1,2... n care

n
asigură entropia maximă în restricţia ∑ pi = 1 . Aplică metoda
i =1

multiplicatorilor Lagrange şi formăm lagrangiana :


n
 n 
L( p, λ ) = − ∑ pi ⋅ log pi + λ ⋅  ∑ pi − 1
i =1  i =1 
∂L( p, λ )
= − log pi − 1 + λ = 0 ∀i = 1,2...n
∂pi

Prin urmare:
− log pi =1 − λ ∀i ∈1, n

şi deci pi = p j ∀i , j . Prin urmare:


1
p1 = p 2 = .... = pn =
n

iar valoarea maximă a entropiei obţinută în cazul evenimentelor


echiprobabile va fi
n
1 1
H max = − ∑ ⋅ log = log n
i =1 n n
15

Prin urmare
H ( X ) ≤ H max = log n

Lema. Entropia H ( X ) ≥ 0 (egalitatea are loc în cazul unei surse


deterministe).
Demonstraţia este imediată.

2.1.4 Entropia cumulată şi entropia condiţionată.

Considerăm două câmpuri de probabilitate după cum urmează:


 x1 x2 ⋅ ⋅ ⋅ xn  y y2 ⋅ ⋅ ⋅ ym 
X =  şi Y =  1 
p
 1 p2 ⋅ ⋅ ⋅ pn 
  q1 q2 ⋅ ⋅ ⋅ qm 
n m
pentru care, evident pi ≥ 0, ∑ pi = 1, q j ≥ 0, ∑ q j = 1 .
i =1 j =1

Dacă evenimentele considerate sunt independente, apariţia unui


eveniment cumulat ( xk , yl ) este caracterizată de probabilitatea
nkl = p k ⋅ ql ∀k ∈1, n , ∀l ∈1, m . Evident:
n m n m n m
∑∑ nkl = ∑∑ pk ⋅ ql = ∑ pk ⋅ ∑ ql = 1
K =1 l =1 k =1 l =1 k =1 l =1

În cazul în care evenimentele sunt independente entropia


evenimentului cumulat va fi:
n m n m n m
H ( X , Y ) = −∑∑ nkl ⋅ log nkl = −∑∑ pk ⋅ ql ⋅ log pk ql = −∑ pk ⋅ log pk ⋅ ∑ ql −
k =1 l =1 k =1 l =1 k =1 l =1
n m
− ∑ pk ⋅ ∑ ql ⋅ log ql = H ( X ) + H ( Y )
k =1 l =1

Prin urmare entropia în cazul evenimentelor independente


entropia evenimentului cumulat va fi:
16

H ( X ,Y ) = H ( X ) + H (Y )

Lucrurile se schimbă dacă evenimentele sunt dependente.


Astfel, dacă fixăm evenimentul xk ∈ X apariţia unui eveniment din Y
este supusă unei probabilităţi condiţionate după schema :
y y2 ⋅ ⋅ ⋅ ym 
xk →  1 
 qk 1 qk 2 ⋅ ⋅ ⋅ qkm 

Verificăm cu uşurinţă că schema probabilistică prezentată


constituie un câmp complet de evenimente
n m n m
∑∑ pk ⋅ qkl = ∑ pk ⋅ ∑ qkl =1
k =1 l =1 k =1 l =1

Entropia câmpului de evenimente Y condiţionată de apariţia


evenimentului xk va fi:
m
H k ( Y ) = H ( q k 1 , q k 2 ,...., qkm ) = −∑ qkl ⋅ log qkl
l =1

Entropia experimentului Y condiţionată de experimentul X va fi:

H X ( Y ) = H (Y X ) = ∑ p k ⋅ H k ( Y ) = −∑∑ p k ⋅ q kl ⋅ log q kl
n n m

k =1 k =1 l =1

Revenind la entropia evenimentului cumulat:


n m n m
H ( X , Y ) = − ∑ ∑ nkl ⋅ log nkl = − ∑ ∑ pk ⋅ qkl ⋅ log pk qkl =
k =1 l =1 k =1 l =1
n m n m
= − ∑ ∑ pk ⋅ qkl ⋅ log pk − ∑ ∑ pk ⋅ qkl ⋅ log qkl =
k =1 l =1 k =1 l =1

 
= ∑ pk ⋅ log pk ⋅ ∑ qkl − ∑  pk ⋅ ∑ qkl ⋅ log qkl  = H ( X ) + H ( Y X ) ⋅
n m m n

k =1 l =1 k =1  l =1 
Prin urmare, entropia evenimentului cumulat poate fi exprimată în
forma:
H ( X , Y ) = H ( X ) + H (Y X )

Într-un mod cu totul similar putem obţine:


H ( X , Y ) = H (Y ) + H ( X Y )
17

În urma elementelor anterior prezentate putem enunţa câteva


elemente cu caracter definitoriu. Considerând evenimentul cumulat
( X , Y ) , informaţia proprie pentru perechea ( x, y ) x ∈X , y ∈Y va fi dată
de:
I ( x, y ) = −log PX ,Y ( x, y )

în care PX ,Y ( ⋅ ,⋅ ) reprezintă legea de distribuţie a probabilităţii pentru

evenimentul ( X , Y ) .
Definiţie. Definim entropia evenimentului cumulat prin:
H ( X ,Y ) = − ∑P ( x, y ) log P ( x, y ) = E [ − log P ( X , Y ) ]
X ,Y
( x , y )∈X ×Y
X ,Y X ,Y

Definiţie. Entropia condiţionată H (Y X ) se defineşte în forma:



H (Y X ) =−∑PX ( x ) ⋅ ∑ PY X
( y x ) log PY X
( y x )

x∈X  ( x ,u )∈X ×Y 

Relaţia de definiţie mai poate fi scrisă în forma :


H (Y X ) = ∑PX ( x ) ⋅ H (Y X = x ) = − ∑ PX ,Y ( x, y ) ⋅ log PY X
( y x) =
x∈X ( x , y )∈X ×Y

(
= E − log PY X
(Y X ))

2.1.5 Proprietăţi ale entropiei cumulate şi condiţionate.

Reamintim că anterior am stabilit interdependenţa dintre


entropii pentru evenimentul cumulat:
H ( X , Y ) = H ( X ) + H (Y X ) = H (Y ) + H ( X Y ) = H (Y , X )

Inegalitatea lui Jensen. Fie funcţia f ( x) : R → R o funcţie

convexă şi constantele α i ≥ 0 cu ∑ α i . În aceste condiţii:


i =1
18

n
( )  n α ⋅t 
∑i=1 i i  ∑i=1 i i 
α ⋅ f t ≥ f

Egalitatea se impune în cazul şi numai în cazul t1 = t 2 = ... = t n .

Lema.(Inegalitatea log-sum). Pentru oricare numere nenegative


a1 , a 2 ,... a n şi b1 , b2 ,... bn :
n

n
a  n

∑i=1 ai
∑i=1 ai ⋅ log bi ≥  ∑ ai  ⋅ log n
 i =1 
i
∑ b
i =1
i

Demonstraţie. Pentru funcţia convexă f ( x ) = x ⋅ log x aplică


inegalitatea lui Jensen cu :
bi ai
αi = n
si xi = ∀ i ∈1, n
bi
∑b
j =1
j

În notaţiile introduse inegalitatea Jensen devine:


   
n
bi ai ai  n bi ai   n b a 
∑ n
⋅ ⋅ log ≥  ∑ n
 ⋅ log  ∑ n
i
⋅ i

∑ b b  b   b 
 ∑b j  ∑b j
i =1
bj i i i =1 i

i =1 i

j =1  j =1   j =1 

sau
n

1 ai 1  n  ∑i=1 ai
⋅ ∑ ai ⋅ log ≥ n  ∑ ai  ⋅ log n
∑ b j  i=1  ∑ bi
n
bi
∑ bj
j =1 j =1 i =1

Simplificând elementar obţinem inegalitatea formulată.

Lema. Realizarea evenimentului Y determină o diminuare a


entropiei evenimentului X
H (X Y ) ≤H ( X )
19

cu excepţia cazului în care evenimentele X şi Y sunt independente.

Demonstraţie. Considerăm diferenţa:


H( X ) − H(X Y ) =− ∑P ( x, y ) ⋅ log P ( x ) + ( ∑
X ,Y X
PX ,Y ( x, y ) log PX Y ( x y ) =
( x , y )∈X ×Y ) x , y ∈X ×Y

PX Y ( x y ) ⋅ PY ( y ) PX ,Y ( x, y )
= ∑ PX ,Y log = ∑ PX ,Y ( x, y ) ⋅ log ≥
( x, y
) ∈X ×Y PX ( x ) ⋅ PY ( y ) ( x, y
) ∈X ×Y PX ( x ) ⋅ PY ( y )

 
∑P ( x. y ) X ,Y

≥  ∑PX ,Y ( x, y )  ⋅ log ( x , y )∈X ×Y


=0
 ( x , y )∈X ×Y  ∑P ( x ) ⋅ P ( y )
( x , y )∈X ×Y
X Y

Prin urmare:
H (X Y ) ≤H ( X )

egalitatea este posibilă în cazul evenimentelor independente.

Lema. Entropia este aditivă pentru evenimente independente:


H ( X ,Y ) = H ( X ) + H (Y )

Exemplu. Fie un experiment cumulat caracterizat de următoarea


matrice a probabilităţilor ce caracterizează un astfel de experiment :

X
1 2 3 4
Y
1 1 1 1 1
8
16 32 32
2 1 1 1 1
16 8 32 32
3 1 1 1 1
16 16 16 16
4 1 0 0 0
4
20

Distribuţia marginală pentru X este 1 , 1 , 1 , 1 ( 2 4 8


)
8 iar distribuţia

marginală pentru Y este ( 14 , 14 , 14 , 14) . Obţinem cu uşurinţă

7
entropiile celor două câmpuri de evenimente H ( X ) = biţi şi
4
H (Y ) = 2 biţi. Putem calcula :

H ( X Y ) = ∑ p( Y = i ) ⋅ H ( X Y = i ) =
4

i =1

=
1
4 2
( 4 8 8
1
4
)
⋅H 1 , 1 , 1 , 1 + ⋅H 1 , 1 , 1 , 1 +
4 2 8 8
( )
1
4 4
( 4 4 4
1
4
)
+ ⋅ H 1 , 1 , 1 , 1 + ⋅ H (1 , 0 , 0 , 0 ) =

1 7 1 7 1 1 11
= ⋅ + ⋅ + ⋅2 + ⋅0 = biti
4 4 4 4 4 4 8
13
În mod similar determinăm H (Y X ) = biti . Entropia
8

evenimentului cumulat va fi :
7 13 27
H ( X , Y ) = H ( X ) + H (Y X ) = + = biti
4 8 8

2.2 Informaţia mutuală.

Pentru două câmpuri de variabile aleatoare X şi Y informaţia


mutuală între X şi Y permite o evaluare cantitativă a reducerii
incertitudinii asupra lui Y prin cunoaşterea lui X .
Informaţia mutuală → I ( X ;Y ) = H ( X ) − H ( X Y )
Este uşor de evidenţiat faptul că informaţia mutuală este o funcţie
simetrică.
H ( X ; Y ) = H ( X ) + H (Y X ) = H (Y ) + H ( X Y )

Prin urmare:
I ( X ; Y ) = H ( X ) − H ( X Y ) = H (Y ) − H (Y X ) = I (Y ; X )
21

2.2.1 Proprietăţi ale informaţiei mutuale.


Lema ce va fi prezentată pune în evidenţă câteva proprietăţi
fundamentale ale informaţiei mutuale.
Lema.
PX ,Y ( x, y )
1. I ( X ;Y ) = ∑∑PX ,Y ( x, y ) log
x∈X y∈Y PX ( x ) ⋅ PY ( y )

2. I ( X ;Y ) = I (Y ; X )
3. I ( X ;Y ) = H ( X ) + H ( Y ) − H ( X , Y )
4. I ( X ;Y ) ≤ H ( X ) inegalitatea se transformă în egalitate numai dacă
X = f (Y ) pentru f (⋅) oricare.
5. I ( X ;Y ) ≥ 0 inegalitatea se transformă în egalitate numai dacă X

şi Y sunt independente.

Demonstraţie. Proprietăţile 1,2,3 şi 4 sunt uşor deductibile din


însăşi modul de definire a informaţiei mutuale. Cea de a cincia
proprietate este rezultatul imediat al faptului că H ( X Y ) ≤ H ( X ).

Distanţa dintre două variabile aleatoare X şi Y poate fi definită ca


diferenţa dintre entropia evenimentului cuplat şi informaţia mutuală în
forma :
D ( X ,Y ) = H ( X ,Y ) − I ( X ,Y )

Cantitatea astfel definită satisface cadrul axiomatic pentru a o


impune ca distanţă:
• D ( X ,Y ) ≥ 0

• D( X , X ) = 0
22

• D ( X ,Y ) = D ( Y , X )

• D ( X , Z ) ≤ D ( X ,Y ) + D ( Y , Z ) 2

Entropia relativă sau distanţa Kullback-Leibler între două

distribuţii p ( x ) şi q ( x ) asociate unei aceleaşi surse X se defineşte în


forma :
p( x)
DKL ( p, q ) = ∑ p ( x ) ⋅ log q
x∈X ( x)
Entropia relativă satisface DKL ( p q ) ≥ 0 . Inegalitatea devine

egalitate numai dacă p ( x ) = q ( x ) , ∀x ∈ X .3 De observat că în general

DKL ( p q ) ≠ DKL ( q p ) şi din acest motiv nu reprezintă de fapt o

distanţă. Mai este cunoscută şi sub denumirea de funcţie


discriminantă.

2.3 Caracterizarea entropică a sistemelor de transmitere de


date.

Transmiterea de date (informaţii) poate fi considerată un


exemplu particular a experimentului compus. În acest sens vom
considera :
• sursa sistemului de transmitere de informaţii ca fiind
experimentul X
reprezentat de câmpul de probabilitate ( X , x, p( x ) )
 x x2 ⋅ ⋅ xn 
X =  1 
 p ( x1 ) p( x2 ) ⋅ ⋅ p( xn ) 
2
Demonstraţia , altfel foarte simplă , poate fi făcută de cititorii interesaţi.
3
Inegalitatea lui Gibbs.
23

unde xi i ∈1, n reprezintă simbolurile alfabetului sursei iar


p( xi ) ≥ 0 probabilitatea ca să fie emis simbolul xi . În aceste

condiţii sursa va fi caracterizată de entropia :


n
H ( X ) = − ∑ p( xi ) ⋅ log p( xi )
i =1

• recepţia sistemului de transmitere a informaţiei ca fiind


experimentul Y caracterizat prin câmpul de probabilitate
(Y , y, p( y ) ) :
 y y2 ⋅ ⋅ yn 
Y =  1 
 p( y1 ) p( y2 ) ⋅ ⋅ p( y n ) 

unde y j j ∈1, n reprezintă simbolurile alfabetului di recepţie iar


p ( y j ) probabilitatea ca să fie recepţionat simbolul y j . Recepţia

va fi caracterizată de entropia:

H ( Y ) = − ∑ p ( y j ) ⋅ log p ( y j )
n

j =1

Experimentul cumulat care caracterizează transmiterea informaţiei


( X , Y ) constă în realizarea evenimentului ( x , y ) adică recepţia i j

simbolului yj dacă a fost emis simbolul xi caracterizat prin câmpul

de probabilitate ( ( X , Y ), ( x, y ), p( x, y ) ) în care ∑∑ p( xi , y j ) = 1 .
n n

i =1 j =1

Evident pentru evenimentele experimentului cumulat

∑ p( x , y ) = p( x ) şi ∑ p( x , y ) = p( y ) .
n n

i j i i j j
j =1 i =1

Entropia experimentului cumulat va fi :

H ( X , Y ) = −∑∑ p ( xi , y j ) ⋅ log ( p( xi , y j ) )
n n

i =1 j =1
24

În cazul în care transmisia se face pe un canal neperturbat ,


cunoaşterea câmpului de evenimente din recepţie permite identificarea
completă a semnalului emis ; în realitate canalele sunt perturbate încât
aproape întotdeauna va exista o incertitudine în raport cu semnalul
emis. Valoarea medie a acestei incertitudini reprezintă entropia
evenimentului X condiţionată de câmpul Y şi se notează H (X Y ) .

Pentru determinarea acestei entropii trebuie luată în considerare


probabilitatea condiţionată (
p xi y j ) care reprezintă probabilitatea ca
recepţionarea evenimentului yj să indice în emisie evenimentul xi :
p ( xi , y j )
(
p xi y j = ) p( y j )

relaţie care simplificator se notează fără indici


p ( x, y )
p( x y ) =
p( y )

O astfel de notaţie impune ca :

∑ p ( y ) = ∑ p( y )
n n

∑ p ( xi ) = ∑ p ( x )
i =1 x∈ X
si
j =1
j
y∈Y

În mod similar se poate defini probabilitatea de a recepţiona


simbolul yj atunci când se emite xi :
p ( xi , y j ) p ( x, y )
p ( y j xi ) = = = p( y x )
p( y j ) p( y )

Probabilităţile condiţionate p ( x y ) si p ( y x ) pentru oricare


x ∈X , y ∈Y înseamnă de fapt cunoaşterea canalului de comunicaţii şi
permit evaluarea entropiilor condiţionate H ( X Y ) si H (Y X ) . Entropia
condiţionată H (X Y ) dă o măsură a echivocului care se manifestă
asupra lui X când se cunoaşte Y. Din acest motiv această entropie mai
este denumită echivocaţie . Entropia H (Y X ) reprezintă incertitudinea
25

asupra câmpului din recepţie Y când se cunoaşte emisia prin câmpul X


. Din acest motiv ea este cunoscută şi ca entropie de dispersie sau
irelevanţă.
Din punct de vedere a transmisiei de informaţie cea mai interesantă
relaţie între entropii este :
I ( X ,Y ) = H ( X ) − H ( X Y )

unde I ( X , Y ) caracterizează cantitatea de informaţie medie ce trece


prin canal şi reprezintă valoarea medie a informaţiei ce se obţine
asupra câmpului de intrare (emisie ) X prin cunoaşterea recepţiei Y ;
uzual este definită ca transinformaţie.
Valoarea maximă a transinformaţiei se numeşte capacitatea
canalului , C = max [ H ( X ) − H ( X Y ) ]

relaţie în care maximizarea se va face după setul de probabilităţi cu


care se presupune că sunt utilizate simbolurile x1 , x2 ,... xn . În
relaţia prezentată capacitatea canalului se măsoară în biţi. Unii autori
definesc capacitatea canalului prin raportare la timp :
C max I ( X , Y )
Ct = =
τ τ
unde τ reprezintă durata medie a unui simbol transmis . În acest caz
capacitatea se măsoară în biţi/secundă.
Diferenţa dintre capacitatea canalului şi transinformaţie se defineşte
ca redundanţa canalului , exprimată absolut în forma:
RC = C − I ( X , Y )

sau prin valoarea relativă:


I ( X ,Y )
φC = 1 − = 1 − ηC
C
26

I ( X ,Y )
unde termenul ηC = reprezintă eficienţa canalului indicând cât
C

de mult se apropie transinformaţia de valoarea maximă.


În mod similar , se poate defini o redundanţă a sursei ca diferenţă
dintre valoarea maximă a entropiei sursei şi valoarea ei reală :
RS = H max ( X ) − H ( X )

sau în valori relative :


H(X )
φS = 1 −
H max ( X )

Presupunând că simbolurile unei surse sunt emise cu o viteză fixă

vS simbol
sec atunci se poate defini viteza (rata) de transmitere a
sursei :

VS = vS ⋅ H ( X ) biti .
sec

2.3 Caracterizarea entropică a canalelor de comunicaţii.

În mod natural un canal de comunicaţii se impune a fi caracterizat


pe baza unui model continual a cărui structură şi parametrii depind de
caracteristicile constructive şi de material asociate canalului analizat.
Se impune precizarea că în transmiterea informaţiei prin semnal
continuu x( t ) nu se înţelege o funcţie continuă în sens strict
matematic , ci doar faptul că semnalul x poate fi evaluat la orice
moment de timp. În acest sens semnalul poate fi determinist sau
aleatoriu , periodic sau neperiodic. O astfel de abordare permite
evaluarea comportării canalului în prezenţa unor factori exogeni care
27

afectează semnalele utile vehiculate prin canal şi care sunt definite ca


perturbaţii.
În general semnalul recepţionat y (t ) diferă de semnalul emis x( t )
din multiple motive ce pot fi agregate prin două cauze fundamentale :
• oricare canal are o bandă de trecere limitată. Un semnal cu un
spectru larg va fi puternic deformat determinând o pierdere
informaţională.
• canalul este afectat de perturbaţii externe care pot afecta
considerabil conţinutul informaţional.
În cazul unui canal discret , pe baza unei analize la nivel continual,
putem elabora un model probabilist al canalului mult mai uşor de
exploatat decât un model continual. Pe un astfel de model canalul va
fi caracterizat prin :
• alfabetul de intrare → x = ( x1 , x2 ,... xn )
• alfabetul de ieşire → y = ( y1 , y 2 ,... y m )
• legea de tranziţie π definită prin probabilităţile condiţionate
p ( y j xi ) deci a probabilităţii ca să fie recepţionat semnalul yj

dacă a fost emis semnalul xi .


Canalul este staţionar dacă pentru oricare pereche (x , y )
i j

probabilitatea p ( y j xi ) nu depinde de timp. Canalul este fără


memorie
dacă probabilitatea p ( y j xi ) nu depinde de natura semnalelor
transmise anterior.
Dacă vom nota p i ( j ) = p ( y j xi ) , legea de tranziţie π va fi
caracterizată de matricea :
28

 p1 (1) p1 ( 2 ) ⋅ ⋅ p1 ( m ) 
 
 p 2 (1) p2 ( 2 ) ⋅ ⋅ p2 ( m) 
π = ⋅ ⋅ ⋅ ⋅ ⋅ 
 
 ⋅ ⋅ ⋅ ⋅ ⋅ 
 p (1) pn ( 2) ⋅ ⋅ p n ( m ) 
 n

Matricea π este o matrice stocastică. Ea caracterizează perturbaţia


pe canal şi din acest motiv este cunoscută ca matrice de zgomot.
Dacă fiecare linie conţine numai permutări ale probabilităţilor
p1 , p 2 ,..... p m canalul se numeşte uniform faţă de intrare.

Dacă fiecare coloană conţine numai permutări ale setului de


probabilităţi q1 , q2 ,.... qn canalul se numeşte uniform faţă ieşire.
Un canal uniform faţă de intrare şi de ieşire se numeşte dublu
uniform , situaţie în care m = n .
În cazul în care alfabetele de intrare şi de ieşire sunt identice şi
1−q
pentru orice pereche i ≠ j , pi ( j ) = p m = = const . , q reprezentând
m −1

probabilitatea recepţionării fără eroare , canalul se numeşte simetric.


Capacitatea unui canal discret simetric se obţine prin maximizarea
transinformaţiei :

(
m m j =1
)
C = max[ H ( Y ) − H ( Y X ) ] = H 1 ,1 m ,... 1 + ∑ pi ( j ) ⋅ log( pi ( j ) )
m

m
C = log m + ∑ pi ( j ) ⋅ log pi ( j )
j =1

Un caz particular îl constituie canalul simetric la care trecerile


către acelaşi indice se fac cu aceeaşi probabilitate , iar celelalte treceri
se fac cu alte probabilităţi , însă egale pentru toate trecerile. Dacă
notăm p probabilitatea ca un simbol să fie eronat , matricea de zgomot
va fi :
29

1 − p q ⋅ ⋅ q 
 
q 1− p ⋅ ⋅ q 
π =
p
 ⋅  ,q= ; m =n
⋅ ⋅ ⋅ ⋅ m −1

 q 
 q ⋅ ⋅ 1 − p

Capacitatea unui astfel de canal va fi :


p p
C = log n + (1 − p ) ⋅ log (1 − p ) + ( n − 1) ⋅ ⋅ log =
n −1 n −1
= log n + (1 − p ) ⋅ log (1 − p ) + p ⋅ log p − p ⋅ log ( n − 1).

În echipamentele de transmitere de date , la care în majoritate se


transmit simboluri binare , canalul cel mai des întâlnit este canalul
binar simetric , caracterizat de următoarea matrice de zgomot :
1 − p q  p
π =  
 ,q= = p , m =2
 q 1 − p m −1

Capacitatea unui astfel de canal este dată de :


C = 1 + (1 − p ) ⋅ log (1 − p ) + p ⋅ log p

Viteza de transmisie a informaţiei pe un canal discret este


inferioară vitezei medii de transmitere a informaţiei de către sursă :
VS = H ( X ) ⋅ v S deoarece apar erori pe parcursul canalului. Astfel dacă

probabilitatea de transmisie corectă este p = 0.95 , atunci , în medie ,


la fiecare 1000 de simboluri emise numai 950 de simboluri sunt
recepţionate corect. În aceste condiţii am putea spune că debitul de
informaţie pe canal DC este de 950 biţi/secundă. O astfel de
interpretare (prin diferenţă) este total eronată deoarece dacă am
considera o probabilitate de eroare p = 0 .5 ar rezulta un debit de
informaţie transmis de 500 biţi/secundă când de fapt informaţia
vehiculată este nulă.
30

Inconsistenţa definiţiei prin diferenţă va fi înlăturată dacă ţinem


cont de informaţia pierdută ( echivocaţia). Vom defini debitul de
informaţie transmis pe canal Dt :
Dt = [ H ( X ) − H ( X Y ) ] ⋅ v S = I ( X , Y ) ⋅ v S

Erorile care apar în procesul transmiterii informaţiei într-un canal


binar pot fi singulare sau grupate în pachete. Pentru o caracterizare
statistică completă a unui canal trebuie luaţi în considerare următorii
parametrii :
• probabilitatea de eroare a unui simbol
• repartiţia intervalelor fără erori
• probabilitatea apariţiei pachetelor de erori de o anumită
lungime
• repartiţia erorilor multiple într-o secvenţă de o anume lungime
Complexificarea modelelor asociate canalului conduce la evaluări
cantitative mult superioare modelului prezentat dar cu dificultăţi
serioase în abordare.

3. Codificarea informaţiei.
31

3.1 Definiţii.
Definiţia 1. Fie A un ansamblu discret şi N un întreg pozitiv.
Vom reprezenta prin A N un N- uplu ordonat de elemente din A :
A N = { x1 , x2 ,....x N } xi ∈ A
(n)
Vom nota elementele lui A n prin x = x1 ... xn , xi ∈ A . Vom nota
A + ansamblul tuturor secvenţelor de lungime finită formate din
elemente ale lui A.
A+ =  An
n

Fie x ∈ A + o secvenţă de simboluri aparţinând lui A . Vom nota cu


l( x) > 0 lungimea secvenţei x , astfel că :
x = x1 .... xl ( x ) ⇔ x ∈ Al ( x )

Definiţia 2. Cod de simboluri binare. Fie X i ∈ X , i =1,2....


simbolurile emise de sursa X . Un cod de simboluri binare C pentru o
sursă X o aplicaţie de la X în {0,1} , care face să corespundă fiecărui
+

element din X o secvenţă binară de lungime finită :


C : X →{0,1}
+

x →c( x )

Vom nota C ( X ) ansamblul tuturor cuvintelor de cod asociate


valorilor sursei :
{
C ( X ) = c ∈{ 0,1}
+
∃x ∈ X , c = c( x ) }
Definiţia 3. Cod binar extins C + . Fie X i ∈ X , i =1,2,... simbolurile
emise de către o sursă şi C un cod asociat acestei surse. Codul extins
C + constituie o aplicaţie de la X + → { 0,1}
+
care face ca fiecărei
secvenţe de simboluri din X să îi corespundă o secvenţă de simboluri
din {0,1} printr-o adecvată concatenare a simbolurilor de cod :
+
32

C +: X+ → {0,1} +

x1 x2 .. xn →c( x ) c( x )...c( x )
1 2 n

Definiţia 4. Cod unic decodabil. C este un cod unic decodabil dacă


C + este o aplicaţie injectivă :
∀ x( n) , y ( m) ∈ X + c + ( x( n) ) ≠ c + ( y ( m) )

Definiţia 5. Fie C un cod pentru sursa X . C este un cod cu prefix


dacă nici un cuvânt de cod nu constituie începutul unui alt cuvânt de
cod :
c2 = c1c , c1 ∈ C ( X ) , c ∈ { 0,1} ⇒ c2 ∉ C ( X )
+

O astfel de proprietate garantează ca un cod să fie unic decodabil :


C un cod cu prefix ⇒ C este un cod unic decodabil.
Unui cod cu prefix i se poate asocia un graf de tip arbore binar la
care cuvintele de cod constituie vârfuri ale arborelui.

Adâncimea arborelui de cod k este dată de lungimea maximă a


cuvintelor de cod generate.
k = maxl ( c( x ) )
x∈ X

Pe fiecare nivel n al arborelui de cod numărul maxim de cuvinte de


cod este :
N n = 2n
33

Lema 1. Numărul secvenţelor binare distincte de lungime mai mică


sau egală cu n este :
n n
2n − 1
M n = ∑ Nm = ∑2 = 2 ⋅ m
= 2 n+1 − 2
m =1 m =1 2 −1
Lema 2. Într-un arbore binar , numărul de descendenţi la nivelul n
în raport de un nod la nivelul m ≤ n va fi 2 n−m .
Lema 3. Într-un arbore binar corespunzător unui cod C , dacă c1
nu constituie un prefix pentru c 2 , descendenţii lui c1 şi c 2 sunt
mulţimi disjuncte.

Dacă în parcurgerea arborelui pe sens descendent vom fi


consecvenţi în a nota ramura din stânga cu 0 iar ramura din dreapta cu
1 secvenţele binare asociate nodurilor pe un anumit nivel vor fi

ordonate lexicografic. Proprietatea poate fi generalizată pe {0 ,1}n în


{0 ,1}+ asupra tuturor secvenţelor binare de lungime finită :
c' = c1c , c ∈{ 0,1} , c1 < c2 ⇒c' > c1 c ' < c2
+

Prin urmare condiţia de prefix impune ca nici unul din cuvintele de


cod să nu aibă ca rădăcină un alt cuvânt de cod.

3.2 Inegalitatea Kraft-McMillan.

Inegalitatea Kraft-McMillan fixează o primă restricţie asupra


lungimii cuvintelor de cod dintr-un cod unic decodabil.
Teorema 1. Inegalitatea lui Kraft.
Fie X o sursă şi C un cod de simboluri binare unic decodabil
asociat sursei X. Atunci :
34

∑2 −l ( c ( x ) ) ≤ 1
x∈X

Demonstraţie. Fie l ≥ max l ( c( x ) ) . Există 2 l secvenţe binare


x∈ X

distincte de lungime l . Fiecare cuvânt de cod de c( x ) , x ∈X are un


număr de descendenţi 2 l−l ( c ( x ) ) . Cum mulţimile descendenţilor sunt
disjuncte rezultă:
2l ≥ ∑2l −l ( c ( x ) ) sau imediat ∑2 −l ( c ( x ) ) ≤ 1
x∈X x∈X

Teorema 2. Inegalitatea Kraft- McMillan şi coduri cu prefix.


Fie n( x ) > 0 , x ∈X un ansamblu de numere întregi şi pozitive care
−n ( x )
satisfac inegalitatea Kraft-McMillan x∑
∈X
2 . Atunci există un cod

cu prefix C de lungime l ( x ) = n( x ) , şi care obligatoriu va fi unic


decodabil.
Demonstraţie. Considerăm că mulţimea întregilor n( x ) este
ordonată descrescător:
n( x1 ) ≥ n( x2 ) ≥ ....... ≥ n( xm )

Cuvintele de cod se aleg printr-o procedură iterativă astfel ca în


final să rezulte o ordonare lexicografică a acestora. Prin construcţie va
rezulta un cod cu prefix. Vom începe prin a impune :
c( x1 ) = 0....0 ∈ { 0 ,1}
n ( x1 )

şi succesorul lui c( x1 ) , c( x2 ) ∈ { 0 ,1}


n( x )
se alege în forma :
2

c( x2 ) = 00....10..0 ∈ { 0 ,1} (al n( x1 ) − bit se alege 1).


n ( x2 )

Cuvintele de cod rămase c( xi ) , i =3.... X se fixează iterativ prin


următoarea procedură → cuvântul de cod c( xi ) va fi secvenţa de
lungime l = n( xi ) cel mai mic în ordonarea lexicografică şi care nu are
ca prefix un cuvânt de cod format în iteraţiile anterioare
35

( c( x1 )...c( xi−1 ) ) . Numărul cuvintelor de cod care nu sunt descendenţi


ai cuvintelor de cod deja fixate satisface:
l −n ( x j ) −n ( x j ) −n ( x j )
n
2l − ∑ 2 = 2l − 2 l ⋅ ∑ 2 > 2l − 2l ⋅ ∑ 2 > 2l − 2l = 0
j <i j <i j =1

deoarece prin ipoteză n( x ) satisface inegalitatea lui Kraft . Astfel se


garantează existenţa cel puţin a unui cuvânt de cod de lungime n( xi ) .
Prin urmare cuvântul de cod c( xi ) se va alege ca cel mai mic (pentru
ordonare lexicografică) cuvânt de cod disponibil.
Observaţii.
• Procedura iterativă prezentată permite generarea unui cod cu
prefix (deci unic decodabil) ordonat lexicografic.
• Rezultatul obţinut ne permite analiza numai asupra codurilor cu
prefix deoarece pentru oricare cod unic decodabil care satisface
inegalitatea Kraft pot determina un cod cu prefix având o
aceeaşi lungime a cuvintelor de cod.

Definiţie. Cod complet. Un cod C este un cod complet dacă


lungimea cuvintelor de cod satisface inegalitatea lui Kraft ca egalitate.
Pentru un astfel de cod fiecare nod al arborelui binar asociat
constituie un vârf sau are doi descendenţi.

Lema. Fie X o sursă caracterizată prin probabilităţile p ( x ) , ∀x ∈X

. Atunci există un cod cu prefix având lungimea cuvintelor de cod :


 1 
l ( x ) = log , ∀x ∈ X
 p ( x ) 
Demonstraţie. Este suficient să arătăm că pentru o astfel de alegere
a lungimii cuvintelor de cod inegalitatea lui Kraft este satisfăcută.
36

 1  1
−log  −log
p( x ) 
∑2 
≤ ∑2 p( x )
= ∑2 log p ( x ) = 1
x∈X x∈X x∈X

3.3 Codarea surselor.

Definiţie. Lungimea medie a unui cod. Fie codul C asociat unei


surse X caracterizată prin probabilităţile p( xi ) , ∀xi ∈ X . Lungimea
medie a codului C se defineşte ca :
LC ( X ) = ∑ p( x ) ⋅ l ( c( x ) )
x∈X

Teorema. Teorema de codare a surselor. Fie sursa X având entropia


H(X ) . Există un cod de prefix C pentru care lungimea medie a
cuvintelor de cod satisface :
H ( X ) ≤ LC ( X ) ≤ H ( X ) + 1

Demonstraţie.
Pentru a demonstra limitarea superioară este suficient să calculăm
lungimea medie a cuvintelor de cod la care lungimea acestora este

1  
aleasă conform unei teoreme precedente în forma l ( x ) = log  p( x )  .
 

 1   1 
LC ( X ) = ∑ p( x ) ⋅ log  ≤ ∑ p( x ) ⋅  log + 1 = H ( X ) + 1 4
x∈X  p ( x )  x∈X  p( x ) 

Prin urmare lungimea unui cod optimal va fi mai mică decât limita
superioară impusă.

4
În demonstraţie ne bazăm pe inegalitatea [ x ] <x +1
37

Definiţie. Redundanţa. Redundanţa unui cod C asociat unei surse X


este mărginită de entropia relativă :
p( x )
R = LC ( X ) − H ( X ) ≥ D( p qC ) = ∑ p( x ) ⋅ log q ( x )
x∈X C

în care qC ( x ) este de forma :


2 −l ( c( x ) )
qC ( x ) = ∀x∈ X
∑ 2 −l ( c ( x ) )
x∈ X

Demonstraţie.
Notăm :
s = ∑ 2 −l ( c ( x ) ) ≤ 1
x∈X

conform inegalităţii lui Kraft.


Din modul de definire a lui qC ( x ) :
s ≤ 1 ⇒ log s ≤ 0 s ≤ 1 ⇒ log s ≤ 0

2 ( ( ) ) = qC ( x ) ⋅ s ⇒ l ( c ( x ) ) = − log qC ( x ) − log s
−l c x

Dacă utilizăm definiţia entropiei redundanţa R se obţine în forma:


1
R = LC ( X ) − H ( X ) = ∑ p( x) ⋅l( c( x) ) −∑ p( x) log
⋅ =
x∈ X p ( x)
= − ∑ p ( x ) ⋅log qC ( x) −log s + ∑ p( x) ⋅log p( x)
x∈X x ∈X

sau prin prelucrări elementare :


p( x)
R = ∑ p ( x ) ⋅ log − log s = D ( p qC ) − log s
qC ( x )

Relaţia obţinută pune în evidenţă entropia relativă între p şi qc .

Cum D ( p qC ) ≥ 0 iar s ≤ 1 ⇒ log s ≤ 0 putem deduce că :

R ≥ D ( p qC ) ≥ 0
38

Rezultatul prezentat permite o demonstraţie simplă în raport de


limita inferioară impusă de teoremă. Cum entropia relativă este
nenegativă :
R ≥ 0 ⇒ LC ( X ) − H ( X ) ≥ 0 ⇒ LC ( X ) ≥ H ( X )

Observaţie. Pentru a obţine un cod optim sub raportul lungimii


cuvintelor de cod este necesar ca :
LC ( X ) = H ( X )

ceea ce înseamnă log s = 1 ⇒ s = 0 . Prin urmare codul este complet şi


D ( p qC ) = 0 ⇒ qC ( x ) = p ( x )

ceea ce implică :
1
l ( c ( x ) ) = log , ∀x∈ X
p( x)

Teorema. Codarea surselor cu ajutorul codurilor bloc.


Fie sursa X cu probabilităţi asociate p ( x ) , ∀x ∈ X . Pentru ∀ε > 0

există un cod bloc Cn de lungime n a cărui lungime medie satisface :

LC ( X ) ≤ H ( X ) + ε
n

Demonstraţie. Demonstraţia este o simplă aplicaţie a teoremei


precedente. Entropia unui ansamblu de n variabile X ( n ) este :

( )
H X ( n) = n ⋅ H ( X ) .

În baza teoremei precedente :

( )
LC X ( n ) ≤ H ( X n ) + 1 = n ⋅ H ( X ) + 1

Lungimea raportată la un simbol al sursei considerate va fi :

LC ( X ) =
(
LC X ( n ) ) =H( X) +1
n
n n
39

Dacă alegem n astfel ca :


1
≤ε
n
codul considerat satisface condiţia impusă.

Exemplu. Pentru sursa X = { 1, 2,3, 4} cu probabilităţi asociate


1 1 1 1
PX =  , , ,  se consideră următoarea schemă de codare
2 4 8 8
c ( 1) = 0, c ( 2 ) = 10, c ( 3) = 110, c ( 4 ) = 111.
Entropia sursei se evaluează simplu în forma :
1 1 1 1 1 1 1 1
H ( X ) = − ⋅ log − ⋅ log − ⋅ log − ⋅ log =
2 2 4 4 8 8 8 8
1 1 3 3
= + + + = 1.75
2 2 8 8
Pentru codul propus lungimea medie a cuvintelor de cod va fi :
1 1 1 1
L ( X ) = ⋅ 1 + ⋅ 2 + ⋅ 3 + ⋅ 3 = 1.75
2 4 8 8
Pentru situaţia considerată observăm că L ( X ) = H ( X ) şi prin
urmare codul considerat este optim în raport cu lungimea medie a
cuvintelor de cod . Optimalitatea codului poate fi apreciată şi din

1
faptul că l ( i ) = log , i = 1,2,3,4.
p( i)
40

În figura…..este prezentat arborele asociat codului considerat . Din


simpla analiză a acestuia rezultă că acest cod este un cod cu prefix
unic decodabil.

Exemplu 2. Pentru sursa considerată în exemplu 1 vom asocia un


cod bloc de lungime doi după cum urmează :
c ( 1) = 00, c ( 2 ) = 01, c ( 3) = 10, c ( 4 ) = 11

Lungimea medie a cuvintelor de cod este L ( C ) = 2 şi prin urmare


este mai puţin economic decât codul anterior. În orice caz codul
satisface teorema fundamentală :
H ( X ) = 1.75 ≤ L ( C ) = 2 ≤ H ( X ) + 1 = 2.75

1
Exemplu 3. Pentru sursa considerată în exemplu 1 considerăm
următoarea schemă de codare :
41

c ( 1) = 0, c ( 2 ) = 1, c ( 3) = 00, c ( 4 ) = 11.

Lungimea medie a cuvintelor de cod va fi :


1 1 1 1 5
L ( C ) = ⋅ 1 + ⋅ 1 + ⋅ 2 + ⋅ 2 = = 1.25
2 4 8 8 4
Pentru acest cod lungimea medie a cuvintelor de cod este mai mică
decât entropia sursei :
L ( C ) = 1.25 < H ( X ) = 1.75

dar codul nu este unic decodabil. Dacă considerăm un mesaj ( 134213)


acesta va fi codificat în forma :
( 134213) → ( 000111000 )
Aceeaşi secvenţă de cod corespunde şi pentru mesajul ( 312431) .
Exemplu 4. Considerăm cazul sursei prezentate în exemplu 1
pentru care introducem următoarea schemă de codare :
c ( 1) = 0, c ( 2 ) = 01, c ( 3) = 011, c ( 4 ) = 111

Lungimea medie a cuvintelor de cod va fi :


1 1 1 1 7
L ( C ) = ⋅ 1 + ⋅ 2 + ⋅ 3 + ⋅ 3 = = 1.75
2 4 8 8 4
Secvenţa ( 134213) va fi codificată în forma :

( 134213) → ( 0011111010011)
este unic decodabilă.
42