Sunteți pe pagina 1din 5

Elemente de teorie a informaiei

1. Cte ceva despre informaie la modul subiectiv


n cele ce urmeaz vom face cteva consideraii legate de informaie i msurare a ei. Dup cum se
cunoate informaia se msoar n bii. De asemenea i dimensiunea unei magistrale, registru etc. se
msoar tot n bii. Dei ntre cele dou tipuri de bii (bii de informaie i bii hardware)
exist o legtur, ele nu sunt tocmai identice. Chiar dac cele dou denumiri sunt oarecum forate,
considerm c este foarte util delimitarea mai clar a lor, utilizarea noiunii de bit n ambele
contexte (hardware i teoria informaiei) putnd duce la confuzii importante.
S considerm urmtoarea situaie. Un
1
2
3
4
5
6
7
8

dispozitiv hardware are o magistral de 8


bii. n acest caz pare corect s spunem c
un fir al ei transmite un bit de
informaie la fiecare tact. Dar dac,
privind

interiorul

1
2
3
4
5
6
7
8

dispozitivului,

constatm c firul respectiv e legat la


mas mai transmite el ceva informaie la fiecare tact?
S considerm un alt exemplu: dm cu banul. Putem spune c la fiecare aruncare cu banul obinem
un nou bit de informaie. Dar, dup ce am dat de 100 ori cu banul i a ieit de tot attea ori stema,
mai obinem oare aceeai informaie la o aruncare? Mai are rost s mai facem aruncri? Pare c
informaia nou obinut scade pe msur ce stema devine n mod evident tot mai probabil.
S considerm c avem o grup de studeni i notele acestora la dou discipline la fel de importante.
Care dintre note este mai relevant (s zicem pentru un angajator): nota la disciplina la care toat
lumea a obinut 10 sau la cea la care notele acoper o plaj mai mare? Altfel zis, care not transmite
mai mult informaie?
Din toate exemplele de mai sus observm c informaia este cu att mai mare cu ct exist o mai
mic probabilitate a evenimentului respectiv. Un bit hardware este doar suportul fizic pe care sar putea transmite un

bit de informaie dac predictibilitatea este minim adic dac

probabilitile strilor 0 i 1 sunt egale (dup cum se va demonstra la maximizarea entropiei). Dac
probabilitile sunt mai dezechilibrate un bit hardware transmite mai puin dect un bit de

informaie. Remarcm faptul c noiunea de bit hardware poate referi de exemplu i un bit al
unui fiier (care poate transmite i el mai mult sau mai puin informaie).

2. Definiii
Cea mai cunoscut msur a informaiei este cea care leag informaia de probabilitate n mod
logaritmic astfel:

i ( xi ) = log p( xi )
n aceast relaie xi indic un eveniment iar pi probabilitatea acestuia. n aproape toate cazurile
logaritmul se consider a fi n baza 2. Aceast definiie a informaiei este datorat lui Claude
Shannon, unanim acceptat ca printele teoriei informaiei.
n figura alturat am reprezentat graficul acestei funcii. Se observ c
aceast definiie corespunde cu observaiile anterioare, informaia
obinut pentru un eveniment sigur (de probabilitate 1) este nul, ea
crescnd odat cu scderea probabilitii evenimentului.

7
6
5
4
3
2

Unitatea de msur a informaiei este bitul. Acesta reprezint


cantitatea de informaie care se obine prin producerea unui eveniment

1
p

0
0

0.2

0.4

0.6

0.8

de probabilitate 0.5.
Se numesc surse discrete sursele care emit mesaje n form discret (spre deosebire de sursele care
emit semnale continue, analogice).
Simbol (liter) este elementul fundamental, ireductibil, care conine o informaie. Totalitatea
simbolurilor care pot fi generate de o sursa constituie alfabetul sursei. O succesiune finit de
simboluri formeaz un cuvnt iar mulimea cuvintelor care pot fi formate cu un alfabet reprezint o
limb.
Codarea reprezint stabilirea unei corespondene ntre cuvintele formate cu un alfabet i cuvinte
formate cu alt alfabet.
n ceea ce privete sursele putem face urmtoarele caracterizri:
o surs discret este cu memorie / fr memorie dup cum probabilitatea de apariie a unui
simbol depinde sau nu de simbolurile anterioare.
2

o surs este nestaionar / staionar dup cum probabilitatea simbolurilor generate depinde
sau nu de timp.
o surs este cu debit controlabil / necontrolabil dup cum generarea de simboluri poate fi
oprit (ntrziat) din exterior sau nu. O surs cu debit necontrolabil (de exemplu sursa
obinut prin eantionarea unui semnal analogic) ridic probleme legate de prelucrarea n
timp real.
n figura urmtoare prezentm cele 4 simboluri utilizate n cazul codului Morse (alfabetul sursei).
Avem de a face cu punct (s1), linie (s2), spaiu ntre litere (s3) respectiv spaiu ntre cuvinte (s4).
Acestea sunt singurele mesaje valide, care pot fi emise. Motivul pentru care am ales prezentarea
acestei surse este faptul c n acest caz simbolurile au o reprezentare distinct, foarte diferit de la
un simbol la altul. Cu toate acestea considerm n prelucrrile legate de informaie c sursa
genereaz 4 simboluri fr s ne mai intereseze reprezentarea fizic a acestora. n cazul n care
sursa este un fiier avem 256 simboluri diferite, dar avnd o reprezentare asemntoare.

s1
s2
s3
s4

3. Entropia
S considerm o surs S care emite simboluri cu probabilitile P:
[S] = [s1 s2 ... sn]
[P] = [p1 p2 ... pn]
Ne intereseaz s evalum cantitatea de informaie pe care o d sursa. Pentru aceasta se definete
entropia sursei astfel:
n

i =1

i =1

H ( S ) = pi i ( si ) = pi log pi

Observm c entropia reprezint informaia medie pe simbol (o medie a informaiei obinute


pentru fiecare simbol, media fiind una ponderat cu probabilitile de apariie ale simbolurilor).
Entropia este deci egal cu incertitudinea medie apriori asupra evenimentelor [S]. Accentum faptul
c entropia este o msur a informaiei emise de surs n ansamblul ei i nu a informaiei emise de
un simbol oarecare.

Din definiia entropiei observm c ea este o funcie continu i simetric n raport cu variabilele
pi.
n continuare ne propunem s determinm care este valoarea maxim a entropiei. Pentru aceasta
cutm maximul funciei
n

H ( S ) = pi log pi
i =1

ntre variabilele pi existnd legtura (restricia)


n

p
i =1

1 = 0

Pentru a cuta un extrem cu restricii se folosete metoda multiplicatorilor lui Lagrange. Se


construiete funcia
n
n

= pi log pi + pi 1
i =1
i =1

creia i se caut extremul. Anulm derivatele pariale n raport cu variabilele pi

=0
pi
Obinem astfel:

= log pi log e + = 0
pi

= log p j log e + = 0
p j

Prin simplificare se obine:


log pi = log p j

adic:
pi = p j

Deoarece indicii i i j sunt oarecare relaia este valabil pentru orice i i j deci avem:

p1 = p2 = ... = pn
Acest lucru dovedete c informaia transmis de o surs este maxim atunci cnd simbolurile
sunt egal probabile.
S considerm cazul n care sursa emite doar dou simboluri avnd probabilitile p i 1-p.
Expresia entropiei devine n acest caz:

H (S ) = p log p (1 p ) log(1 p )
4

Reprezentarea grafic a acestei funcii (ca funcie de p) este dat n figura urmtoare. Se observ c
pentru p tinznd la 0 i la 1 funcia tinde spre 0. Dei ea nu este definit n aceste puncte (din cauza
logaritmului) putem considera prin convenie 0log0=0. Intuitiv acest lucru este corect, n cazul n
care o surs emite un simbol cu probabilitate 0 (adic nu l emite) acel simbol nu transmite
informaie.
H
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

Reinem c pentru o surs care emite dou simboluri informaia este maxim (i egal cu 1, adic un
bit de informaie) cnd cele dou simboluri sunt egal probabile. Doar n acest caz emiterea unui
simbol (a unui bit fizic) transmite i un bit de informaie.
Putem remarca o asemnare cu noiunea de entropie din fizic. Dei se numesc la fel cele dou
entropii nu reprezint acelai lucru. n fizic entropia reprezint o msur a agitaiei termice. n
teoria informaiei entropia reprezint o msur a incertitudinii asupra unui eveniment. n ambele
cazuri entropia constituie o msur a dezordinii existente.
Se mai definete redundana sursei ca fiind diferena ntre entropia maxim posibil i cea real
(ct emite sursa inutil):

RS = H MAX ( S ) H ( S )
Dac dorim s lucrm n termeni relativi, putem utiliza noiunea de redundan relativ:
rs = 1

H (S )
H MAX ( S )

n ambele relaii avem:

H MAX ( S ) = log n
corespunznd entropiei unei surse cu n simboluri i probabiliti egale de apariie.

S-ar putea să vă placă și