Documente Academic
Documente Profesional
Documente Cultură
interiorul
1
2
3
4
5
6
7
8
dispozitivului,
probabilitile strilor 0 i 1 sunt egale (dup cum se va demonstra la maximizarea entropiei). Dac
probabilitile sunt mai dezechilibrate un bit hardware transmite mai puin dect un bit de
informaie. Remarcm faptul c noiunea de bit hardware poate referi de exemplu i un bit al
unui fiier (care poate transmite i el mai mult sau mai puin informaie).
2. Definiii
Cea mai cunoscut msur a informaiei este cea care leag informaia de probabilitate n mod
logaritmic astfel:
i ( xi ) = log p( xi )
n aceast relaie xi indic un eveniment iar pi probabilitatea acestuia. n aproape toate cazurile
logaritmul se consider a fi n baza 2. Aceast definiie a informaiei este datorat lui Claude
Shannon, unanim acceptat ca printele teoriei informaiei.
n figura alturat am reprezentat graficul acestei funcii. Se observ c
aceast definiie corespunde cu observaiile anterioare, informaia
obinut pentru un eveniment sigur (de probabilitate 1) este nul, ea
crescnd odat cu scderea probabilitii evenimentului.
7
6
5
4
3
2
1
p
0
0
0.2
0.4
0.6
0.8
de probabilitate 0.5.
Se numesc surse discrete sursele care emit mesaje n form discret (spre deosebire de sursele care
emit semnale continue, analogice).
Simbol (liter) este elementul fundamental, ireductibil, care conine o informaie. Totalitatea
simbolurilor care pot fi generate de o sursa constituie alfabetul sursei. O succesiune finit de
simboluri formeaz un cuvnt iar mulimea cuvintelor care pot fi formate cu un alfabet reprezint o
limb.
Codarea reprezint stabilirea unei corespondene ntre cuvintele formate cu un alfabet i cuvinte
formate cu alt alfabet.
n ceea ce privete sursele putem face urmtoarele caracterizri:
o surs discret este cu memorie / fr memorie dup cum probabilitatea de apariie a unui
simbol depinde sau nu de simbolurile anterioare.
2
o surs este nestaionar / staionar dup cum probabilitatea simbolurilor generate depinde
sau nu de timp.
o surs este cu debit controlabil / necontrolabil dup cum generarea de simboluri poate fi
oprit (ntrziat) din exterior sau nu. O surs cu debit necontrolabil (de exemplu sursa
obinut prin eantionarea unui semnal analogic) ridic probleme legate de prelucrarea n
timp real.
n figura urmtoare prezentm cele 4 simboluri utilizate n cazul codului Morse (alfabetul sursei).
Avem de a face cu punct (s1), linie (s2), spaiu ntre litere (s3) respectiv spaiu ntre cuvinte (s4).
Acestea sunt singurele mesaje valide, care pot fi emise. Motivul pentru care am ales prezentarea
acestei surse este faptul c n acest caz simbolurile au o reprezentare distinct, foarte diferit de la
un simbol la altul. Cu toate acestea considerm n prelucrrile legate de informaie c sursa
genereaz 4 simboluri fr s ne mai intereseze reprezentarea fizic a acestora. n cazul n care
sursa este un fiier avem 256 simboluri diferite, dar avnd o reprezentare asemntoare.
s1
s2
s3
s4
3. Entropia
S considerm o surs S care emite simboluri cu probabilitile P:
[S] = [s1 s2 ... sn]
[P] = [p1 p2 ... pn]
Ne intereseaz s evalum cantitatea de informaie pe care o d sursa. Pentru aceasta se definete
entropia sursei astfel:
n
i =1
i =1
H ( S ) = pi i ( si ) = pi log pi
Din definiia entropiei observm c ea este o funcie continu i simetric n raport cu variabilele
pi.
n continuare ne propunem s determinm care este valoarea maxim a entropiei. Pentru aceasta
cutm maximul funciei
n
H ( S ) = pi log pi
i =1
p
i =1
1 = 0
= pi log pi + pi 1
i =1
i =1
=0
pi
Obinem astfel:
= log pi log e + = 0
pi
= log p j log e + = 0
p j
adic:
pi = p j
Deoarece indicii i i j sunt oarecare relaia este valabil pentru orice i i j deci avem:
p1 = p2 = ... = pn
Acest lucru dovedete c informaia transmis de o surs este maxim atunci cnd simbolurile
sunt egal probabile.
S considerm cazul n care sursa emite doar dou simboluri avnd probabilitile p i 1-p.
Expresia entropiei devine n acest caz:
H (S ) = p log p (1 p ) log(1 p )
4
Reprezentarea grafic a acestei funcii (ca funcie de p) este dat n figura urmtoare. Se observ c
pentru p tinznd la 0 i la 1 funcia tinde spre 0. Dei ea nu este definit n aceste puncte (din cauza
logaritmului) putem considera prin convenie 0log0=0. Intuitiv acest lucru este corect, n cazul n
care o surs emite un simbol cu probabilitate 0 (adic nu l emite) acel simbol nu transmite
informaie.
H
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Reinem c pentru o surs care emite dou simboluri informaia este maxim (i egal cu 1, adic un
bit de informaie) cnd cele dou simboluri sunt egal probabile. Doar n acest caz emiterea unui
simbol (a unui bit fizic) transmite i un bit de informaie.
Putem remarca o asemnare cu noiunea de entropie din fizic. Dei se numesc la fel cele dou
entropii nu reprezint acelai lucru. n fizic entropia reprezint o msur a agitaiei termice. n
teoria informaiei entropia reprezint o msur a incertitudinii asupra unui eveniment. n ambele
cazuri entropia constituie o msur a dezordinii existente.
Se mai definete redundana sursei ca fiind diferena ntre entropia maxim posibil i cea real
(ct emite sursa inutil):
RS = H MAX ( S ) H ( S )
Dac dorim s lucrm n termeni relativi, putem utiliza noiunea de redundan relativ:
rs = 1
H (S )
H MAX ( S )
H MAX ( S ) = log n
corespunznd entropiei unei surse cu n simboluri i probabiliti egale de apariie.