Sunteți pe pagina 1din 18

Lucrarea 2

Surse discrete de informat, ie

2.1 Obiectivul lucr rii


Sursele sunt cele care genereaz  informat, ia ce trebuie m surat 
pentru a  transmis  prin canal. Lucrarea are ca scop studiul surselor
discrete de informaµie f r  memorie s, i cu memorie, acestea din urm 
ind mult mai des întâlnite în lumea real . Este prezentat ³i anali-
zat modul de caracterizare a surselor din punct de vedere informa-
tional. În nal, motivat, ia not, iunilor teoretice studiate este sust, inut 
prin construct, ia unul model al limbii române s, i prin analiza imagini-
lor, în ipoteza gener rii acestora de o surs  discret  de informat, ie f r 
memorie.

2.2 Aspecte teoretice


Sursa discret  de informaµie debiteaz  mesaje la momente discrete
de timp, ecare mesaj ind reprezentat printr-un numar nit de sim-
boluri. Mulµimii de simboluri i se pune în corespondenµa o mulµime
nit  de semnale sub forma de impulsuri. Rata de emisie a unei surse
discrete este deci nit .

Simbolul este elementul fundamental, ireductibil, ce contine o in-


formatie, alfabetul ind denit de totalitatea simbolurile emise. Cu-
vântul este o succesiune nit  de simboluri c reia i se poate atribui o
semnicatie, acesta reprezentând în fapt un mesaj. Limba reprezint 
,

18
19

Fig. 2.1: Functionarea unei surse discrete ce emite informatie


, ,

sub form  de text.

mult, imea cuvintelor ce se pot forma cu un alfabet.

Product, ia oric rei surse de informat, ie este un fenomen aleator (un


experiment) ce se poate modela matematic printr-o o variabila alea-
toare X care ia valori din alfabetul sursei (un numar nit de eveni-
mente elementare independente, carora li se pot asocia probabilitati de
realizare) sau o succesiune de v.a. Xi , denite în momentele succesive
de timp la care are loc emisia.

Exemple: Codul Morse - alfabetul codului ce cont, ine 4 sim-


boluri: punct, linie, spat, iul între litere s, i spat, iul între cuvinte; un
semnal bidimensional cuantizat, o imagine - alfabetul reprezen-
tând multimea nivelelor de cuantizare, semnele grace din limba
,

chinez , un mesaj esantionat cu n nivele, care are n + 1 simboluri:


,

0, q, 2q....nq .

2.2.1 Sursa discret  f r  memorie


O surs  discret  f r  memorie (SDFM) de alfabet [X] = [x1 , ....xD ]
[PX ] = [p(x1 ), ...p(xn )], emite
s, i probabilit t, i câte un simbol xi a c -
rui probabilitate de aparitie p(xi ) nu depinde
, de aparit, ia simbolurilor
precedente:

p(xin |xjn−1 , xkn−2 , ......) = p(xin ) (2.1)

unde xin este simbol oarecare al alfabetului sursei xi , generat la mo-


mentul n.

Considerând o SDFM - [X], se poate forma o nou  surs  în care


ecare mesaj este o succesiune de n simboluri ale sursei primare [X].
n
Aceast  nou  surs , [X ] se numes, te extensia de ordinul n a sursei X.
20

Fie X - variabila aleatoare discret  asociat  product, iei sursei de


informat, ie. Entropia, o m sur  a incertitudinii variabilei aleatoare,
este cont, inutul mediu de informat, ie pe simbol emis de surs , dup 
cum urmeaz :

n
X n
X
H(X) = p(xi )i(xi ) = − p(xi ) log p(xi ) (2.2)
i=1 i=1

Baza logaritmului este 2 iar entropia este exprimat  în bit, i/simbol.


Se demonstreaz  us, or c  entropia sursei extinse de ordinul n este:

H(X n ) = nH(X) (2.3)

2.2.2 Sursa discret  cu memorie


Sursele reale de informat, ie sunt în cea mai mare parte, surse cu
memorie. O surs  discret  cu memorie furnizeaz  câte un simbol a
c rui probabilitate de aparit, ie depinde de simbolul precedent sau de
un s, ir de simboluri precedente, num rul acestora determinând ordinul
memoriei.

Fie o sursa de alfabet [X] = [x1 ..........xD ]. Sursa este o surs  cu


memorie de ordinul k dac  respect  relat, ia:

p(xin,n |xin−1 ,n−1 , xin−2 ,n−2 .....) = p(xin,n |xin−1 ,n−1 , xin−2 ,n−2 ...xin−k ,n−k )
(2.4)
unde in ∈ [1, 2, ...D], p(xin,n ) reprezentând probabilitatea ca la mo-
mentul n s  e emis simbolul xin .

O sursa discret  stationar  (omogen )


, genereaz  simboluri ale c -
ror probabilit t, i nu depind de originea timpului ci doar de pozit, iile lor
relative. As, adar, tranzit, iile între dou  momente de timp se caracteri-
zeaz  prin acelas, i set de probabilit t, i.

Mai departe, sursa stat, ionar  cu memorie nit , denumit  s, i surs 


ergodic  este sursa ale c rei siruri de simboluri sunt s, iruri tipice (un s, ir
ce cont, ine n1 = np
P1 simboluri pentru x1 , n2 = np2 simboluri pentru
x2 , etc.,unde n = i ni −→ ∞ iar pi este probabilitatea de aparitie a ,

simbolului xi ). Ergodicitatea presupune în fapt identicarea valorilor


21

Fig. 2.2: Graful de tranzitie al sursei Markov de ordinul 1.


,

medii de-a lungul unei secvent, e de mesaje emise de o surs  cu valorile


medii statistice obt, inute asupra ansamblului de secvent, e emise de n
surse.

O surs  cu memorie de ordinul 1 - emiterea unui simbol este


condit, ionat  de simbolul precedent - poate  modelat  de un lant,
Markov nit, astfel indu-i atribuit  denumirea de sursa Markov.
Acesta reprezint  modelul matematic al evolut, iei probabilistice ce p s-
treaz  cea mai recent  amintire despre trecut, ale c rui probabilit t, i
condit, ionate, de tranzit, ie între st ri, sunt invariante în timp (proprie-
tatea de omogenitate).

O sursa cu memorie de ordinul 1, sursa Markov poate  reprezen-


tat  printr-un graf, nodurile acesteia ind asociate st rilor, tranzit, iile
între st ri ind evident, iate prin arce (pe care se scriu probabilit t, ile)
s, i descrise de matricea de tranzit, ie.

Exemplu. Fie sursa cu memorie de ordinul 1 descris  de gra-


ful din Fig.2.2, ec rei st ri atribuindui-se un singur simbol de ies, ire
(i.e. num rul de st ri este egal cu num rul de simboluri din alfabetul
sursei), simbolul emis ind condit, ionat de cel precedent.

Matricea de tranzit, ie corespunzatoare grafului este:


 
0.8 0.2
T =
0.4 0.6

Identicarea distribut, iei de probabilit t, i a sursei la echilibru-


stat, ionaritate w = [w1 , w2 ] se face rezolvând un sistem de 2 ecuat, ii:
(
wT = w
(2.5)
w1 + w2 = 1

rezultatul ind: w = [ 23 , 31 ].
22

Nu este obligatoriu ca o surs  s  ating  starea de stat, ionaritate.


Un exemplu simplu de sursa nestat, ionar  este prezentat în [28].

S  presupunem c  avem o moned  ale c rei fet, e sunt Cap si Pajura,


notate C s, i P. În plus, e un zar la care pe 4 fete este vopsit C , iar pe
,

restul de doua P (Fig. 2.3). Dac  arunc m în mod alternativ moneda


s, i zarul, obt, inem o surs  de alfabet [C, P ]. De ecare dat  când este
aruncat  moneda setul de probabilit t, i este [0.5, 0.5], îns  de ecare
dat  când este aruncat zarul setul de probabilit t, i este [0.667, 0.333].
Entropia sursei dac  am arunca doar moneda ar  de 1 bit/simbol,
dac  am arunca doar zarul 0.918 bit/simbol, iar dac  le arunc m în
mod alternativ este 0.959 bit/simbol.

Fig. 2.3: Surs 


.
nestationar .
,

În practic  situat, iile în care întâlnim surse nestat, ionare sunt ne-
numarate. Cele mai frecvente exemple sunt cele în care sursa de
informat, ii (sau sursa de date) este compus  dintr-o mult, ime de alte
surse distincte, de exemplu: un document cu mai mult, i autori, un s, ier
multimedia, o înregistrare audio într-o încapere cu mai mult, i vorbi-
tori, o serie de pachete distincte trimise printr-un canal de comunicat, ii.
În general abord rile pentru astfel de situat, ii încearc  s  realizeze se-
pararea acestor surse s, i modelarea mesajului sursei principale ca o
concatenare de s, iruri produse de surse stat, ionare.

Entropia unei surse cu memorie este entropia unui simbol oarecare


al sursei dup  observarea tuturor simbolurilor anterioare.

H∞ (X) = lim (Hn /X1 , X2 , ..Xn ) (2.6)


n→∞

Entropia unei surse Markov ergodice unilare (toate simbolurile


furnizate la p rasirea unei st ri sunt distincte) este:

r
X
H∞ (X) = wj H(Sj ) (2.7)
j=1
23

unde r este num rul de st ri prin care poate trece sursa, w = [w1 , ...wr ]
este vectorul distributiei de echilibru iar H(Sj ) este entropia corespun-
,

z toare unei st ri.

La momentul n, in starea Xn entropia sursei cu memorie de ordinul


1 descris  în exemplul anterior este: H(Xn ) = H(w1 , w2 ).

2.2.3 Caracterizarea informational  a surselor. ,

Parametrii surselor discrete


Fie dat  o surs  discret  X denit  de:

[X] = [x1 , x2 , ...xn ]

[PX ] = [p(x1 ), p(x2 )...p(xn )]

[τX ] = [τx1 , τx2 ...τxn ]

Caracterizarea informat, ional  a acesteia implic  calculul unor pa-


rametrii informat, ionali s, i de ecient,   ai sursei, dup  cum urmeaz :

1. Entropia sursei:

n
X
H(X) = − p(xi ) log2 p(xi ) [biti/simbol] (2.8)
i=1

2. Entropia maxim  a sursei:

Hmax (X) = log2 n [biti/simbol] (2.9)

3. Debitul de informat, ie al sursei:

H(X)
Hτ (X) = [biti/secunda] (2.10)
τ̄
τ̄ ind durata medie de aparit, ie a unui simbol

n
X
τ̄ = p(xi )τ (xi ) [secunde] (2.11)
i=1
24

4. Redundant, a absolut  a sursei:

RX = Hmax (X) − H(X); (2.12)

5. Redundant, a relativ  a sursei:

H(X)
ρX = 1 − (2.13)
Hmax (X)

6. Ecient, a sursei:
H(X)
ηX = (2.14)
Hmax (X)

2.3 Desf s, urarea lucr rii


Sunt propuse în continuare câteva aplicat, ii ce ilustreaz  conceptele
teoretice prezentate anterior privind caracterizarea din punct de vedere
informat, ional a surselor discrete cu s, i f r  memorie.

2.3.1 Caracterizarea informational  a surselor dis-


,

crete f r  memorie


Aplicatie 2.1.
, X ce emite simbolurile [X] = [1, 2, 3, 4, 5],
Fie sursa
cu probabilit tile [PX ] = [0.2, 0.05, 0.4, 0.15, 0.2], durata de aparitie a
, ,

ec rui simbol ind de 1 ms. Calculati parametrii sursei X.


,

%Caracterizarea din punct de vedere informational


%a sursei date.
clear all
clc
n=6 % numarul de simboluri al sursei
Xsimboluri=1:n % vector ce contine simbolurile sursei
Xprobabilitati =[0.2 0.05 0.4 0.15 0.2]
Hmax=log2(n) %entropia maxima a sursei
H=entropie(Xprobabilitati)

Pentru a calcula entropia sursei, se face apel la funct, ia entropie.m,


listat  mai jos.

function H = entropie(X);
% X vectorul ce contine probabilitatile simbolurilor
H = - sum(X.*log2(X));
25

Redundant, a absolut  a sursei este diferent, a dintre entropia maxim 


s, i entropia efectiv  a sursei:

Redundanta=Hmax-H

iar ecient, a sursei este dat  de raportul din relat, ia (2.14):

Eficienta=H/Hmax

Considernând sursa dat  anterior, modicat, i valorile probabilit t, ilor


de aparit, ie ale simbolurilor 1, 3 s, i 5 as, a încât acestea s  e egale.

1. Cum se modica redundant, a s, i ecient, a sursei? Justicat, i!

2. Care este distribut, ia de probabilit t, i a simbolurilor date pentru


cazul în care redundant, a are valoare 0?

3. Care este impactul reducerii num rului de simboluri al sursei


asupra entropiei?

4. Cum se modic  entropia sursei dac  cres, tem num rul de sim-


boluri prin ad ugarea unui simbol de probabilitate 0?

Aarea debitului de informat, ie al sursei implic  calcularea τ̄ folosind


relat, ia (2.11), în cazul de fat, a, durata de aparit, ie a ec rui simbol
ind 1 ms, τ̄ = 1s iar debitul este Hτ (X) = H(X)[biti/secunda].
Aplicatie 2.2.
, [5] Consider m o curs  de cai cu 8 participant, i, des-
1 1 1 1 1 1 1 1
cris  de probabilit t, ile de câstig ale c rui cal: [ ].
2 4 8 16 64 64 64 64
Implementat, i în Matlab secvent, a de instruct, iuni ce realizeaz  ca-
racterizarea informat, ional  a sursei ce transmite numerele de concurs
ale cailor câs, tig tori.

clear all
clc
n=8 % numarul de simboluri al sursei
Xsimboluri=1:n % vector ce contine simbolurile sursei
Xprobabilitati =[1/2 1/4 1/8 1/16 1/64 1/64 1/64 1/64]
Hmax=log2(n) %entropia maxima a sursei
H=entropie(Xprobabilitati)
Redundanta=Hmax-H
Eficienta=H/Hmax

Presupunând c  dorim s  trimitem un mesaj care s  transmit 


care este calul ce a câs, tigat cursa, o alternativ  ar  s  transmitem
indexul acestuia, descrierea necesitând 3 biti (Hmax ) oricare ar  calul
26

înving tor. Probabilit t, ile de câstig nu sunt îns  uniforme, de aici


posibilitatea de a realiza mesaje mai scurte pentru caii cu probabilitate
mare de câstig s, i mesaje mai lungi pentru cei cu s, anse mici, as, a încât
s  obt, inem o lungime medie a mesajului mai mic  decât 3.

În capitolele urm toare, Lucrarea 4, sect, iunea 4.2 vom arata c 


entropia unei variabile aleatoare reprezint  limita inferioar  a num -
rului de bit, i necesar pentru a reprezenta aceast  variabil  s, i, totodat ,
num rul minim de întrebari cu r spuns "Da"/"Nu" necesare pentru a
identica variabila (Exemplul 4.1).

Aplicatie 2.3.
, Fie experimentul arunc rii monedei modelat de sursa
discret  f r  memorie X ce emite dou  simboluri X = [cap, pajura],
cu probabilit t, ile PX = [1 − p, p]. Scrieti în Matlab secventa de cod ce
, ,

calculeaz  entropia acestei surse s, i reprezentat, i grac, folosind funct, ia


plot, dependent, a entropiei de valoarea lui p.

Fig. 2.4: H(p) versus p.

p=linspace(0,1,1000);% genereaza un vector de 1000 de


elemente cu valori intre 0 si 1.
H=-(1-p).*log2(1-p)-p.*log2(p);
plot(p,H);
xlabel('p', 'FontSize',14); ylabel('H(p)','FontSize',14);

Aplicatie 2.4.
, Fie o surs S ce emite trei simboluri [S] = [X, Y, Z]
cu probabilit tile [PS ] = [0.5, 0.3, 0.2]. Calculati num rul maxim de
, ,

mesaje de lungime 3 ce se pot forma cu simbolurile emise de surs  si ,

cantitatea de informat, ie cont, inut  într-un astfel de mesaj. Comparat, i


ecient, a sursei extinse cu ecient, a sursei S.
27

Num rul de mesaje de lungime 3 ce se pot forma cu simbolurile


3
sursei este 3 . Acestea alc tuiesc "simbolurile" sursei extinse de ordi-
nul 3:

[S 3 ] = [XXX, XXY, XY Y · · · · · · ZZZ]

[PS 3 ] = [p(X)3 , p(X)2 p(Y ) · · · p(Z)3 ]

Cantitatea de informat, ie cont, inut  într-un mesaj al sursei extinse


se determin  introducând parametrii sursei extinse în codul Matlab
descris anterior s, i folosind relat, ia (2.3).

Aplicatie 2.5.
, Fie sursa X ce a emis mesajul " The quick brown fox
jumps over the lazy dog!". Identicat, i cont, inutul de informat, ie pe
liter  din mesajul dat s, i reprezentat, i grac distribut, ia de probabilit t, i
a simbolurilor emise de surs .

Pentru a calcula cont, inutul de informat, ie pe liter  din acest mesaj


este necesar  identicarea probabilit t, ilor de aparit, ie ale simbolurilor
sursei [X]. Se poate scrie astfel o secvent,   care s  returneze un vector
ce cont, ine probabilit t, ile de aparit, ie ale simbolurilor.

Fig. 2.5: Frecventa simbolurilor emise de sursa


,

din Aplicatia 2.5.


,

mesaj='The quick brown fox jumps over the lazy dog!'


%sunt eliminate spatiile dintre cuvinte
mesaj(mesaj==' ')=[];
% se realizeaza conversia literelor catre litere mici,
%fiecarei litere i se atribuie un numar
mesaj=lower(mesaj)-double('a')+1;
28

%se renunta la caracterele ce nu sunt litere


mesaj(mesaj < 1) = [];
mesaj(mesaj > 26) = [];
%frecventa simbolurilor in mesaj
frecv = hist(mesaj, 0:26);
% distributia de probabilitate a sursei
P=frecv./sum(frecv);
count = hist(mesaj, 0:26);
bar(0:26, count);
labels = char([double('@'), double('a'):double('z')])';
set(gca, 'XTick', 0:26+0.5, 'XTickLabel', labels); axis
tight

2.3.2 Caracterizarea informational  a sursei dis- ,

crete cu memorie
Fie o surs  cu memorie cu n st ri. Matricea probabilit t, ilor de
tranzit, ie este o matrice p tratic , P, suma ec rei linii ind egal  cu
1. Pentru a demonstra modul de funct, ionare al unei astfel de surse cu
memorie vom folosi în continuare câteva exemple, pornind de la cea
mai simpl  surs  cu memorie, sursa Markov cu 2 stari.

Aplicatie 2.6.
, Fie sursa discret  cu memorie descris  de graful
probabilit t, ilor de tranzit, ie din Fig. 2.6.

Fig. 2.6: Graful de tranzitie al st rilor pentru Sursa Markov


,

corespunzatoare Aplicatiei 2.6. ,

Distribut, ia de probabilit t, i a st rii init, iale ind s = [1 0], scriet, i


codul Matlab ce calculeaz  probabilit t, ile de transmisie ale simbolu-
rilor dupa 5 pas, i.
29

Urm rind graful din Fig. 2.6 rezult  matricea probabilit t, ilor de


 
0.97 0.03
tranzit, ie: P = .
1 0
ns=2; % numarul de stari
P=[0.97 0.03;1 0] % matricea de tranzitie a starilor

Starea init, ial  a sursei este denit  printr-un vector de


probabilit t, i (linie) suma elementelor ind 1.
s=[1 0]% distributia de probabilitati a starii initiale
for i=1:5
s=s*P;
disp(sprintf('Distributia de probabilitati in pasul %d'
,i))
display (s);
disp(sprintf('Entropia sursei in pasul %d',i))
display (entropie(s));
end

Entropia corespunz toare ecarei st ri a fost calculat  cu ajutorul


funct, iei entropie.m folosit  în prima parte a lucr rii.

În general o astfel de surs  evolueaz  c tre o stare stat, ionar , stare


ce se poate anticipa urm rind evolut, ia sursei. Cres, terea num rului de
pas, i conduce la aarea vectorului de probabilit t, i corespunzator st rii
stat, ionare, distribut, ie de echilibru ce îndeplineste condit, ia dat  de
relat, ia (2.5).

Fiind descris  de un vector de probabilit t, i cu toate componentele


nenule aceast  stare se poate calcula efectiv extr gând vectorii proprii
principali s, i normând rezultatul [21].

[evecs,evals]=eig(P');
p_st=evecs(:,1) ./ sum(evecs(:,1));
disp(sprintf('Distributia de probabilitati la
stationaritate:'))
display (p_st);
%verificarea starii de stationaritate
p_st'*P

Rezultatul poate  inconsistent numeric deoarce cea de-a doua


P
i pst = 1. Varianta
condit, ie a relat, iei (2.5) a fost ignorat , respectiv
alternativ  exploateaz  faptul c  pst 1ns×ns = 11×ns [25] suma elemen-
telor pe linie în matricea P ind egal  cu 1, pst (I −P +1ns×ns ) = 11×ns .

p_st = ones(1,ns) / (eye(ns)-P+ones(ns,ns));


%verificarea starii de stationaritate
30

Fig. 2.7: Graful de tranzitie al st rilor pentru sursa Markov


descris  în Aplicatia 2.7
,

display(p_st*P)

Aplicatie 2.7.
, Fie sursa discret  cu memorie descris  de graful de
tranzit, ii din Fig. 2.7. Considerând distribut, ia de probabilit t, i a st rii
init, iale s = [0 1 0], scriet, i codul Matlab ce calculeaz  probabilit t, ile
de transmisie ale simbolurilor dupa 10 pas, i s, i identicat, i distribut, ia
de echilibru a sursei.

ns=3; % numarul de stari


P=[1/3 2/3 0; 1 0 0; 1/2 0 1/2];
s=[0 1 0];
for i=1:10
s=s*P;
disp(sprintf('Distributia de probabilitati in pasul %d',i))
display (s);
disp(sprintf('Entropia sursei in pasul %d',i))
display (entropie(s));
end

Cât de repede a ajuns sursa la distribut, ia de echilibru?

Distribut, ia de probabilit t, i la stat, ionaritate calculat  direct:

p_st = ones(1,ns) / (eye(ns)-P+ones(ns,ns));


%verificarea starii de stationaritate
display(p_st*P)
31

2.4 Modelarea Limbii Române ca surs 


discret  de informat, ie
Un model de limb  atribuie o probabilitate unui text scris, pe
baza unui anumit set de antrenare. De exemplu, un model de limb 
construit pentru limba român  care ar avea la baz  nis, te texte extrase
din arhiva unui ziar ar atribui o probabilitate mai mare de aparit, ie
textului 'linia de metrou' decât textului 'lin iad e metru'. Aceasta
se întâmpl  deoarece cuvintele din primul text au o probabilitate mai
mare de aparit, ie (în modelul ales pentru antrenare - presa scris ) decât
cuvintele din al doilea text.

Fig. 2.8: Constructia unui model al limbii române.


,

Ce înseamn  îns  c  anumite cuvinte sunt mai frecvente s, i este


aceasta singura regul  care descrie o limb ? Presupunând c  avem la
dispozit, ie o mare diversitate de texte pe teme foarte variate astfel încât
s  minimiz m inuent, a tematicii în construirea modelului de limb ,
construirea unui model de limb  înseamn  denirea unui mecanism
probabilistic care s  genereze limba.
Astfel, s  ne imagin m c  în mod absolut arbitrar alegem un cu-
vânt de pe o pagin  oarecare. Dac  vom considera pagina ca ind un
document iar cuvântul ca ind un text, atunci alegerea cuvântului T
din documentul D înseamn  denirea unei probabilit t, i condit, ionate
P (T |D).
O alt  variant  de a deni probabilitatea cuvântului T în docu-
mentul D ar  s  num r m de câte ori apare cuvântul în pagin  s, i s 
norm m la num rul total de cuvinte din pagin .

Altfel, am putea s  denim cuvântul ca ind totalitatea literelor


ce îl compun, deci estimând probabilitatea ec rei litere am putea
calcula probabilitatea cuvântului ca ind produsul probabilit t, ilor in-
32

dividuale:

P (metrou) = P (m) · P (e) · P (t) · P (r) · P (o) · P (u)

Desigur, acesta nu ar  un model foarte realist, întrucât ar presu-


pune c  literele ce formeaz  cuvântul sunt emise în mod independent.
Pentru a crea un model de limb  mai aproape de realitate am putea
s  denim probabilitatea cuvântului T pe baza grupurilor de litere din
care este format. Putem alege grupuri de 2, 3, 4 litere sau mai multe.
O variant  ar  s  consider m modelul bazat pe regula lant, :

P (metrou) = P (u|metro)·P (o|metr)·P (r|met)·P (t|me)·P (e|m)·P (m)

Extrapolând acum la întreaga limb , putem s  denim o serie de


modele, în funct, ie de gradul de complexitate pe care îl alegem, sau
altfel spus de gradul de delitate cu care modelul descrie limba. Cel
mai simplu model consider  ipoteza echiprobabilit t, ii literelor. Astfel,
pentru limba român , deoarece exist  31 de litere (26 caractere +5
caractere cu diacritice), am avea:

L1romana = [a, b, c, d, .....x, y, z]


1 1 1
P (L1) = { , , ..... }
31 31 31

Evident, textele generate cu un astfel de model nu ar avea prea


mult sens. Din punct de vedere informat, ional, limba generat  de acest
model ar  complet haotic , adic  ar avea o entropie maxim .

HL1 = log2 31 = 4.95 bit/simbol

Dac  se iau în considerare probabilit t, ile reale ale literelor con-


siderate în mod individual folosind o colect, ie de texte (Tabelul 2.1)
atunci acest lucru este echivalent cu a spune c  am introdus nis, te con-
strângeri în modul în care am descris limba, f când-o astfel mai put, in
haotic . Sigur, nici de aceast  dat  nu vom putea produce un text
cu sens folosind acest model, dar cel put, in litera Z nu va mai ap -
rea la fel de frecvent precum litera A de exemplu. Efectul reducerii
incertitudinii va  sc derea entropiei: HL2 < HL1 .
33

N r.crt. xi p(xi ) i(xi ) N r.crt. xi p(xi ) i(xi )


1 E 0.1214 3.0421 17 F 0.0119 6.3928
I
2 I 0.1058 3.2405 18 0.0119 6.3928
3 A 0.1005 3.3147 19 V 0.0115 6.4422
4 R 0.076 3.7178 20 T
, 0.011 6.5063
5 N 0.0651 3.9411 21 G 0.0099 6.6583
6 T 0.0621 4.0092 22 B 0.0084 6.8953
7 U 0.0586 4.0929 23 Z 0.0076 7.0397
8 C 0.0508 4.2990 24 Â 0.0067 7.2216
9 L 0.0481 4.3778 25 H 0.0038 8.0397
10 O 0.0422 4.5666 26 J 0.0025 8.6438
11 S 0.0411 4.6047 27 X 0.0019 9.0397
12 € 0.0339 4.8825 28 K 0.0004 11.2877
13 D 0.0326 4.9389 29 Y 0.0003 11.7027
14 P 0.0318 4.9748 30 W 0.0002 12.2877
15 M 0.0287 5.1228 31 Q 0 -

16 S
, 0.0133 6.2324 HL2(X) = 4.2021 biti/simbol

Tabel 2.1: Probabilitatile reale ale literelor in limba romana.

Prin ad ugarea unor constrângeri (sunt luate în considerare


probabilit t, ile cuvintelor, di-gramelor, tri-gramelor, etc), se raneaz 
modelul de limb  s, i scade entropia.

Probabilitatile simbolurilor prezentate în Tabelul 2.1 plecând de


la o colect, ie de texte au fost identicate ignorând spat, iul dintre cu-
vinte. Dac , în plus, acesta este considerat drept simbol suplimentar,
alfabetul sursei se modic  în consecint,   - 32 de simboluri iar entropia
scade HL3 = 4.1564 biti/simbol [30].

Daca limba este modelat  ca o surs  ergodic  de tip Markov cu


probabilit t, ile st rilor (literelor) p(xi ) s, i probabilit t, ile de tranzit, ie
între st ri p(yj |xi ) atunci entropia sursei este:

N
X
H(X) = − p(xi ) · p(yj /xi ) · log2 p(yj /xi )
i,j=1

În aceast  ipotez , entropia limbii scade la HL4 = 3.8 biti/simbol.


Introducerea unor restrict, ii lexicale s, i gramaticale suplimentare, spe-
34

cice limbii române, are ca efect sc derea informat, iei medii pe simbol
c tre valoarea real  a entropiei limbii române [9]:

Hlb.romana = 3.18 biti/litera

2.5 Analiza imaginilor ca surse discrete de


informat, ie
Considerând drept surs  de informat, ie o camer  foto mesajul
emis de aceasta este o imagine, simbolurile reprezentând valoarea
intensit t, ii pixelilor, respectiv alfabetul sursei este S8 = [0 · · · 255]
dac  imaginea este reprezentat  pe 8 bit, i - Fig.2.9 (c), S4 = [0 · · · 15]
dac  imaginea este reprezentat  folosind 4 bit, i - Fig. 2.9 (b) s, i
S2 = [0 1 2 3] dac  imaginea este redat  în 4 nivele de gri - Fig.
2.9 (a), utilizând 2 bit, i.

(a) (b) (c)

Fig. 2.9: Reprezentarea imaginii pe diferite tonuri de gri


folosind a) 2 biti; b) 4 biti; c) 8 biti.
, , ,

Aplicatie 2.8.
, Pornind de la not, iunile introduse în Lucrarea 1 -
1
Sect, iunea 1.2.5 realizat, i o secvent,   de cod care s  calculeze entropia
ec rei surse de informat, ie ce a emis imaginile din Fig. 2.9.

1
Entropia unei imagini se calculeaza folosind functia entropy din Matlab.
35

2.6 Exercit, ii propuse


1. Un joc pe calculator presupune utilizarea a dou  taste {↑, ↓}.
Deoarce ap sarea unei taste depinde de tasta ap sat  anterior,
jocul poate  modelat cu o sursa Markov cu memorie
 de ordinul

1/3 2/3
1, denit  de urm toarea matrice de tranzit, ie: P = .
3/4 1/4
Care este cantitatea medie de informat, ie obt, inut  la ap sarea
unei taste s, i cum este aceast  în raport cu cazul model rii sursei
ca surs  discret  f r  memorie?

2. Fie sursa S , caracterizat  de [PS ] = [ 14 , 34 ]. Identicat, i distribut, ia


de probabilit t, i ce corespunde extensiei de ordinul 2 a sursei.
Vericat, i, printr-o secvent, a de cod în Matlab, c  entropia sursei
extinse este 2 ori mai mare decât cea a sursei init, iale.

3. Dimensiunea unei imagini în tonuri de gri, reprezentat  de 8 biti


,

este de 512 × 512 pixeli. Determinat, i cantitatEa de informat, ie


cont, inuta într-un singur pixel s, i în întreaga imagine.

4. Fie o sursa de informat, ie discret  f r  memorie ce emite tex-


tul: Maestrii se dovedesc în lipsa mijloacelor '.
' Determinat, i
distribut, ia de probabilit t, i a simbolurilor sursei s, i calculat, i
ecient, a acesteia. Cât de mare este probabilitatea ca sursa s 
emit  mesajul ' Mac ' ?