TTI Aplicatii Lucrarea 2

Lucrarea 2
Surse discrete de informat, ie
2.1 Obiectivul lucr rii

Sursele sunt cele care genereaz informat, ia ce trebuie m surat
pentru a transmis prin canal. Lucrarea are ca scop studiul surselor
discrete de informaµie f r memorie s, i cu memorie, acestea din urm
ind mult mai des întâlnite în lumea real . Este prezentat ³i anali-
zat modul de caracterizare a surselor din punct de vedere informa-
tional. În nal, motivat, ia not, iunilor teoretice studiate este sust, inut
prin construct, ia unul model al limbii române s, i prin analiza imagini-
lor, în ipoteza gener rii acestora de o surs discret de informat, ie f r
memorie.
2.2 Aspecte teoretice

Sursa discret de informaµie debiteaz mesaje la momente discrete
de timp, ecare mesaj ind reprezentat printr-un numar nit de sim-
boluri. Mulµimii de simboluri i se pune în corespondenµa o mulµime
nit de semnale sub forma de impulsuri. Rata de emisie a unei surse
discrete este deci nit .
Simbolul este elementul fundamental, ireductibil, ce contine o in-

formatie, alfabetul ind denit de totalitatea simbolurile emise. Cu-
vântul este o succesiune nit de simboluri c reia i se poate atribui o
semnicatie, acesta reprezentând în fapt un mesaj. Limba reprezint
,
18
19
Fig. 2.1: Functionarea unei surse discrete ce emite informatie

, ,
sub form de text.
mult, imea cuvintelor ce se pot forma cu un alfabet.
Product, ia oric rei surse de informat, ie este un fenomen aleator (un

experiment) ce se poate modela matematic printr-o o variabila alea-
toare X care ia valori din alfabetul sursei (un numar nit de eveni-
mente elementare independente, carora li se pot asocia probabilitati de
realizare) sau o succesiune de v.a. Xi , denite în momentele succesive
de timp la care are loc emisia.
Exemple: Codul Morse - alfabetul codului ce cont, ine 4 sim-

boluri: punct, linie, spat, iul între litere s, i spat, iul între cuvinte; un
semnal bidimensional cuantizat, o imagine - alfabetul reprezen-
tând multimea nivelelor de cuantizare, semnele grace din limba
,
chinez , un mesaj esantionat cu n nivele, care are n + 1 simboluri:

,
0, q, 2q....nq .
2.2.1 Sursa discret f r memorie

O surs discret f r memorie (SDFM) de alfabet [X] = [x1 , ....xD ]
[PX ] = [p(x1 ), ...p(xn )], emite
s, i probabilit t, i câte un simbol xi a c -
rui probabilitate de aparitie p(xi ) nu depinde
, de aparit, ia simbolurilor
precedente:
p(xin |xjn−1 , xkn−2 , ......) = p(xin ) (2.1)
unde xin este simbol oarecare al alfabetului sursei xi , generat la mo-

mentul n.
Considerând o SDFM - [X], se poate forma o nou surs în care

ecare mesaj este o succesiune de n simboluri ale sursei primare [X].
n
Aceast nou surs , [X ] se numes, te extensia de ordinul n a sursei X.
20
Fie X - variabila aleatoare discret asociat product, iei sursei de

informat, ie. Entropia, o m sur a incertitudinii variabilei aleatoare,
este cont, inutul mediu de informat, ie pe simbol emis de surs , dup
cum urmeaz :
n
X n
X
H(X) = p(xi )i(xi ) = − p(xi ) log p(xi ) (2.2)
i=1 i=1
Baza logaritmului este 2 iar entropia este exprimat în bit, i/simbol.

Se demonstreaz us, or c entropia sursei extinse de ordinul n este:
H(X n ) = nH(X) (2.3)
2.2.2 Sursa discret cu memorie

Sursele reale de informat, ie sunt în cea mai mare parte, surse cu
memorie. O surs discret cu memorie furnizeaz câte un simbol a
c rui probabilitate de aparit, ie depinde de simbolul precedent sau de
un s, ir de simboluri precedente, num rul acestora determinând ordinul
memoriei.
Fie o sursa de alfabet [X] = [x1 ..........xD ]. Sursa este o surs cu

memorie de ordinul k dac respect relat, ia:
p(xin,n |xin−1 ,n−1 , xin−2 ,n−2 .....) = p(xin,n |xin−1 ,n−1 , xin−2 ,n−2 ...xin−k ,n−k )
(2.4)
unde in ∈ [1, 2, ...D], p(xin,n ) reprezentând probabilitatea ca la mo-
mentul n s e emis simbolul xin .
O sursa discret stationar (omogen )

, genereaz simboluri ale c -
ror probabilit t, i nu depind de originea timpului ci doar de pozit, iile lor
relative. As, adar, tranzit, iile între dou momente de timp se caracteri-
zeaz prin acelas, i set de probabilit t, i.
Mai departe, sursa stat, ionar cu memorie nit , denumit s, i surs

ergodic este sursa ale c rei siruri de simboluri sunt s, iruri tipice (un s, ir
ce cont, ine n1 = np
P1 simboluri pentru x1 , n2 = np2 simboluri pentru
x2 , etc.,unde n = i ni −→ ∞ iar pi este probabilitatea de aparitie a ,
simbolului xi ). Ergodicitatea presupune în fapt identicarea valorilor

21
Fig. 2.2: Graful de tranzitie al sursei Markov de ordinul 1.

,
medii de-a lungul unei secvent, e de mesaje emise de o surs cu valorile

medii statistice obt, inute asupra ansamblului de secvent, e emise de n
surse.
O surs cu memorie de ordinul 1 - emiterea unui simbol este

condit, ionat de simbolul precedent - poate modelat de un lant,
Markov nit, astfel indu-i atribuit denumirea de sursa Markov.
Acesta reprezint modelul matematic al evolut, iei probabilistice ce p s-
treaz cea mai recent amintire despre trecut, ale c rui probabilit t, i
condit, ionate, de tranzit, ie între st ri, sunt invariante în timp (proprie-
tatea de omogenitate).
O sursa cu memorie de ordinul 1, sursa Markov poate reprezen-

tat printr-un graf, nodurile acesteia ind asociate st rilor, tranzit, iile
între st ri ind evident, iate prin arce (pe care se scriu probabilit t, ile)
s, i descrise de matricea de tranzit, ie.
Exemplu. Fie sursa cu memorie de ordinul 1 descris de gra-

ful din Fig.2.2, ec rei st ri atribuindui-se un singur simbol de ies, ire
(i.e. num rul de st ri este egal cu num rul de simboluri din alfabetul
sursei), simbolul emis ind condit, ionat de cel precedent.
Matricea de tranzit, ie corespunzatoare grafului este:

0.8 0.2
T =
0.4 0.6
Identicarea distribut, iei de probabilit t, i a sursei la echilibru-

stat, ionaritate w = [w1 , w2 ] se face rezolvând un sistem de 2 ecuat, ii:
(
wT = w
(2.5)
w1 + w2 = 1
rezultatul ind: w = [ 23 , 31 ].
22
Nu este obligatoriu ca o surs s ating starea de stat, ionaritate.

Un exemplu simplu de sursa nestat, ionar este prezentat în [28].
S presupunem c avem o moned ale c rei fet, e sunt Cap si Pajura,

notate C s, i P. În plus, e un zar la care pe 4 fete este vopsit C , iar pe
,
restul de doua P (Fig. 2.3). Dac arunc m în mod alternativ moneda

s, i zarul, obt, inem o surs de alfabet [C, P ]. De ecare dat când este
aruncat moneda setul de probabilit t, i este [0.5, 0.5], îns de ecare
dat când este aruncat zarul setul de probabilit t, i este [0.667, 0.333].
Entropia sursei dac am arunca doar moneda ar de 1 bit/simbol,
dac am arunca doar zarul 0.918 bit/simbol, iar dac le arunc m în
mod alternativ este 0.959 bit/simbol.
Fig. 2.3: Surs

.
nestationar .
,
În practic situat, iile în care întâlnim surse nestat, ionare sunt ne-
numarate. Cele mai frecvente exemple sunt cele în care sursa de
informat, ii (sau sursa de date) este compus dintr-o mult, ime de alte
surse distincte, de exemplu: un document cu mai mult, i autori, un s, ier
multimedia, o înregistrare audio într-o încapere cu mai mult, i vorbi-
tori, o serie de pachete distincte trimise printr-un canal de comunicat, ii.
În general abord rile pentru astfel de situat, ii încearc s realizeze se-
pararea acestor surse s, i modelarea mesajului sursei principale ca o
concatenare de s, iruri produse de surse stat, ionare.
Entropia unei surse cu memorie este entropia unui simbol oarecare

al sursei dup observarea tuturor simbolurilor anterioare.
H∞ (X) = lim (Hn /X1 , X2 , ..Xn ) (2.6)

n→∞
Entropia unei surse Markov ergodice unilare (toate simbolurile

furnizate la p rasirea unei st ri sunt distincte) este:
r
X
H∞ (X) = wj H(Sj ) (2.7)
j=1
23
unde r este num rul de st ri prin care poate trece sursa, w = [w1 , ...wr ]
este vectorul distributiei de echilibru iar H(Sj ) este entropia corespun-
,
z toare unei st ri.
La momentul n, in starea Xn entropia sursei cu memorie de ordinul

1 descris în exemplul anterior este: H(Xn ) = H(w1 , w2 ).
2.2.3 Caracterizarea informational a surselor. ,
Parametrii surselor discrete

Fie dat o surs discret X denit de:
[X] = [x1 , x2 , ...xn ]
[PX ] = [p(x1 ), p(x2 )...p(xn )]
[τX ] = [τx1 , τx2 ...τxn ]
Caracterizarea informat, ional a acesteia implic calculul unor pa-

rametrii informat, ionali s, i de ecient, ai sursei, dup cum urmeaz :
1. Entropia sursei:
n
X
H(X) = − p(xi ) log2 p(xi ) [biti/simbol] (2.8)
i=1
2. Entropia maxim a sursei:
Hmax (X) = log2 n [biti/simbol] (2.9)
3. Debitul de informat, ie al sursei:
H(X)
Hτ (X) = [biti/secunda] (2.10)
τ̄
τ̄ ind durata medie de aparit, ie a unui simbol
n
X
τ̄ = p(xi )τ (xi ) [secunde] (2.11)
i=1
24
4. Redundant, a absolut a sursei:
RX = Hmax (X) − H(X); (2.12)
5. Redundant, a relativ a sursei:
H(X)
ρX = 1 − (2.13)
Hmax (X)
6. Ecient, a sursei:
H(X)
ηX = (2.14)
Hmax (X)
2.3 Desf s, urarea lucr rii

Sunt propuse în continuare câteva aplicat, ii ce ilustreaz conceptele
teoretice prezentate anterior privind caracterizarea din punct de vedere
informat, ional a surselor discrete cu s, i f r memorie.
2.3.1 Caracterizarea informational a surselor dis-

,
crete f r memorie

Aplicatie 2.1.
, X ce emite simbolurile [X] = [1, 2, 3, 4, 5],
Fie sursa
cu probabilit tile [PX ] = [0.2, 0.05, 0.4, 0.15, 0.2], durata de aparitie a
, ,
ec rui simbol ind de 1 ms. Calculati parametrii sursei X.

,
%Caracterizarea din punct de vedere informational

%a sursei date.
clear all
clc
n=6 % numarul de simboluri al sursei
Xsimboluri=1:n % vector ce contine simbolurile sursei
Xprobabilitati =[0.2 0.05 0.4 0.15 0.2]
Hmax=log2(n) %entropia maxima a sursei
H=entropie(Xprobabilitati)
Pentru a calcula entropia sursei, se face apel la funct, ia entropie.m,

listat mai jos.
function H = entropie(X);
% X vectorul ce contine probabilitatile simbolurilor
H = - sum(X.*log2(X));
25
Redundant, a absolut a sursei este diferent, a dintre entropia maxim

s, i entropia efectiv a sursei:
Redundanta=Hmax-H
iar ecient, a sursei este dat de raportul din relat, ia (2.14):
Eficienta=H/Hmax
Considernând sursa dat anterior, modicat, i valorile probabilit t, ilor

de aparit, ie ale simbolurilor 1, 3 s, i 5 as, a încât acestea s e egale.
1. Cum se modica redundant, a s, i ecient, a sursei? Justicat, i!
2. Care este distribut, ia de probabilit t, i a simbolurilor date pentru

cazul în care redundant, a are valoare 0?
3. Care este impactul reducerii num rului de simboluri al sursei

asupra entropiei?
4. Cum se modic entropia sursei dac cres, tem num rul de sim-

boluri prin ad ugarea unui simbol de probabilitate 0?
Aarea debitului de informat, ie al sursei implic calcularea τ̄ folosind

relat, ia (2.11), în cazul de fat, a, durata de aparit, ie a ec rui simbol
ind 1 ms, τ̄ = 1s iar debitul este Hτ (X) = H(X)[biti/secunda].
Aplicatie 2.2.
, [5] Consider m o curs de cai cu 8 participant, i, des-
1 1 1 1 1 1 1 1
cris de probabilit t, ile de câstig ale c rui cal: [ ].
2 4 8 16 64 64 64 64
Implementat, i în Matlab secvent, a de instruct, iuni ce realizeaz ca-
racterizarea informat, ional a sursei ce transmite numerele de concurs
ale cailor câs, tig tori.
clear all
clc
n=8 % numarul de simboluri al sursei
Xsimboluri=1:n % vector ce contine simbolurile sursei
Xprobabilitati =[1/2 1/4 1/8 1/16 1/64 1/64 1/64 1/64]
Hmax=log2(n) %entropia maxima a sursei
H=entropie(Xprobabilitati)
Redundanta=Hmax-H
Eficienta=H/Hmax
Presupunând c dorim s trimitem un mesaj care s transmit

care este calul ce a câs, tigat cursa, o alternativ ar s transmitem
indexul acestuia, descrierea necesitând 3 biti (Hmax ) oricare ar calul
26
înving tor. Probabilit t, ile de câstig nu sunt îns uniforme, de aici

posibilitatea de a realiza mesaje mai scurte pentru caii cu probabilitate
mare de câstig s, i mesaje mai lungi pentru cei cu s, anse mici, as, a încât
s obt, inem o lungime medie a mesajului mai mic decât 3.
În capitolele urm toare, Lucrarea 4, sect, iunea 4.2 vom arata c

entropia unei variabile aleatoare reprezint limita inferioar a num -
rului de bit, i necesar pentru a reprezenta aceast variabil s, i, totodat ,
num rul minim de întrebari cu r spuns "Da"/"Nu" necesare pentru a
identica variabila (Exemplul 4.1).
Aplicatie 2.3.
, Fie experimentul arunc rii monedei modelat de sursa
discret f r memorie X ce emite dou simboluri X = [cap, pajura],
cu probabilit t, ile PX = [1 − p, p]. Scrieti în Matlab secventa de cod ce
, ,
calculeaz entropia acestei surse s, i reprezentat, i grac, folosind funct, ia

plot, dependent, a entropiei de valoarea lui p.
Fig. 2.4: H(p) versus p.
p=linspace(0,1,1000);% genereaza un vector de 1000 de

elemente cu valori intre 0 si 1.
H=-(1-p).*log2(1-p)-p.*log2(p);
plot(p,H);
xlabel('p', 'FontSize',14); ylabel('H(p)','FontSize',14);
Aplicatie 2.4.
, Fie o surs S ce emite trei simboluri [S] = [X, Y, Z]
cu probabilit tile [PS ] = [0.5, 0.3, 0.2]. Calculati num rul maxim de
, ,
mesaje de lungime 3 ce se pot forma cu simbolurile emise de surs si ,
cantitatea de informat, ie cont, inut într-un astfel de mesaj. Comparat, i

ecient, a sursei extinse cu ecient, a sursei S.
27
Num rul de mesaje de lungime 3 ce se pot forma cu simbolurile

3
sursei este 3 . Acestea alc tuiesc "simbolurile" sursei extinse de ordi-
nul 3:
[S 3 ] = [XXX, XXY, XY Y · · · · · · ZZZ]
[PS 3 ] = [p(X)3 , p(X)2 p(Y ) · · · p(Z)3 ]
Cantitatea de informat, ie cont, inut într-un mesaj al sursei extinse

se determin introducând parametrii sursei extinse în codul Matlab
descris anterior s, i folosind relat, ia (2.3).
Aplicatie 2.5.
, Fie sursa X ce a emis mesajul " The quick brown fox
jumps over the lazy dog!". Identicat, i cont, inutul de informat, ie pe
liter din mesajul dat s, i reprezentat, i grac distribut, ia de probabilit t, i
a simbolurilor emise de surs .
Pentru a calcula cont, inutul de informat, ie pe liter din acest mesaj

este necesar identicarea probabilit t, ilor de aparit, ie ale simbolurilor
sursei [X]. Se poate scrie astfel o secvent, care s returneze un vector
ce cont, ine probabilit t, ile de aparit, ie ale simbolurilor.
Fig. 2.5: Frecventa simbolurilor emise de sursa

,
din Aplicatia 2.5.

,
mesaj='The quick brown fox jumps over the lazy dog!'

%sunt eliminate spatiile dintre cuvinte
mesaj(mesaj==' ')=[];
% se realizeaza conversia literelor catre litere mici,
%fiecarei litere i se atribuie un numar
mesaj=lower(mesaj)-double('a')+1;
28
%se renunta la caracterele ce nu sunt litere

mesaj(mesaj < 1) = [];
mesaj(mesaj > 26) = [];
%frecventa simbolurilor in mesaj
frecv = hist(mesaj, 0:26);
% distributia de probabilitate a sursei
P=frecv./sum(frecv);
count = hist(mesaj, 0:26);
bar(0:26, count);
labels = char([double('@'), double('a'):double('z')])';
set(gca, 'XTick', 0:26+0.5, 'XTickLabel', labels); axis
tight
2.3.2 Caracterizarea informational a sursei dis- ,
crete cu memorie
Fie o surs cu memorie cu n st ri. Matricea probabilit t, ilor de
tranzit, ie este o matrice p tratic , P, suma ec rei linii ind egal cu
1. Pentru a demonstra modul de funct, ionare al unei astfel de surse cu
memorie vom folosi în continuare câteva exemple, pornind de la cea
mai simpl surs cu memorie, sursa Markov cu 2 stari.
Aplicatie 2.6.
, Fie sursa discret cu memorie descris de graful
probabilit t, ilor de tranzit, ie din Fig. 2.6.
Fig. 2.6: Graful de tranzitie al st rilor pentru Sursa Markov

,
corespunzatoare Aplicatiei 2.6. ,
Distribut, ia de probabilit t, i a st rii init, iale ind s = [1 0], scriet, i

codul Matlab ce calculeaz probabilit t, ile de transmisie ale simbolu-
rilor dupa 5 pas, i.
29
Urm rind graful din Fig. 2.6 rezult matricea probabilit t, ilor de

0.97 0.03
tranzit, ie: P = .
1 0
ns=2; % numarul de stari
P=[0.97 0.03;1 0] % matricea de tranzitie a starilor
Starea init, ial a sursei este denit printr-un vector de

probabilit t, i (linie) suma elementelor ind 1.
s=[1 0]% distributia de probabilitati a starii initiale
for i=1:5
s=s*P;
disp(sprintf('Distributia de probabilitati in pasul %d'
,i))
display (s);
disp(sprintf('Entropia sursei in pasul %d',i))
display (entropie(s));
end
Entropia corespunz toare ecarei st ri a fost calculat cu ajutorul

funct, iei entropie.m folosit în prima parte a lucr rii.
În general o astfel de surs evolueaz c tre o stare stat, ionar , stare

ce se poate anticipa urm rind evolut, ia sursei. Cres, terea num rului de
pas, i conduce la aarea vectorului de probabilit t, i corespunzator st rii
stat, ionare, distribut, ie de echilibru ce îndeplineste condit, ia dat de
relat, ia (2.5).
Fiind descris de un vector de probabilit t, i cu toate componentele

nenule aceast stare se poate calcula efectiv extr gând vectorii proprii
principali s, i normând rezultatul [21].
[evecs,evals]=eig(P');
p_st=evecs(:,1) ./ sum(evecs(:,1));
disp(sprintf('Distributia de probabilitati la
stationaritate:'))
display (p_st);
%verificarea starii de stationaritate
p_st'*P
Rezultatul poate inconsistent numeric deoarce cea de-a doua

P
i pst = 1. Varianta
condit, ie a relat, iei (2.5) a fost ignorat , respectiv
alternativ exploateaz faptul c pst 1ns×ns = 11×ns [25] suma elemen-
telor pe linie în matricea P ind egal cu 1, pst (I −P +1ns×ns ) = 11×ns .
p_st = ones(1,ns) / (eye(ns)-P+ones(ns,ns));

30
Fig. 2.7: Graful de tranzitie al st rilor pentru sursa Markov

descris în Aplicatia 2.7
,
display(p_st*P)
Aplicatie 2.7.
, Fie sursa discret cu memorie descris de graful de
tranzit, ii din Fig. 2.7. Considerând distribut, ia de probabilit t, i a st rii
init, iale s = [0 1 0], scriet, i codul Matlab ce calculeaz probabilit t, ile
de transmisie ale simbolurilor dupa 10 pas, i s, i identicat, i distribut, ia
de echilibru a sursei.
ns=3; % numarul de stari

P=[1/3 2/3 0; 1 0 0; 1/2 0 1/2];
s=[0 1 0];
for i=1:10
s=s*P;
disp(sprintf('Distributia de probabilitati in pasul %d',i))
display (s);
disp(sprintf('Entropia sursei in pasul %d',i))
display (entropie(s));
end
Cât de repede a ajuns sursa la distribut, ia de echilibru?
Distribut, ia de probabilit t, i la stat, ionaritate calculat direct:
p_st = ones(1,ns) / (eye(ns)-P+ones(ns,ns));

display(p_st*P)
31
2.4 Modelarea Limbii Române ca surs

discret de informat, ie
Un model de limb atribuie o probabilitate unui text scris, pe
baza unui anumit set de antrenare. De exemplu, un model de limb
construit pentru limba român care ar avea la baz nis, te texte extrase
din arhiva unui ziar ar atribui o probabilitate mai mare de aparit, ie
textului 'linia de metrou' decât textului 'lin iad e metru'. Aceasta
se întâmpl deoarece cuvintele din primul text au o probabilitate mai
mare de aparit, ie (în modelul ales pentru antrenare - presa scris ) decât
cuvintele din al doilea text.
Fig. 2.8: Constructia unui model al limbii române.

,
Ce înseamn îns c anumite cuvinte sunt mai frecvente s, i este

aceasta singura regul care descrie o limb ? Presupunând c avem la
dispozit, ie o mare diversitate de texte pe teme foarte variate astfel încât
s minimiz m inuent, a tematicii în construirea modelului de limb ,
construirea unui model de limb înseamn denirea unui mecanism
probabilistic care s genereze limba.
Astfel, s ne imagin m c în mod absolut arbitrar alegem un cu-
vânt de pe o pagin oarecare. Dac vom considera pagina ca ind un
document iar cuvântul ca ind un text, atunci alegerea cuvântului T
din documentul D înseamn denirea unei probabilit t, i condit, ionate
P (T |D).
O alt variant de a deni probabilitatea cuvântului T în docu-
mentul D ar s num r m de câte ori apare cuvântul în pagin s, i s
norm m la num rul total de cuvinte din pagin .
Altfel, am putea s denim cuvântul ca ind totalitatea literelor

ce îl compun, deci estimând probabilitatea ec rei litere am putea
calcula probabilitatea cuvântului ca ind produsul probabilit t, ilor in-
32
dividuale:
P (metrou) = P (m) · P (e) · P (t) · P (r) · P (o) · P (u)
Desigur, acesta nu ar un model foarte realist, întrucât ar presu-

pune c literele ce formeaz cuvântul sunt emise în mod independent.
Pentru a crea un model de limb mai aproape de realitate am putea
s denim probabilitatea cuvântului T pe baza grupurilor de litere din
care este format. Putem alege grupuri de 2, 3, 4 litere sau mai multe.
O variant ar s consider m modelul bazat pe regula lant, :
P (metrou) = P (u|metro)·P (o|metr)·P (r|met)·P (t|me)·P (e|m)·P (m)
Extrapolând acum la întreaga limb , putem s denim o serie de

modele, în funct, ie de gradul de complexitate pe care îl alegem, sau
altfel spus de gradul de delitate cu care modelul descrie limba. Cel
mai simplu model consider ipoteza echiprobabilit t, ii literelor. Astfel,
pentru limba român , deoarece exist 31 de litere (26 caractere +5
caractere cu diacritice), am avea:
L1romana = [a, b, c, d, .....x, y, z]

1 1 1
P (L1) = { , , ..... }
31 31 31
Evident, textele generate cu un astfel de model nu ar avea prea

mult sens. Din punct de vedere informat, ional, limba generat de acest
model ar complet haotic , adic ar avea o entropie maxim .
HL1 = log2 31 = 4.95 bit/simbol
Dac se iau în considerare probabilit t, ile reale ale literelor con-

siderate în mod individual folosind o colect, ie de texte (Tabelul 2.1)
atunci acest lucru este echivalent cu a spune c am introdus nis, te con-
strângeri în modul în care am descris limba, f când-o astfel mai put, in
haotic . Sigur, nici de aceast dat nu vom putea produce un text
cu sens folosind acest model, dar cel put, in litera Z nu va mai ap -
rea la fel de frecvent precum litera A de exemplu. Efectul reducerii
incertitudinii va sc derea entropiei: HL2 < HL1 .
33
N r.crt. xi p(xi ) i(xi ) N r.crt. xi p(xi ) i(xi )

1 E 0.1214 3.0421 17 F 0.0119 6.3928
I
2 I 0.1058 3.2405 18 0.0119 6.3928
3 A 0.1005 3.3147 19 V 0.0115 6.4422
4 R 0.076 3.7178 20 T
, 0.011 6.5063
5 N 0.0651 3.9411 21 G 0.0099 6.6583
6 T 0.0621 4.0092 22 B 0.0084 6.8953
7 U 0.0586 4.0929 23 Z 0.0076 7.0397
8 C 0.0508 4.2990 24 Â 0.0067 7.2216
9 L 0.0481 4.3778 25 H 0.0038 8.0397
10 O 0.0422 4.5666 26 J 0.0025 8.6438
11 S 0.0411 4.6047 27 X 0.0019 9.0397
12 0.0339 4.8825 28 K 0.0004 11.2877
13 D 0.0326 4.9389 29 Y 0.0003 11.7027
14 P 0.0318 4.9748 30 W 0.0002 12.2877
15 M 0.0287 5.1228 31 Q 0 -
16 S
, 0.0133 6.2324 HL2(X) = 4.2021 biti/simbol
Tabel 2.1: Probabilitatile reale ale literelor in limba romana.
Prin ad ugarea unor constrângeri (sunt luate în considerare

probabilit t, ile cuvintelor, di-gramelor, tri-gramelor, etc), se raneaz
modelul de limb s, i scade entropia.
Probabilitatile simbolurilor prezentate în Tabelul 2.1 plecând de

la o colect, ie de texte au fost identicate ignorând spat, iul dintre cu-
vinte. Dac , în plus, acesta este considerat drept simbol suplimentar,
alfabetul sursei se modic în consecint, - 32 de simboluri iar entropia
scade HL3 = 4.1564 biti/simbol [30].
Daca limba este modelat ca o surs ergodic de tip Markov cu

probabilit t, ile st rilor (literelor) p(xi ) s, i probabilit t, ile de tranzit, ie
între st ri p(yj |xi ) atunci entropia sursei este:
N
X
H(X) = − p(xi ) · p(yj /xi ) · log2 p(yj /xi )
i,j=1
În aceast ipotez , entropia limbii scade la HL4 = 3.8 biti/simbol.

Introducerea unor restrict, ii lexicale s, i gramaticale suplimentare, spe-
34
cice limbii române, are ca efect sc derea informat, iei medii pe simbol
c tre valoarea real a entropiei limbii române [9]:
Hlb.romana = 3.18 biti/litera
2.5 Analiza imaginilor ca surse discrete de

informat, ie
Considerând drept surs de informat, ie o camer foto mesajul
emis de aceasta este o imagine, simbolurile reprezentând valoarea
intensit t, ii pixelilor, respectiv alfabetul sursei este S8 = [0 · · · 255]
dac imaginea este reprezentat pe 8 bit, i - Fig.2.9 (c), S4 = [0 · · · 15]
dac imaginea este reprezentat folosind 4 bit, i - Fig. 2.9 (b) s, i
S2 = [0 1 2 3] dac imaginea este redat în 4 nivele de gri - Fig.
2.9 (a), utilizând 2 bit, i.
(a) (b) (c)
Fig. 2.9: Reprezentarea imaginii pe diferite tonuri de gri

folosind a) 2 biti; b) 4 biti; c) 8 biti.
, , ,
Aplicatie 2.8.
, Pornind de la not, iunile introduse în Lucrarea 1 -
1
Sect, iunea 1.2.5 realizat, i o secvent, de cod care s calculeze entropia
ec rei surse de informat, ie ce a emis imaginile din Fig. 2.9.
1
Entropia unei imagini se calculeaza folosind functia entropy din Matlab.
35
2.6 Exercit, ii propuse

1. Un joc pe calculator presupune utilizarea a dou taste {↑, ↓}.
Deoarce ap sarea unei taste depinde de tasta ap sat anterior,
jocul poate modelat cu o sursa Markov cu memorie
de ordinul

1/3 2/3
1, denit de urm toarea matrice de tranzit, ie: P = .
3/4 1/4
Care este cantitatea medie de informat, ie obt, inut la ap sarea
unei taste s, i cum este aceast în raport cu cazul model rii sursei
ca surs discret f r memorie?
2. Fie sursa S , caracterizat de [PS ] = [ 14 , 34 ]. Identicat, i distribut, ia

de probabilit t, i ce corespunde extensiei de ordinul 2 a sursei.
Vericat, i, printr-o secvent, a de cod în Matlab, c entropia sursei
extinse este 2 ori mai mare decât cea a sursei init, iale.
3. Dimensiunea unei imagini în tonuri de gri, reprezentat de 8 biti

,
este de 512 × 512 pixeli. Determinat, i cantitatEa de informat, ie

cont, inuta într-un singur pixel s, i în întreaga imagine.
4. Fie o sursa de informat, ie discret f r memorie ce emite tex-

tul: Maestrii se dovedesc în lipsa mijloacelor '.
' Determinat, i
distribut, ia de probabilit t, i a simbolurilor sursei s, i calculat, i
ecient, a acesteia. Cât de mare este probabilitatea ca sursa s
emit mesajul ' Mac ' ?

TTI Aplicatii Lucrarea 2

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

TTI Aplicatii Lucrarea 2

Încărcat de

Drepturi de autor:

Formate disponibile

Lucrarea 2

Surse discrete de informat, ie

2.1 Obiectivul lucr rii

2.2 Aspecte teoretice

Simbolul este elementul fundamental, ireductibil, ce contine o in-

Fig. 2.1: Functionarea unei surse discrete ce emite informatie

sub form de text.

mult, imea cuvintelor ce se pot forma cu un alfabet.

Product, ia oric rei surse de informat, ie este un fenomen aleator (un

Exemple: Codul Morse - alfabetul codului ce cont, ine 4 sim-

chinez , un mesaj esantionat cu n nivele, care are n + 1 simboluri:

2.2.1 Sursa discret f r memorie

p(xin |xjn−1 , xkn−2 , ......) = p(xin ) (2.1)

unde xin este simbol oarecare al alfabetului sursei xi , generat la mo-

Considerând o SDFM - [X], se poate forma o nou surs în care

Fie X - variabila aleatoare discret asociat product, iei sursei de

Baza logaritmului este 2 iar entropia este exprimat în bit, i/simbol.

H(X n ) = nH(X) (2.3)

2.2.2 Sursa discret cu memorie

Fie o sursa de alfabet [X] = [x1 ..........xD ]. Sursa este o surs cu

O sursa discret stationar (omogen )

Mai departe, sursa stat, ionar cu memorie nit , denumit s, i surs

simbolului xi ). Ergodicitatea presupune în fapt identicarea valorilor

Fig. 2.2: Graful de tranzitie al sursei Markov de ordinul 1.

medii de-a lungul unei secvent, e de mesaje emise de o surs cu valorile

O surs cu memorie de ordinul 1 - emiterea unui simbol este

O sursa cu memorie de ordinul 1, sursa Markov poate  reprezen-

Exemplu. Fie sursa cu memorie de ordinul 1 descris de gra-

Matricea de tranzit, ie corespunzatoare grafului este:

Identicarea distribut, iei de probabilit t, i a sursei la echilibru-

Nu este obligatoriu ca o surs s ating starea de stat, ionaritate.

S presupunem c avem o moned ale c rei fet, e sunt Cap si Pajura,

restul de doua P (Fig. 2.3). Dac arunc m în mod alternativ moneda

Fig. 2.3: Surs

Entropia unei surse cu memorie este entropia unui simbol oarecare

H∞ (X) = lim (Hn /X1 , X2 , ..Xn ) (2.6)

Entropia unei surse Markov ergodice unilare (toate simbolurile

z toare unei st ri.

La momentul n, in starea Xn entropia sursei cu memorie de ordinul

2.2.3 Caracterizarea informational a surselor. ,

Parametrii surselor discrete

[X] = [x1 , x2 , ...xn ]

[PX ] = [p(x1 ), p(x2 )...p(xn )]

[τX ] = [τx1 , τx2 ...τxn ]

Caracterizarea informat, ional a acesteia implic calculul unor pa-

2. Entropia maxim a sursei:

Hmax (X) = log2 n [biti/simbol] (2.9)

3. Debitul de informat, ie al sursei:

4. Redundant, a absolut a sursei:

RX = Hmax (X) − H(X); (2.12)

5. Redundant, a relativ a sursei:

2.3 Desf s, urarea lucr rii

2.3.1 Caracterizarea informational a surselor dis-

crete f r memorie

ec rui simbol ind de 1 ms. Calculati parametrii sursei X.

%Caracterizarea din punct de vedere informational

Pentru a calcula entropia sursei, se face apel la funct, ia entropie.m,

Redundant, a absolut a sursei este diferent, a dintre entropia maxim

iar ecient, a sursei este dat de raportul din relat, ia (2.14):

Considernând sursa dat anterior, modicat, i valorile probabilit t, ilor

1. Cum se modica redundant, a s, i ecient, a sursei? Justicat, i!

2. Care este distribut, ia de probabilit t, i a simbolurilor date pentru

3. Care este impactul reducerii num rului de simboluri al sursei

4. Cum se modic entropia sursei dac cres, tem num rul de sim-

Mai departe, sursa stat, ionar cu memorie nit , denumit s, i surs

simbolului xi ). Ergodicitatea presupune în fapt identicarea valorilor

O sursa cu memorie de ordinul 1, sursa Markov poate reprezen-

Identicarea distribut, iei de probabilit t, i a sursei la echilibru-

Entropia unei surse Markov ergodice unilare (toate simbolurile

ec rui simbol ind de 1 ms. Calculati parametrii sursei X.

iar ecient, a sursei este dat de raportul din relat, ia (2.14):

Considernând sursa dat anterior, modicat, i valorile probabilit t, ilor

1. Cum se modica redundant, a s, i ecient, a sursei? Justicat, i!

4. Cum se modic entropia sursei dac cres, tem num rul de sim-

Aarea debitului de informat, ie al sursei implic calcularea τ̄ folosind

calculeaz entropia acestei surse s, i reprezentat, i grac, folosind funct, ia

Distribut, ia de probabilit t, i a st rii init, iale ind s = [1 0], scriet, i

Starea init, ial a sursei este denit printr-un vector de

Entropia corespunz toare ecarei st ri a fost calculat cu ajutorul

Rezultatul poate inconsistent numeric deoarce cea de-a doua

Altfel, am putea s denim cuvântul ca ind totalitatea literelor

Desigur, acesta nu ar un model foarte realist, întrucât ar presu-

Extrapolând acum la întreaga limb , putem s denim o serie de

2. Fie sursa S , caracterizat de [PS ] = [ 14 , 34 ]. Identicat, i distribut, ia