Sunteți pe pagina 1din 3

Introducere n Matlab (3)

Alex Dumitrache
Variabile aleatoare

Exemplul anterior genereaz


a o variabil
a aleatoare
(cvasi)continu
a.
Pentru a obt, ine valori discrete, putem
rotunji valoarea astfel:

O variabil
a aleatoare este o funct, ie care atribuie valori numerice
unice tuturor rezultatelor posibile ale unui experiment.
Tipuri:

x = floor (10 * rand (1000 , 1) ) ;


subplot (211) , plot (x , . )
subplot (212) , hist (x , 100)

Variabil
a aleatoare continu
a (poate lua o infinitate de valori)
Variabil
a aleatoare discret
a (poate lua un num
ar finit de
valori)

10
8
6
4

Variabilele aleatoare pot fi descrise printr-o distribut, ie de probabilitate a valorilor pe care acestea le pot lua.

2
0

100

200

300

400

500

600

700

800

900

1000

150

Cea mai simpl


a este distribut, ia uniform
a:

100

50

x = rand (1000 ,1) ;


subplot (211) , plot ( x )
subplot (212) , hist (x , 100)

O alt
a distribut, ie foarte utilizat
a este distribut, ia normal
a gaussian
a, caracterizat
a de medie s, i abatere standard.

1
0.8
0.6

x = randn (1000 , 1) ;
subplot (211) , plot ( x )
subplot (212) , hist (x , 100)

0.4
0.2
0

100

200

300

400

500

600

700

800

900

1000

20

15

10

5
0

2
0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Dac
a avem la dispozit, ie mai multe es, antioane (valori ale variabilei aleatoare), putem aproxima histograma cu acuratet, e mai
ridicat
a:

100

200

300

400

500

600

700

800

900

1000

40
30
20
10

x = rand (100000 ,1) ;


subplot (211) , plot ( x )
subplot (212) , hist (x , 100)

0
4

1
0.8

mean ( x )
std ( x )

0.6
0.4
0.2
0

10

ans =
0.0055
ans =
1.0049

x 10
1500

1000

500

0.1

0.2

0.3

0.4

0.5

0.6

Funct, ia randn genereaz


a o variabil
a aleatoare cu media 0 s, i
abaterea standard 1.

0.7

0.8

0.9

Densitatea de probabilitate normal


a este:

(x)2
1

f (x, , ) = e 22
2
unde este media, iar este abaterea standard.

Decodificare: act, iunea de a reconstrui mesajul original din


reprezentarea codificat
a (comprimat
a).

(1)

Compresia poate fi f
ar
a pierderi (lossless) sau cu pierderi
(lossy).

Exercit, iul 1

Entropia

Generat, i o variabil
a aleatoare cu media diferit
a de zero s, i
abaterea standard diferit
a de 1.

Shannon [1] a preluat not, iunea de entropie din fizic


a, utiliz
and-o pentru a ar
ata cantitatea de informat, ie dintr-un anumit mesaj, atunci c
and se cunoas, te o descriere probabilistic
aa
acestuia.

Verificat, i dac
a densitatea de probabilitate respect
a ecuat, ia de
mai sus.

Definim informat, ia atas, at


a unui eveniment A, care se produce
cu probabilitatea p(A), ca fiind:

4
2
0

i(A) = logx p(A)

2
4

100

200

300

400

500

Variabil aleatoare:

600

700

800

900

=3, = 2

0.2
Histograma
Densitatea de probabilitate

0.15

(2)

Informat, ia obt, inut


a la producerea a dou
a evenimente independente este suma informat, iilor obt, inute la producerea evenimentelor individuale:

1000

0.1

i(AB) = i(A) + i(B)

0.05
0
6

10

12

(3)

Unitatea de m
asur
a a informat, iei depinde de baza logaritmului:

14

Baza 2: unitatea de m
asur
a se numes, te bit (cea mai
folosit
a);

Exercit, iul 2

Baza e: unitatea de m
asur
a se numes, te nat;

Fie A o variabil
a aleatoare av
and distribut, ie normal
a, cu media
s, i abaterea standard .
Calculat, i urm
atoarele probabilit
at, i:

Baza 10: unitatea de m


asur
a se numes, te hartley;
Pentru o mult, ime de evenimente independente Ai , unde
fiecare eveniment apare cu probabilitatea p(Ai ) astfel nc
at
P
a experimentului este:
i p(Ai ) = 1, informat, ia medie asociat
X
X
H=
p(Ai ) i(Ai ) =
p(Ai )logx p(Ai )
(4)

Probabilitatea ca A s
a ia valori ntre s, i ;
Probabilitatea ca A s
a ia valori ntre 2 s, i 2;
Probabilitatea ca A s
a ia valori ntre 3 s, i 3.

Verificat, i numeric rezultatul obt, inut.

pe care o vom numi entropia asociat


a experimentului.

Exercit, iul 3

Aplicat, ia entropiei n compresia datelor

Fie A s, i B dou
a variabile aleatoare av
and distribiut, ie normal
a,
cu media A , rspectiv B , s, i abaterea standard A , rspectiv
B .
Experimental, deducet, i media s, i abaterea standard pentru
suma acestor dou
a variabile (suma este, la r
andul ei, o nou
a
variabil
a aleatoare gaussian
a).
Folosind rezultatul anterior, calculat, i media s, i abaterea standard pentru A x + B y, unde x s, i y sunt scalari.
Ce putet, i spune despre produsul A B ? Este o variabil
a
aleatoare? Respect
a distribut, ia normal
a (gaussian
a)? Dac
a
da, care sunt parametrii acesteia?

Teorema lui Shannon: Entropia reprezint


a limita fundamental
a
(teoretic
a) pentru compresia f
ar
a pierderi (lossless).

Compresia datelor

Exercit, iul 4

Terminologie:
Mesaj: ceea ce dorim s
a comprim
am (de obicei, un fis, ier);

Se consider
a un fis, ier text n limba englez
a. Calculat, i s, i
reprezentat, i grafic probabilitatea de aparit, ie a fiec
arei litere
din alfabet.

Codificare: act, iunea de a transforma mesajul init, ial ntr-o


reprezentare care ocup
a mai put, in spat, iu;

Pentru citirea fis, ierului, utilizat, i urm


atoarea secvent, a
de program:

Cu alte cuvinte, dac


a experimentul este o surs
a care furnizeaz
a
mesajele Ai dintr-o mult, ime A, atunci entropia este o m
asur
a
a num
arului mediu de simboluri binare necesare cod
arii ies, irii
sursei.
De asemenea, un algoritm de compresie f
ar
a pierderi optim
poate coda mesajele sursei cu un num
ar mediu de bit, i cel put, in
egal cu entropia sursei [2].

Exercit, iul 5

f = fopen(book.txt);
d = fread(f);
fclose(f);

Scriet, i o funct, ie care estimeaz


a entropia unui fis, ier binar oarecare, cu urm
atoarea declarat, ie:

Pentru conversie de la tipul de date numeric la s, ir de caractere,


folosit, i funct, iile char s, i double.

function e = calcul_entropie(nume_fisier)

0.14

Considerat, i c
a fiecare simbol este un octet (8 bit, i). Calculat, i
probabilitatea de aparit, ie a fiec
arui simbol s, i estimat, i entropia.

0.12

0.1

0.08

Apelat, i funct, ia pentru mai multe tipuri de fis, iere (de exemplu,
fis, iere text, executabile, fis, iere video, fis, iere imagine etc). De
asemenea, comprimat, i aceste fis, iere cu un utilitar uzual (de exemplu, zip). Putet, i identifica o corelat, ie ntre rata de compresie s, i entropia calculat
a de voi? In caz afirmativ, reprezentat, i
grafic acest lucru.

0.06

0.04

0.02

a b c d e

g h

l m n o p q

u v w x y z

Explicat, i de ce, n cazul codului Morse, litera E este codificat


a
ca . , litera T este - , iar litera Q este --.- .

Referint, e

Folosind probabilit
at, ile calculate anterior, estimat, i entropia
textului n limba englez
a, n ipoteza (simplificat
a) n care textul este format doar din litere mici (a...z), ignor
and spat, iile s, i
semnele de punctuat, ie.

[1] C. E. Shannon (1948), A Mathematical Theory of Communication,


http://cm.bell-labs.com/cm/ms/what/shannonday/shannon1948.pdf

Pentru logaritmare utilizat, i baza 2.


[2] Daniela T
arniceriu, Introducere n compresia datelor, cursul de Tehnici de compresie a semnalelor multimedia, Universitatea Tehnic
a Gh. Asachi Ias, i,
http://telecom.etc.tuiasi.ro/pns/cc/
.

S-ar putea să vă placă și