Sunteți pe pagina 1din 3

1.

Teorema lui Bayes

Teorema lui Bayes este una din teoremele fundamentale ale teoriei probabilitilor, care determin
probabilitatea apartenenei evenimentelor i a obiectelor la o anumit grup. A fost enun at de
matematicianul britanic Thomas Bayes.

Aplicaii n domeniul informaticii

n cazul filtrelor spam bazate pe teorema lui Bayes (numite i filtre bayesiene), pentru determinarea
probabilitii apartenenei unui anumit mesaj la spam, sunt utilizate dic ionarele create n timpul
nvrii filtrului. De regul programul nva analiznd arhivele de e-mail-uri, selectate n
prealabil manual. Cnd dicionarele sunt create definitiv, probabilitatea apartenenei unui nou mesaj
la spam este calculat prin normalizarea i sumarea probabilit ii fiecrui cuvnt n parte. Prin
urmare, adunnd informaii statistice despre rata de apariie a unor diferite cuvinte i structuri n
mesajele de tip spam sau n mesajele legitime, filtrul compar apoi noile mesaje cu aceste modele i
le clasific corespunztor.

Filtrele bayesiene ofer o precizie de filtrare de 97%-99%, iar fiind corect antrenat se poate apropia
de 100%.

Utilizarea clasificatorului

Primind un mesaj nou, se calculeaz "punctajul" mesajului n fiecare categorie. Acest punctaj este
reprezentat prin urmtorul produs:

sj=
n

i=1
P(CiKj)
P(Ci)

unde Sj este punctajul pentru categoria j, Ci - un cuvnt din mesajul nou, n - numrul de cuvinte din
mesajul nou, Kj - una din categorii. Deci n exemplul nostru dac mesajul nou este "cumpr raport":

j = 0 sau 1, n dependen de "spam" i "nu spam"

n = 2 deoarece avem 2 cuvinte


Deoarece n tehnologiile informaionale se folosesc tipuri de date cu precizie limitat, utilizarea
acestui algoritm n forma actual este descurajat, deoarece produsul numerelor att de mici, n
final, o s cauzeze probleme mari cu precizia rezultatului. n loc de a calcula produsul produsul
indicat anterior, se recomand calculul sumei logaritmilor, primind aceast formul:
n
P(CiKj)
Sj= log
i=1 P(Ci)

Pentru a utiliza clasificatorul este suficient de ales S'j maximal pentru a plasa mesajul n acea
categorie. Relaia ntre S i S' este urmtoarea:
Sj=10 Sj
2.Teoreme limit pentru sume de variabile aleatoare independente

Teorema Moivre-Laplace
Unde n reprezint experimentele, p probabilitatea ca E s apar i q=1-p probabilitatea ca E s nu
apar.
x2

{ }
n b
mb 1
P a e 2
<b dx
k=1 mpq 2 a

Teorema limit central

Dac variabilele aleatoare independente dou cte dou x, x, ..., x au aceeai


repartiie i dac =M(x) i =(x)>0 atunci variabila aleatoare

Xk
n
1

n k=1



Xk
n
1 urmeaz o repartiie normal redus.
2

n k=1

X k M
n
1
n

k=1

3.Statistic descriptiv

Statistica descriptiv este ramura statisticii care se ocupa cu prezentarea unui set de date. Prin
prezentare se permite inelegerea facil a caracteristicilor evenimentelor studiate.
"Descrierea" poate fi fcut grafic sau prin indicatori.
Principalii indicatori statistici folosii sunt:

medie
mediana

varian (dispersie)
Principalele tipuri de grafice folosite sunt:

histogram

grafice liniare

grafice de distribuie

S-ar putea să vă placă și