Documente Academic
Documente Profesional
Documente Cultură
Teorema lui Bayes este una din teoremele fundamentale ale teoriei probabilitilor, care determin
probabilitatea apartenenei evenimentelor i a obiectelor la o anumit grup. A fost enun at de
matematicianul britanic Thomas Bayes.
n cazul filtrelor spam bazate pe teorema lui Bayes (numite i filtre bayesiene), pentru determinarea
probabilitii apartenenei unui anumit mesaj la spam, sunt utilizate dic ionarele create n timpul
nvrii filtrului. De regul programul nva analiznd arhivele de e-mail-uri, selectate n
prealabil manual. Cnd dicionarele sunt create definitiv, probabilitatea apartenenei unui nou mesaj
la spam este calculat prin normalizarea i sumarea probabilit ii fiecrui cuvnt n parte. Prin
urmare, adunnd informaii statistice despre rata de apariie a unor diferite cuvinte i structuri n
mesajele de tip spam sau n mesajele legitime, filtrul compar apoi noile mesaje cu aceste modele i
le clasific corespunztor.
Filtrele bayesiene ofer o precizie de filtrare de 97%-99%, iar fiind corect antrenat se poate apropia
de 100%.
Utilizarea clasificatorului
Primind un mesaj nou, se calculeaz "punctajul" mesajului n fiecare categorie. Acest punctaj este
reprezentat prin urmtorul produs:
sj=
n
i=1
P(CiKj)
P(Ci)
unde Sj este punctajul pentru categoria j, Ci - un cuvnt din mesajul nou, n - numrul de cuvinte din
mesajul nou, Kj - una din categorii. Deci n exemplul nostru dac mesajul nou este "cumpr raport":
Pentru a utiliza clasificatorul este suficient de ales S'j maximal pentru a plasa mesajul n acea
categorie. Relaia ntre S i S' este urmtoarea:
Sj=10 Sj
2.Teoreme limit pentru sume de variabile aleatoare independente
Teorema Moivre-Laplace
Unde n reprezint experimentele, p probabilitatea ca E s apar i q=1-p probabilitatea ca E s nu
apar.
x2
{ }
n b
mb 1
P a e 2
<b dx
k=1 mpq 2 a
Xk
n
1
n k=1
Xk
n
1 urmeaz o repartiie normal redus.
2
n k=1
X k M
n
1
n
k=1
3.Statistic descriptiv
Statistica descriptiv este ramura statisticii care se ocupa cu prezentarea unui set de date. Prin
prezentare se permite inelegerea facil a caracteristicilor evenimentelor studiate.
"Descrierea" poate fi fcut grafic sau prin indicatori.
Principalii indicatori statistici folosii sunt:
medie
mediana
varian (dispersie)
Principalele tipuri de grafice folosite sunt:
histogram
grafice liniare
grafice de distribuie