Sunteți pe pagina 1din 6

9.

2 CLASIFICATORUL NAIVE BAYES


Suportul teoretic al clasificatorului Naive Bayes este teorema lui Bayes, care are
următorul enunţ:
Teorema lui Bayes (Veysseyre, 2006, pg. 46). Dacă este o
mulţime de evenimente care reprezintă toate cazurile posibile şi exclusive de
realizare a unui eveniment de probabilitate , atunci

, (9.1)

unde prin se înţelege probabilitatea evenimentului condiţionat de


evenimentul .
Observaţii
 În termenii teoriei probablităţilor spunem că mulţimea evenimentelor
{ formează un sistem complet de evenimente, adică:
- Evenimentele sunt disjuncte două câte două ,
;
- Reuniunea evenimentelor este evenimentul sigur ,
(
 Interpretarea formulei (9.1) este următoarea: probabilitatea , numită
şi probabilitate a priori este probabilitatea evenimentului atâta timp cât
nu avem cunoştinţă de realizarea evenimentului . În momentul în care
ştim că evenimentul s-a produs, influenţa sa asupra evenimentului se
va reflecta în valoarea probabilităţii condiţionate numită
probabilitate a posteriori.
Clasificatorul Naive Bayes reprezintă una din formele de implementare a
clasificatorului Bayes, care se fundamentează pe Teorema lui Bayes, prezentată
anterior. Dacă în formula (9.1) considerăm că evenimentul , iar
reprezintă evenimentul { , atunci obţinem un mod de evaluare al
probabilităţilor condiţionate , conform relaţiei:

Ţinând de această relaţie, observaţia va fi clasificată în clasa , pentru care

deoarece numitorii , sunt constanţi în raport cu


.
Probabilitatea se poate scrie sub forma echivalentă
.
Pentru uşurinţa calculelor este convenabil să presupunem că evenimentele
, , sunt condiţional independente în raport cu
evenimentul . Atunci, în baza acestei presupuneri, avem

Dacă este numărul instanţelor din datele de antrenament şi este numărul de


instanţe care aparţin clasei , atunci probabilitatea a priori se poate
estima prin

În mod analog, estimăm probabilitatea , sub forma


,

unde este numărul instanţelor care sunt în clasa şi care îndeplinesc condiţia
.
Observaţii
 Presupunerea privind independenţa condiţională a evenimentelor
nu este în general îndeplinită, fapt ce este reflectat în adjectivul
„naiv” ataşat acestei metode. Cu toate acestea, în practică, clasificatorul
Naive Bayes, funcţionează destul de bine.
 Calculul probabilităţilor condiţionate în metoda de clasificare Naive Bayes
se bazează pe teorema lui Bayes. Estimarea directă a acestor probabilităţi
pe baza frecvenţelor relative este fie dificilă, fie precară, atunci când
numărul de cazuri favorabile este foarte mic. Teorema furnizează o formulă
de calcul care combină probabilităţi a priori şi probabilităţi condiţionate.
Evident, o deficienţă a metodei constă în riscul crescut de a obţine
probabilităţi a posteriori egale cu zero atunci când datele de antrenament
aferente unei clase sunt de aşa natură, încât estimarea probabilităţii
condiţionate conduce la situaţia şi în consecinţă şi
la .

9.5 CLASIFICATORUL K-NN


Clasificatorul ( Nearest Neighbours-cei mai apropiaţi vecini) se
bazează pe ideea foarte simplă că predicţia clasei unei instanţe noi se poate face
în funcţie de clasele cu care sunt etichetaţi cei mai apropiaţi vecini ai acestei
instanţe. Evident, problema are sens dacă pe mulţimea instanţelor am definit o
funcţie distanţă. O dată definită această distanţă se poate utiliza algoritmul de
clasificare , descris pe scurt, astfel (Bramer, 2013):
 Citeşte datele de antrenament (instanţele cunoscute şi clasele de care
aparţin) şi instanţa nouă pe care dorim să o clasificăm;
 Precizează numărul de vecini care se iau în consideraţie;
 Stabileşte mulţimea formată din cei mai apropiaţi vecini ai instanţei ;
 Determină clasa cea mai frecvent întâlnită printre instanţele mulţimii
(clasa majoritară);
 Clasifică instanţa în clasa majoritară.
O ilustrare grafică a algoritmului pentru cazul în care instanţele sunt puncte în
mulţimea se poate vedea în figura 9.4.

ӿ
ӿ ӿ ӿ
ӿ ӿ ӿ
o
+ +
+
+ +
+ +

Figura 9.4 Ilustrarea geometrică a metodei .

Instanţele cunoscute sunt marcate fie cu semnul + , fie cu cu semnul *, semne


care reprezintă cele două clase. Mulţimea formată din cei mai apropiaţi
vecini este formată din cele 3 puncte din interiorul cercului centrat în punctul
,marcat printr-un cerculeţ, care semnifică instanţa nouă ce trebuie clasificată.
Deoarece dintre cele mai apropiate 3 instanţe 2 aparţin clasei * clasa majoritară
este clasa * şi deci instanţa nouă va fi clasificată în clasa *.
În general, fiind dată mulţimea , o funcţie d: se numeşte distanţă
dacă pentru punctele oarecare şi din sunt satisfăcute condiţiile:
1. dacă şi numai dacă
2. (simetria)
3. (inegalitatea triunghiului)
În continuare, prezentăm câteva exemple de distanţe dintre doi vectori reali

oarecare şi , frecvent utilizate în aplicaţii:


 Distanţa euclidiană se defineşte prin formula
(9.11)
şi este numită aşa în onoarea geometrului grec Euclid. Formula (9.11) este
generalizarea în spaţiul vectorial a teoremei lui Pitagora pentru un
triunghi dreptunghic ABC, cu coordonatele vârfurilor , ,
(vezi figura 9.5).

Figura 9.5 Distanța euclidiană dintre punctele A și B (marcată


cu linie continuă).

Lungimea ipotenuzei AB este

 Distanţa Manhattan (cunoscută şi sub numele de city-block sau taxi


distance) se defineşte prin formula
(9.12)
Ideea care stă la baza definiţei este că într-un oraş (cum este de exemplu
oraşul Manhattan, cu străzi perpendiculare), distanţa de interes pentru
pietoni, taxiuri etc. este de regulă distanţa calculată ca sumă a lungimii
catetelor şi nu ca valoare a lungimii ipotenuzei. Deci, conform figurii 9.5,
din perspectiva acestei observaţii, distanţa dintre punctele şi este:

 Distanţa Maxim se defineşte prin formula:


(9.13)
 Distanţa Minkovski de ordin , număr natural, este definită prin

(9.14)
Se observă că pentru se obţine distanţa Manhattan, iar pentru
se obţine distanţa euclidiană.

Precizări

 Formularul pentru evaluarea cunostintelor din curs se afla la adresa

https://docs.google.com/forms/d/1kyCUdoQx_DfQGvWSt-
xn6tgJWE3iDUa38pLi2OLSeY8/edit

 Termen limită de trimitere a raspunsurilor : marti 7.04 2020, ora 12


 Se acordă pentru fiecare răspuns corect 2 puncte
 Nota obţinuta nu se ia in considerare la evaluarea finala

S-ar putea să vă placă și