Sunteți pe pagina 1din 13

Lucrarea 1.

b
Clasificatorul Bayes

1. Baz teoretic
Formele sunt att obiectele fizice observabile dar i modele matematice relativ la celule, particule, forme
de und, spectre de frecven (imagini TV, semnale radar, zgomote, EKG-uri), aplicaiile de recunoaterea
formelor fiind prezente n medicin, imageria satelitar, meteorologie, criminalistic sau aplicaii militare.
O form dat poate fi descris printr-un set de entiti caracteristice exprimate prin numere reale (bii)
X
F
=(x
1
,.x
n
), unde N depinde de precizia urmrit (de exemplu rezoluia unei imagini). Algoritmii de
clasificare Bayes fac parte din metodele statistice de clasificare i recunoastere a formelor.

1.1. Algoritmi de clasificare Bayes (cazul a dou clase)
Fie =

1 i

1
(M clase disjuncte de forme de acelai tip
1
, ...,
M,
M 2) i se consider cunoscute din
determinri statistice probabilitile apriori P (
i
) ale claselor
i
(pentru i=1M), i se presupune c P(
i
) > 0 i

=
M
i 1
P(
i
) = 1
1.1.1. Regula lui Bayes de clasificare (ipoteza binar)
n cazul a dou clase de forme
1
,
2
(M=2), o form nou de intrare X (vector aleator n-dimensional de
caracteristici) poate fi clasificat (teoretic) prin compararea probabilitilor aposteriori dup regula :
P (
1
| X )
>
<
P (
2
| X ) => X {
2
1

(1)
unde:
i=1,2:
P (
i
| X ) este probabilitatea aposteriori (probabilitatea ca dup ce X a fost clasificat, forma X s
aparin clasei
i
);
P (
i
) este probabilitatea apriori a clasei
i
, i=1,2 (probabilitatea ca o form s aparin clasei
i
)

1.1.2. Algoritmul lui Bayes cu eroare minim de clasificare
Algoritmul Bayes cu eroare minim realizeaz clasificarea formelor pe baza comparrii raportului de
plauzibilitate cu un anumit prag. Definim :

raportul de plauzibilitate L ( x ) =
) | (
) | (
1
2

x f
x f
(al claselor
1
,
2
, relative la forma X), unde f( x |
1
) i f(
x |
2
) sunt funciile densitate ale vectorului X condiionate de
1
respectiv

2.

pragul raportului de plauzibilitate =
) (
) (
1
2

P
P

i notm cu h = ln L
Relaia lui Bayes devine :
h( x )
>
<
ln
) (
) (
2
1

P
P
X {
2
1

(2)
Demonstraie :
h( x )
>
<
ln
) (
) (
2
1

P
P
ln L
>
<
ln L
>
<

) | (
) | (
1
2

x f
x f

>
<

) (
) ( ) | (
1 1
x f
P x f

>
<

) (
) ( ) | (
2 2
x f
P x f
P (
1
| X )
>
<
P (
2
| X ) (conform relaiei (1)) X {
2
1


Testul de clasificare Bayes poate duce la situaii de ambiguitate, n cazul egalitii membrului stng. De
aceea se evalueaz performana testului prin calcularea probabilitii erorii de clasificare. La egalitate se
obine ecuaia suprafeei de separaie:
L (x) =
ce mparte spaiul R
n
n dou regiuni
R
1
: L (x) i R
2
: L (x) <
Eroarea de clasificare a formei X apare cnd se atribuie X regiunii R
2
n cazul n care X R
1
sau dac X se
atribuie lui R
1
cnd n realitate X R
2

Probabilitatea erorii de clasificare este :
= P (X R
2
|
1
) P (
1
)+ P (X R
1
|
2
) P (
2
) = P (
1
)
dx x f
R

2
) | (
1

+ P (
2
)
dx x f
R

1
) | (
2


Din R
1
R
2
= R
n


dx x f
R

2
) | (
1

+
dx x f
R

1
) | (
1

=
dx x f
n
R

) | (
1


Deci se obine :
= P (
1
) +

1
R
P (
2
) f ( x |
2
) P (
1
) f ( x |
1
) dx (2a)
Pentru minimizarea lui trebuie ca termenul integral din relaia (2a) s fie negativ:
P (
2
) f ( x |
2
) P (
1
) f ( x |
1
) 0

Deci R
1
e definit prin
P (
2
) f ( x |
2
) P (
1
) f ( x |
1
) relaie identic cu relaia (2)
n ipoteza c densitile de probabilitate condiionate f ( x |
1
) i f ( x |
2
) sunt normal
distribuite, avnd vectorii medie
1
i
2
, i matricile de covarian
1
i
2
se poate scrie relaia
echivalent :
(x
1
)
T

1
-1
(x
1
) (x
2
)
T

2
-1
(x
2
) + ln
det
det
1
2


>
<
2 ln
) (
) (
2
1

P
P
X {
2
1

(3)
Demonstraie:
Din relaia (2) avem ln
) | (
) | (
1
2

x f
x f

>
<
ln
) (
) (
2
1

P
P
,
nlocuind f ( x |
1
) =
2 / 1
1
2 /
) (det ) 2 (
1

n

exp(-
2
1
(x
1
)
T

1
-1
(x
1
)) (vezi mai jos def. 3) i f ( x |
2
) => (x
1
)
T

1
-1
(x
1
) (x
2
)
T

2
-1
(x
2
) + ln
det
det
1
2

>
<
2 ln
) (
) (
2
1

P
P
(q.e.d.)
Definiia 1 : Vectorul-medie al unui vector aleator n-dimensional X= (
1
, ,
n
)
T
este vectorul coloan
X
= (
1
, ,
n
)
T
= ( E
1
, , E
n
)
T not
E (X)
Definiia 2 : Matricea de covarian
X
R
n x n
este matricea ptratic de ordin n, asociat lui X (un vector aleator n-
dimensional X= (
1
, ,
n
)
T
(cu componente ce au media i dispersia )), definit ca:
X=
E ( ( X E ( X
) ) ( X E ( X ) )
T
) = E ( X X
T
) E (X) E ( X
T
). Deci
X
=

nn n
n


...
... ... ...
...
1
1 11

Definiie 3 : Un vector aleator n-dimensional X= (
1
, ,
n
)
T
(cu componente ce au media i dispersia ) este
repartizat normal (sau gasussian, notat f (x)
=
N (, )), dac matricea de covarian =
X
este pozitiv
definit i are funcia de densitate de probabilitate f(x)=
2 / 1 2 /
) (det ) 2 (
1

n

exp(-
2
1
(x )
T

-1
(x )), unde =
X

e vectorul-mediu al lui X. Funcia d(x, , )=((x )
T

-1
(x ))

este distana Mahalanobis ntre vectorii coloan x i


asociat matricii simetrice
-1
.

1.1.3. Algoritmul lui Bayes de risc minim (extinde algoritmul cu eroare minim de clasificare)
Notm cu c
ij
costul clasificarii eronate a formei X j cnd de fapt este
I
(1 i, j 2) i presupunem c o
decizie eronat este mai scump dect o decizie corect:
unde
ij
=cov(
i
,
j
)=covariana,
ii
=Var(
i
,
i
)=
i
2
(
i
2
= variana / dispersia /

i
= abaterea medie ptratic)

Pentru c
12
> c
11
i c
21
> c
22
n urma minimizrii costului mediu
r =

=
2
1 j

=
2
1 i

j
R
c
ij
P(
i
) f (x |
i
) dx.
Se obine relaia :

) | (
) | (
1
2

x f
x f

>
<
11 12
22 21
c c
c c

) (
) (
1
2

P
P
X {
2
1

(4)
Pentru cazul cnd c
12
-c
11
=c
21
-c
22
(ex. cazul particular c
11
=c
22
=0 si c
12
=c
21
) din relaia de calcul al
algoritmului de risc minim (4)

se obine relaia algoritmului Bayes cu eroare minim de clasificare (2).
Dac n membrul stng al ecuaiilor (1) i (4) apare o situaie de egalitate nu se poate trage nici o
concluzie. n consecin se poate atribui forma uneia dintre clase, sau se rafineaz testul prin adugarea de
noi caracteristici, sau se aplic alt algoritm.
Odat ce clasificatorul a fost proiectat i antrenat, n situaia n care densitile de probabilitate
condiionate ale vectorilor caracteristicilor selectate sunt cunoscute pentru fiecare clas sau pot fi estimate
precis dintr-un set de eantioane (set de antrenare), se aplic regula de clasificare Bayes, care minimizeaz
probabilitile de recunoatere eronat sau riscul mediu. n situaia, mai des ntlnit, cnd acestea nu sunt
cunoscute se utilizeaz fie funciile discriminant, fie metode neparametrice de clasificare.

1.2. Clasificare Bayes pentru M clase (M>2)
Pentru M (M > 2) clase de forme din spaiul R
n
, notate
1
, ...,
M
, o form nou de intrare X (vector
aleator n-dimensional de caracteristici) poate fi clasificat prin :
a) compararea probabilitilor aposteriori dup regula de forma :
P (
i
| X )
>
<
P (
j
| X ) => X {
j
i

, pentru j j (5)
ceea ce e echivalent cu
P (
i
) f (x |
i
)
>
<
P (
j
) f( x |
j
) => X {
j
i

, pentru j j (6)
unde :
i, j =1M, cu M > 2
P (
i
| X ) este probabilitatea aposteriori (probabilitatea ca dup ce X a fost clasificat, forma X s
aparin clasei
i
);
P (
i
), P (
j
) este probabilitatea apriori a clasei
i
(respectiv

j
) (probabilitatea ca o form s
aparin clasei
i
, respectiv
j
)

b) decizie bazat pe minimizarea riscului (costului mediu) pentru M clase
Pentru calculul riscului avem expresia :
r =

=
M
j 1

=
M
i 1

j
R
c
ij
P(
i
) f (x |
i
) dx (7)
unde :
R
i
sunt regiunile din spaiul R
n
corespunznd claselor
i
, pentru 2 i .M
iar cij este costul deciziei eronate X
j
cnd clasa adevrat este
i

Algoritmul Bayes de risc minim poate fi scris pentru cazul a M clase de forme:

=
M
i 1
c
ij
P(
i
) f (x |
i
) <

=
M
i 1
c
ik
P(
i
) f (x |
i
),
pentru k j X
j,
2 i,j,k .M (8)

n cazul particular c
ii
= 0 i c
ij
=1 pentru i j algoritmul capt forma de la punctul (a)

1.3. Clasificatori i funcii discriminant
Pentru cazul a M clase de forme din spaiul R
n
(M > 2), notate
1
, ...,
M,
se consider cunoscute
probabilitile apriori P (
i
) i densitile condiionate f (x |
i
), 1 i M.
Proiectarea unui clasificator presupune calcularea explicit a unui set de M funcii discriminant
i selectarea clasei care corespunde maximului
k
MAX g
k
::
g
k
: R
n
R, 1 k M, astfel c g
i
(X) > g
j
(X), pentru j j (9)
Cnd inegalitatea din ecuaia (8) nu este strict se ajunge la ambiguitatea deciziei, caz n care clasificarea
nu poate fi decis. Soluia: fie se alege oricare din cele dou clase
i,

j
fie se alege un algoritm mai
puternic.
Ex: Se poate alege setul de funcii discriminant de forma:
a) n cazul algoritmului Bayes cu eroare minim de clasificare
g
k
(x) = ln P (
k
) + ln f (x |
k
), sau g
k
(x) = P (
k
) f (x |
k
), pentru 1 k M
b) n cazul algoritmului Bayes cu risc minim
g
k
(x) =

=
M
i 1
c
ik
P(
i
) f (x |
i
)


C
o
v

1.4. Funcii discriminant de tip Bayes pentru vectori de caracteristici
repartizai normal
Pentru forme X de intrare din spaiul R
n
cu densiti condiionate normale de forma :
f ( x,
i
)
=
N (
i
,
i
), 1 i M
Lum n considerare un clasificator Bayes cu eroare minim de clasificare pentru M clase, cu
funciile discriminant :
g
k
(x) = ln P (
k
) + ln f (x |
k
), pentru 1 k M
se obine pentru vectori repartizai normal relaia:
g
k
(x) = (x
k
)
T

1
k
(x
k
)
2
n
ln 2
2
1
ln (det

k
) + ln P(
k
) (10)
selectarea clasei corespunznd lui
k
MAX g
k
:
Cazuri particulare:
a) Pentru

k
=
2
I
n
(componente vectorilor X sunt independente avnd dispersia
2
) se obine relaia:
g
k
(x) =
2
2
1

|| x
k
||
2
+ ln P(
k
), 1 k M (11)
b) Pentru clase echiprobabile P(
k
) = 1/M atunci funciile discriminant sunt
g
k
(x) = || x
k
||
2
(12)

Clasificatorul bazat pe minimizarea distanei euclidiene: Pentru o forma F reprezentat prin
vectorul X
F
de caracteristici se calculeaz distanele minime dintre X
F
i vectorul medie al claselor
.(comparare este de tip template-matching cnd vectorul medie este prototipul clasei sale):
min d
2
(x
F
,
k
) =|| x
k
||
2
=g
k
(x)= d
2
(x
F
,
i0
) X
i0
(13)

Clasificatorul liniar are setul de funcii discriminant:
g
k
(x) =
2
2
1

( x
T
x 2
k
T
x +
k
T

k
) + ln P(
k
), 1 k M
g
k
(x) = w
k
T
x + w
k0
(14)
unde w
k
=
2
1


k
, i w
k0
=
2
2
1


k
T

k
+ ln P(
k
), pentru 1 k M



2. Probleme
Problema 1. Fie dou clase de semnale bidimensionale X=

2
1
x
x
repartizate normal.
clasa
1
{A=

0
2
, B=

1
3
, C=

0
4
, D=

1
3
},
clasa
2
{E=


0
2
, F=


1
3
, G=


0
4
, H=

1
3
},
Cerinte:
a) Calculai probabilitile apriori (P(
1
), P(
2
)), vectorii medie (
1
,
2
) i matricile de covarian (
1
,
2
).
b) Ecuaia suprafeei de separaie
c) Reprezentarea grafic
d) Regula de decizie
e) S se clasifice vectorii : J
1
=

0
2
, J
2
=

1
1
, J
3
=


0
1
, J
4
=


3
3


Problema 2. Fie 3 clase de semnale bidimensionale X=

2
1
x
x
repartizate normal.
clasa
1
{A=

0
2
, B=

1
3
, C=

0
4
, D=

1
3
},
clasa
2
{E=


0
2
, F=


1
3
, G=


0
4
, H=

1
3
},
clasa
3
{I=


0
2
, J=


1
3
, K=


0
4
, L=

1
3
},

Cerinte:
a) functiile discriminant pentru cele 3 clase
b) ecuatiile suprafetelor de separate dintre clase
c) sa se clasifice vectorii V
1
=

2
1
, V
2
=

1
2
,


x
1

A C
D
E
H
G








3. Aplicaii de laborator

3.1. Clasificatorul Bayes
Se utilizeaz aplicaia Bayes.exe (consola) i se parcurg paii :
1. Se selecteaz (1) Criteriul de decizie Bayes (forma quadratic)
2. Dimensiunea spaiului =2
3. Numrul de vectori din lotul de estimare al clasei 1=100.
4. Numrul de vectori din lotul de test al clasei 1=100.
5. Media impus pentru clasa 1=
1
=(3 0)
T

6. Matricea de covariaie impus pentru clasa 1
1
=

1 0
0 1

7. Numrul de vectori din lotul de estimare al clasei 2=100.
8. Numrul de vectori din lotul de test al clasei 2=100.
9. Media impus pentru clasa 2=
2
=(-3 0)
T

10. Matricea de covariaie impus pentru clasa 2
2
=

1 0
0 1

11. Se noteaza n caietul de laborator parametric statistici ai clasei 1 i parametrii statistici ai clasei 2 cu 2
zecimale.
12. Afisare faza de recunoastere? (D) Se noteaz eroarea de clasificare obinut.
13a. Doriti sa clasificati un vector necunoscut? Nu
14. Se reiau pasii 1-13 pentru cazul meninerii constante a mediilor
1
i
2
i matricile de covarian
modificate
a)
1=

2
=(2 0 | 0 2) (
1
=
2
=2

)
b)
1=

2
=(3 0 | 0 3) (
1
=
2
=3

)
c)
1=

2
=(4 0 | 0 4) (
1
=
2
=2)
15. Se selecteaz optiunea 4 Sfrsit program.
16. S se reprezinte grafic eroarea de clasificare n funcie de dispersie
Opional:
13b. Pentru matricile de covarian a)
1=

2
=(1/2 0 | 0 1/2) se verific clasificarea vectorilor J
1
=

0
2
,
2
=

1
1
, J
3
=


0
1
, J
4
=


3
3
(problema punctul e)

3.2. Aplicatie demo a clasificatorului Bayes pentru 2 clase

Obiectiv: reprezentarea suprafetei de separatie pentru doua clase folosind Clasificatorul Bayes.

Desfasurarea lucrarii:
- se deschide programul Matlab si se ruleaza fisierul ClasifBayes.m
- inainte de initializarea claselor se reseteaza toate valorile prin apasarea butonului Reset
- fiecare clasa se initializeaza cu minim 3 puncte necoliniare (daca punctele sunt coliniare, nu se
va putea calcula inversa matricei de covariatie, deoarece determinantul matricei de covariatie va fi
zero)
- dupa initializarea celor 2 clase, pentru a vedea suprafata de separatie apasati butonul Suprafata
de separatie
- pentru a clasifica un nou punct in una dintre cele doua clase, introduceti coordonatele punctului
si apasati butonul Clasifica. Daca punctul va fi clasificat ca facand parte din Clasa1, atunci va fi
marcat cu culoarea specifica Clasei1(verde), altfel va fi marcat cu culoarea specifica
Clasei2(magenta).
Odata cu afisarea grafica a suprafetei de separatie se vor afisa mediile si matricele de covariatie a
celor doua clase precum si ecuatia suprafetei de separatie.
Exemplu 1
1. Se apasa butonul de Reset
2. Pentru Clasa1 se introduc punctele ( 2 0), ( 3 1), ( 4 0), ( 3 -1)
3. Pentru Clasa2 se introduc punctele (-2 0), (-3 1), (-4 0), (-3 -3)
4. Se afiseaza suprafata de separatie apasand butonul Suprafata de separatie
5. Se clasifica vectorii (-1 1) si (1 0)
Exemplu 2
Pentru Clasa1 se introduc punctele ( 0 0), ( 0 1), (1 1)
Pentru Clasa2 se introduc punctele (1 -1), (2 -1), (2 0)
Exemplu 3
Pentru Clasa1 se introduc punctele ( 0 1), (1 1), (1 3)
Pentru Clasa2 se introduc punctele (1 -1), (2 0), (2 2)


Pentru Exemplu 1 veti obtine o reprezentare grafica precum cea din captura de mai jos:


Figura 3.1. Aplicatie demo a clasificatorului Bayes pentru 2 clase










3.3. Clasificarea pixelilor din imagini cu sol si vegetatie
folosind clasificatorul Bayes

Obiectiv: identificarea pixelilor de sol si a celor de vegetatie din imagini color folosind
clasificatorul Bayes.

Deoarece imaginile contin in mod predominant doar informatie de sol si vegetatie (maron si
verde) s-a facut trecerea din coordonate RGB in coordonate rg. Pentru fiecare pixel s-a aplicat
transformata RGBrg unde:
255
+ +
=
B G R
R
r si 255
+ +
=
B G R
G
g

a. Antrenarea
Pentru etapa de antrenare s-au folosit 2 clase:
- clasa1(vegetatie) formata dintr-o imagine de dimensiune 50*50 continand numai puncte
de vegetatie;
- clasa2 (sol) formata dintr-o imagine de dimensiune 50*50 continand numai puncte de sol.
(Observatie: folosirea unui numar mai mare de pixeli pentru etapa de antrenare va duce la o
cresterea a acuratetii in etapa de detectie).

Pentru cele 2 clase de sol si de vegetatie s-a facut transformarea RGB rg. S-au obtinut astfel
doua clase (sol si vegetatie) cu vectori bidimensionali (rg) pentru care s-a aplicat clasificatorul
Bayes si s-a determinat suprafata de separatie.

b. Testarea
Pentru fiecare pixel din imaginile de test s-a aplicat transformata RGB rg si apoi s-a
folosind regula de decizie:
(x
1
)
T

1
-1
(x
1
) (x
2
)
T

2
-1
(x
2
) + ln
det
det
1
2


>
<
2 ln
) (
) (
2
1

P
P
X {
2
1


pentru clasificarea in una dintre cele 2 clase.




Desfasurarea lucrarii:
- se deschide programul Matlab si se ruleaza fisierul Segmentare_sol_vegetatie.m
- pentru etapa de antrenare se selecteaza o imagine cu sol si o imagine cu vegetatie
- pentru reprezentarea grafica in spatiul rg si a suprafetei de separatie apasati butonul
Suprafata de separatie
- Pentru etapa de testare alegeti una dintre imaginile de test disponibile

Pentru imaginea de test test2 veti obtine o reprezentare grafica precum cea din captura de mai jos:


Figura 3.2. Clasificarea pixelilor din imagini cu sol si vegetatie
folosind clasificatorul Bayes


Bibliografie : V.Neagoe, O. Stnil Recunoasterea formelor si retele neurale algoritmi
fundamentali, Ed. Matrix Rom, Bucureti, 1998.

S-ar putea să vă placă și