Sunteți pe pagina 1din 20

Modelul decizional Bayesian (clasic)

- Alegerea deciziei optime –


Aplicatie: Clasificatorul Bayes “naiv”
Etapele procesului decizional in viziunea bayesiana (cursul 4-slaid 1):

● etapa de definire a problemei


●analiza apriorica : analiza pe baza probabilitatilor apriorice (curs 4)
●achizitia de informatii suplimentare: criterii de alegere a testelor
diagnostice-parametrii statistici (cursul 5)
●analiza aposteriorica: evaluarea ipotezelor diagnostice- formula lui
Bayes (curs 4)
●alegerea variantei optime: Teoria Bayesiana a Deciziilor pune la
dispozitie reguli de decizie optima (minimizarea unui criteriu de
optim).
In continuare vom prezenta regulile de decizie optime si Clasificatorul
Bayes “Naiv”( care are la baza regulile de decizie optima):
1
Alegerea deciziei optime
Reguli de decizie
– Regula probabilitatii aposteriorice maxime
(PAM)
– Regula verosimilitatii maxime
– Regula riscului (costului, sau pierderilor)
minim
Decizie optima: minimizarea (sau maximizarea)
unui criteriu de optim: in cazul modelului
bayesian - minimizarea probabilitatii erorii
unei decizii gresite.

2
Reguli de decizie
Consideram cazul binar:

presupunem multimea starilor mediului decizional (sau a ipotezelor diagnostice conform


carora una din stari este cea reala : Hi : θr =θi )

∆={θ1, θ2} si vectorul caracteristicilor X=(x, x-)

– presupun cunoscute P(θ1), P(x/θ1), P(x/θ2)

– aplicind teorema lui Bayes pentru o valoare observata a caracteristicii, de ex. X=x,
rezulta

P(θ1/x) si P(θ2/x)

Pentru a raspunde intrebarii: carei stari ii apartine starea reala caracterizata de proba X=x?

vom defini mai intai:

3
Reguli de decizie
Probabilitatea erorii unei decizii de incadrare gresita a starii reale (θr ):

P(θ1/x) daca am decis : θr =θ2


– P(є/x)=
P(θ2/x) daca am decis θr = θ1

• probabilitatea medie a erorii unei decizii pentru toate valorile posibile ale vectorului

caracteristicilor X este:

– P(e)=P(e,x)+P(e,x-) (1) sau ,

tinand cont de legea …….? (vezi curs 2) rezulta :

– P(e)=P(e/x)P(x)+P(e/x-)P(x-) (2)

• criteriul deciziei optime in cazul modelului bayesian este:

minimizarea probabilitatii erorii


4
Reguli de decizie

Regula probabilitatii aposteriorice maxime (PAM):

θ1 daca P(θ1/x) > P(θ2/x) (1)


– Decide
θ2 altfel

sau, rescriind regula:

P ( x / 1 ) P ( 2 )
θ1 daca  (2)
– Decide P ( x /  2 ) P (1 )
θ2 altfel

• Regula PAM este o regula de decizie optima intrucit minimizeaza probabilitatea


erorii:

– P(є/x)=min {P(θ1/x), P(θ2/x)}

5
Reguli de decizie
Eroarea rezultata se numeste eroarea bayes si este cea mai buna performanta care
poate fi obtinuta.

Presupunem P(θ1/x) =0.3, intrucat θ=(θ1 , θ2 ), P(θ2/x)=1- P(θ1/x) =07

Daca, conform regulii PAM, am decis θr =θ2 si decizia corecta este θ1 , atunci

eroarea de clasificare este min( 0.3, 0.7) =0.3

Observatie; pentru fiecare x avem P(θ1/x) + P(θ2/x) =1

Generalizare: pentru m stari si o realizare x=(x1, ..,xn):

Decide θ1 daca P(θi/x) > P(θj/x) √ j ≠ i

6
Reguli de decizie
Regula verosimilitatii maxime

• in cazul in care starile sunt egal probabile:


P(θ1) = P(θ2)
• regula de decizie se reduce la:
θ1 daca P(x/θ1) > P(x/θ2)

– Decide
θ2 altfel

P(є/x)=min {P(x/θ1), P(x/θ2)}

7
Reguli de decizie
Regula riscului minim

• Fie {θ1,.., θm} multimea starilor mediului →{H1,..,Hm)

• Fie X=(X1,..,Xn) vectorul caracteristicilor

• Fie {d1,.., dm} multimea deciziilor (actiunilor), di →Hi=T (θr=θi)

notatie: di, decizia corecta atunci cind starea reala este θi

• Fie ω(di, θj) pierderea (costul) deciziei di atunci cind starea reala este θj.

Presupunem ca observam vectorul X=x =(x1,…,xn) si luam decizia di.

8
Reguli de decizie

Pierderea medie in cazul deciziei di va fi:

• ωmed(di /x)= ∑j ω(di, Hj) P(Hj/x)

unde ωmed reprezinta valoarea medie a pierderilor raportate la

diferitele stari ale mediului decizional ponderate cu probabilitatile


corespunzatoare

• Pierderea medie se mai numeste si risc :

R(di /x)= ωmed(di /x)=∑j ω(di, Hj) P(Hj/x)

9
Reguli de decizie
Criteriul de optim, conform teoriei bayesiene a deciziilor→
minimizarea riscului (pierderilor medii)
• decizia optima:
d * ( x )  arg min R ( d i / x )
di

sau
d * ( x )  arg min   (d j , H j )  P ( H j / x1 ,.., xn )
di j

• daca caracteristicile sunt independente:


d * ( x)  arg min   (d j , H j )   P( H j / xk )
di j k

• R(di) se mai numeste risc Bayes


10
Reguli de decizie
Probabilitatea erorii in cazul regulii riscului minim:

• definim urmatoarea functie de pierdere:


0 daca i=j
• ω(di, Hj) = i,j =1,..,m
1 daca i ≠j

(toate erorile au costuri egale)


rezulta:
R(di /x) = ∑j ω(di, Hj) P(Hj/x)=
= ∑j ≠i P(Hj/x)=

=1 - P(Hi/x)

minimizarea riscului presupune maximizarea probabilitatii aposteriorice


P(Hi/x) (PAM) care conduce la →minimizarea erorii
11
Reguli de decizie
Exemplu
Presupunem
• multimea ipotezelor diagnostice H={h1,h2}, unde h1: “cancer” si h2: “noncancer”, cu P(h1)=0.008 si
• multimea caracteristicilor X={X1, X2}, (de exemplu, X1=”mamografie”) binare (X1=(x1, ⌐x1) , X2=(x2,
⌐x2) si independente avind aceiasi sensibilitate si specificitate:
– P(x1/h1)= P(x2/h1)=0.98 si P(x1/h2)= P(x2+/h2)=0.03.
• si pierderile:
– W(c1,h1)=0u (decizie corecta – instanta apartine clasei c1 si ipoteza h1 este adevarata)
– W(c2, h1)=20u (decizia incorecta – instanta a fost atribuita clasei c2, ipoteza h 1 este adevarata)
– W( c1, h2)=50u (decizie incorecta)
– W(c2,h2) =2u (decizie corecta – instanta a fost atribuita clasei c2, ipoteza h2 adevarata)

Carei clase ii apartine realizarea vectorului caracteristicilor x=(x1, x2) ?

Conform regulii pentru risc minim se calculeaza pierderile medii pentru fieacre clasa I

– W1med( x1, x2) = p(h1/x)W(c1,h1) + P(h2/x)W(c1,h2) = 0.00768*0+0.00089*50=0.0445


– W2med(x1, x2) = p(h1/x)W(c2,h1) + P(h2/x)W(c2,h2)= 0.00768*20+0.00089*2=0.15538

conform regulii:
c* ( x)  arg min R(ci / x)
di

rezulta: c*= c2 (clasa careia ii aprtine realizarea x=(x1, x2) ) 12


Clasificatorul Bayes
Clasificator probabilistic Bayes - se bazeaza pe teorema lui Bayes
• In contextul clasificarii, teorema lui Bayes poate fi interpretata ca
relatia de calcul pentru probabilitatea ca un obiect caracterizat de
vectorul atributelor X=(x1 …xn ) sa apartina clasei (categoriei) Cj ,
respectiv P(Cj / x1 …..xn), unde:
• P(Cj / x1 ….. xn )= α P(/x1 …..xn / Cj ) P(Cj ) unde
• α = P(/x1 ….. xn)

• Regula de decizie optima poate fi una din cele trei reguli care
minimizeaza probabilitatea erorii de clasificare
• Daca este indeplinita conditia de independenta a
caracteristicilor(atributelor) atunci clasificatorul se numeste
Clasificatorul Bayes Naiv
13
Clasificatorul Bayes

O modalitate de a reprezenta un clasificator este cu ajutorul

functiilor discriminant fi (x), i=1,..,m, respectiv

clasificatorul atribuie vectorul caracteristicilor, x, clasei Ci daca

fi (x)> fj (x) √ j≠I

• pentru clasificatorul care maximizeaza probabilitatea aposteriorica:

fi (x)=P(Ci /x)

• pentru clasificatorul care minimizeaza riscul


fi (x)= -R(di/x)
14
Modelul Clasificatorul Bayes
“naiv”
Presupunem setul claselor C=(C1 , ..Cm) si setul caracteristicilor X=(X1 ,.., Xn), schema bloc a
clasificatorului este prezentata mai jos:

P(Cj ) pentru j=1,..,m

o realizare a
P(Xi =xi /Cj ) pentru toate valorile
vectorului dom(Xi )
caracteristicil
or

α P(x1k /C1 ) …. P(xnl /C1 ) P(C1 )

Criteriul de optim: PAM

15
Estimarea parametrilor modelului
probabilistic - clasificatorului Bayes
Parametrii modelului probabilistic (probabilitatile apriorice si
verosimilitatile caracteristicilor) pot fi estimati sub forma frecventelor
relative dintr-un set de date - instante ale vectorului caracteristicilor
la care se cunoaste clasa de apartenenta (clasificare supervizata):

nr.cazuri( X  x, C  c)
• P(X=x/C=c)=
nr.cazuri(C  c)

nr.cazuri (C = c)
• P(C=c)= nr.total cazuri

unde c reprezinta clasa (starea) si x o observatie a vectorului


caracteristicilor

16
Estimarea parametrilor modelului
probabilistic-utilizarea Clasificatorului Bayes
pacient X1 X2 Clas (starea)
Exemplu:
1 N J C2
Presupunem baza de date din tabel,
unde caracteristicile sunt: 2 N M C2
X1=Temperatura: {Normal, Febra} 3 F J C1
X2= Tensiunea: {Joasa, medie,Mare),
4 N m C1
independente conditional si
clasele: C1-bolnav , C2-sanatos. 5 F m C2
6 F M C1
7 F M C1
8 F m C1

Pentru variabilele discrete:


X1 P(X1 /C1)=(1/5 4/5)
C1 C2
P(X1 /C2)=(2/3 1/3)
N 1 2
X1 F 4 1
P(X2 /C1)=(1/5 2/5 2/5)
J 1 1
X2
P(X2 /C2)=(1/3 1/3 1/3)
X2 m 2 1
M 2 1
17
Estimarea parametrilor modelului
probabilistic-utilizarea Clasificatorului Bayes
Clasificarea instantei : x=(temp=N, tensiune=M)

Din distributiile de probabilitati ale vectorului caracteristicilor se aleg probabilitatile


corespunzatoare instantei necunoscute:
– P(X1=N/C1)=1/5
– P(X1=N/C2)=2/3
– P(X2=M/C1)=2/5
– P(X2=M/C2)=1/3
– P(C1)=5/8
– P(C2)=3/8

Tinind cont de independenta variabilelor rezulta:


1 2
× × P (C1 ) = 2 / 25 × P(C1 ) = 0.006
5 5
• f1 (x) = P(X1=N, X2=M/C1)P(C1) =
2 1
× × P(C2 ) = 2 / 9 × P(C2 ) = 0.083
3 3
• f2 (x) = P(X1=N, X2=M/C2)P(C2) =
xЭ C2
• intrucit f2(x) > f1(x)

18
Ajustarea Laplace (vezi carte pg . 109)

C1 C2 C1 C2
N 1 2 +1
X1 F 0 2
X1 N 2 3

F 1 3
J 1 2
X2 m 1 1 X2
J 2 3

m 2 2
M 2 1
M 3 2

19
Reguli de decizie
Aplicatie: clasificarea e-mail-urilor: Spam (S) si nonSpam
(⌐S)
Multimea starilor (claselor): Θ={S, ⌐S},) si o variabila X: cuvintul “cod”

Presupunem cunoscute P(S)=0.3


P(X=cod/S)=0.8,
P(X=cod/ ⌐S )=0.05

In ce clasa va fi incadrat e-mail-ul trimis daca contine cuvintul “cod” ?

• Analiza aposteriorica: ?

• Decizia optima: ?

20