Reg Dec Opt VI 20

Modelul decizional Bayesian (clasic)
- Alegerea deciziei optime –

Aplicatie: Clasificatorul Bayes “naiv”
Etapele procesului decizional in viziunea bayesiana (cursul 4-slaid 1):
● etapa de definire a problemei

●analiza apriorica : analiza pe baza probabilitatilor apriorice (curs 4)
●achizitia de informatii suplimentare: criterii de alegere a testelor
diagnostice-parametrii statistici (cursul 5)
●analiza aposteriorica: evaluarea ipotezelor diagnostice- formula lui
Bayes (curs 4)
●alegerea variantei optime: Teoria Bayesiana a Deciziilor pune la
dispozitie reguli de decizie optima (minimizarea unui criteriu de
optim).
In continuare vom prezenta regulile de decizie optime si Clasificatorul
Bayes “Naiv”( care are la baza regulile de decizie optima):
1
Alegerea deciziei optime
Reguli de decizie
– Regula probabilitatii aposteriorice maxime
(PAM)
– Regula verosimilitatii maxime
– Regula riscului (costului, sau pierderilor)
minim
Decizie optima: minimizarea (sau maximizarea)
unui criteriu de optim: in cazul modelului
bayesian - minimizarea probabilitatii erorii
unei decizii gresite.
2
Reguli de decizie
Consideram cazul binar:
presupunem multimea starilor mediului decizional (sau a ipotezelor diagnostice conform

carora una din stari este cea reala : Hi : θr =θi )
∆={θ1, θ2} si vectorul caracteristicilor X=(x, x-)
– presupun cunoscute P(θ1), P(x/θ1), P(x/θ2)
– aplicind teorema lui Bayes pentru o valoare observata a caracteristicii, de ex. X=x,
rezulta
P(θ1/x) si P(θ2/x)
Pentru a raspunde intrebarii: carei stari ii apartine starea reala caracterizata de proba X=x?
vom defini mai intai:
3
Reguli de decizie
Probabilitatea erorii unei decizii de incadrare gresita a starii reale (θr ):
P(θ1/x) daca am decis : θr =θ2

– P(є/x)=
P(θ2/x) daca am decis θr = θ1
• probabilitatea medie a erorii unei decizii pentru toate valorile posibile ale vectorului
caracteristicilor X este:
– P(e)=P(e,x)+P(e,x-) (1) sau ,
tinand cont de legea …….? (vezi curs 2) rezulta :
– P(e)=P(e/x)P(x)+P(e/x-)P(x-) (2)
• criteriul deciziei optime in cazul modelului bayesian este:
minimizarea probabilitatii erorii

4
Reguli de decizie
Regula probabilitatii aposteriorice maxime (PAM):
θ1 daca P(θ1/x) > P(θ2/x) (1)

– Decide
θ2 altfel
sau, rescriind regula:
P ( x / 1 ) P ( 2 )
θ1 daca  (2)
– Decide P ( x /  2 ) P (1 )
θ2 altfel
• Regula PAM este o regula de decizie optima intrucit minimizeaza probabilitatea

erorii:
– P(є/x)=min {P(θ1/x), P(θ2/x)}
5
Reguli de decizie
Eroarea rezultata se numeste eroarea bayes si este cea mai buna performanta care
poate fi obtinuta.
Presupunem P(θ1/x) =0.3, intrucat θ=(θ1 , θ2 ), P(θ2/x)=1- P(θ1/x) =07
Daca, conform regulii PAM, am decis θr =θ2 si decizia corecta este θ1 , atunci
eroarea de clasificare este min( 0.3, 0.7) =0.3
Observatie; pentru fiecare x avem P(θ1/x) + P(θ2/x) =1
Generalizare: pentru m stari si o realizare x=(x1, ..,xn):
Decide θ1 daca P(θi/x) > P(θj/x) √ j ≠ i
6
Reguli de decizie
Regula verosimilitatii maxime
• in cazul in care starile sunt egal probabile:

P(θ1) = P(θ2)
• regula de decizie se reduce la:
θ1 daca P(x/θ1) > P(x/θ2)
– Decide
θ2 altfel
P(є/x)=min {P(x/θ1), P(x/θ2)}
7
Reguli de decizie
Regula riscului minim
• Fie {θ1,.., θm} multimea starilor mediului →{H1,..,Hm)
• Fie X=(X1,..,Xn) vectorul caracteristicilor
• Fie {d1,.., dm} multimea deciziilor (actiunilor), di →Hi=T (θr=θi)
notatie: di, decizia corecta atunci cind starea reala este θi
• Fie ω(di, θj) pierderea (costul) deciziei di atunci cind starea reala este θj.
Presupunem ca observam vectorul X=x =(x1,…,xn) si luam decizia di.
8
Reguli de decizie
Pierderea medie in cazul deciziei di va fi:
• ωmed(di /x)= ∑j ω(di, Hj) P(Hj/x)
unde ωmed reprezinta valoarea medie a pierderilor raportate la
diferitele stari ale mediului decizional ponderate cu probabilitatile

corespunzatoare
• Pierderea medie se mai numeste si risc :
R(di /x)= ωmed(di /x)=∑j ω(di, Hj) P(Hj/x)
9
Reguli de decizie
Criteriul de optim, conform teoriei bayesiene a deciziilor→
minimizarea riscului (pierderilor medii)
• decizia optima:
d * ( x )  arg min R ( d i / x )
di
sau
d * ( x )  arg min   (d j , H j )  P ( H j / x1 ,.., xn )
di j
• daca caracteristicile sunt independente:

d * ( x)  arg min   (d j , H j )   P( H j / xk )
di j k
• R(di) se mai numeste risc Bayes

10
Reguli de decizie
Probabilitatea erorii in cazul regulii riscului minim:
• definim urmatoarea functie de pierdere:

0 daca i=j
• ω(di, Hj) = i,j =1,..,m
1 daca i ≠j
(toate erorile au costuri egale)

rezulta:
R(di /x) = ∑j ω(di, Hj) P(Hj/x)=
= ∑j ≠i P(Hj/x)=
=1 - P(Hi/x)
minimizarea riscului presupune maximizarea probabilitatii aposteriorice

P(Hi/x) (PAM) care conduce la →minimizarea erorii
11
Reguli de decizie
Exemplu
Presupunem
• multimea ipotezelor diagnostice H={h1,h2}, unde h1: “cancer” si h2: “noncancer”, cu P(h1)=0.008 si
• multimea caracteristicilor X={X1, X2}, (de exemplu, X1=”mamografie”) binare (X1=(x1, ⌐x1) , X2=(x2,
⌐x2) si independente avind aceiasi sensibilitate si specificitate:
– P(x1/h1)= P(x2/h1)=0.98 si P(x1/h2)= P(x2+/h2)=0.03.
• si pierderile:
– W(c1,h1)=0u (decizie corecta – instanta apartine clasei c1 si ipoteza h1 este adevarata)
– W(c2, h1)=20u (decizia incorecta – instanta a fost atribuita clasei c2, ipoteza h 1 este adevarata)
– W( c1, h2)=50u (decizie incorecta)
– W(c2,h2) =2u (decizie corecta – instanta a fost atribuita clasei c2, ipoteza h2 adevarata)
Carei clase ii apartine realizarea vectorului caracteristicilor x=(x1, x2) ?
Conform regulii pentru risc minim se calculeaza pierderile medii pentru fieacre clasa I
– W1med( x1, x2) = p(h1/x)W(c1,h1) + P(h2/x)W(c1,h2) = 0.00768*0+0.00089*50=0.0445

– W2med(x1, x2) = p(h1/x)W(c2,h1) + P(h2/x)W(c2,h2)= 0.00768*20+0.00089*2=0.15538
conform regulii:
c* ( x)  arg min R(ci / x)
di
rezulta: c*= c2 (clasa careia ii aprtine realizarea x=(x1, x2) ) 12

Clasificatorul Bayes
Clasificator probabilistic Bayes - se bazeaza pe teorema lui Bayes
• In contextul clasificarii, teorema lui Bayes poate fi interpretata ca
relatia de calcul pentru probabilitatea ca un obiect caracterizat de
vectorul atributelor X=(x1 …xn ) sa apartina clasei (categoriei) Cj ,
respectiv P(Cj / x1 …..xn), unde:
• P(Cj / x1 ….. xn )= α P(/x1 …..xn / Cj ) P(Cj ) unde
• α = P(/x1 ….. xn)
• Regula de decizie optima poate fi una din cele trei reguli care
minimizeaza probabilitatea erorii de clasificare
• Daca este indeplinita conditia de independenta a
caracteristicilor(atributelor) atunci clasificatorul se numeste
Clasificatorul Bayes Naiv
13
Clasificatorul Bayes
O modalitate de a reprezenta un clasificator este cu ajutorul
functiilor discriminant fi (x), i=1,..,m, respectiv
clasificatorul atribuie vectorul caracteristicilor, x, clasei Ci daca
fi (x)> fj (x) √ j≠I
• pentru clasificatorul care maximizeaza probabilitatea aposteriorica:
fi (x)=P(Ci /x)
• pentru clasificatorul care minimizeaza riscul

fi (x)= -R(di/x)
14
Modelul Clasificatorul Bayes
“naiv”
Presupunem setul claselor C=(C1 , ..Cm) si setul caracteristicilor X=(X1 ,.., Xn), schema bloc a
clasificatorului este prezentata mai jos:
P(Cj ) pentru j=1,..,m
o realizare a
P(Xi =xi /Cj ) pentru toate valorile
vectorului dom(Xi )
caracteristicil
or
α P(x1k /C1 ) …. P(xnl /C1 ) P(C1 )
Criteriul de optim: PAM
15
Estimarea parametrilor modelului
probabilistic - clasificatorului Bayes
Parametrii modelului probabilistic (probabilitatile apriorice si
verosimilitatile caracteristicilor) pot fi estimati sub forma frecventelor
relative dintr-un set de date - instante ale vectorului caracteristicilor
la care se cunoaste clasa de apartenenta (clasificare supervizata):
nr.cazuri( X  x, C  c)
• P(X=x/C=c)=
nr.cazuri(C  c)
nr.cazuri (C = c)
• P(C=c)= nr.total cazuri
unde c reprezinta clasa (starea) si x o observatie a vectorului

caracteristicilor
16
probabilistic-utilizarea Clasificatorului Bayes
pacient X1 X2 Clas (starea)
Exemplu:
1 N J C2
Presupunem baza de date din tabel,
unde caracteristicile sunt: 2 N M C2
X1=Temperatura: {Normal, Febra} 3 F J C1
X2= Tensiunea: {Joasa, medie,Mare),
4 N m C1
independente conditional si
clasele: C1-bolnav , C2-sanatos. 5 F m C2
6 F M C1
7 F M C1
8 F m C1
Pentru variabilele discrete:

X1 P(X1 /C1)=(1/5 4/5)
C1 C2
P(X1 /C2)=(2/3 1/3)
N 1 2
X1 F 4 1
P(X2 /C1)=(1/5 2/5 2/5)
J 1 1
X2
P(X2 /C2)=(1/3 1/3 1/3)
X2 m 2 1
M 2 1
17
probabilistic-utilizarea Clasificatorului Bayes
Clasificarea instantei : x=(temp=N, tensiune=M)
Din distributiile de probabilitati ale vectorului caracteristicilor se aleg probabilitatile

corespunzatoare instantei necunoscute:
– P(X1=N/C1)=1/5
– P(X1=N/C2)=2/3
– P(X2=M/C1)=2/5
– P(X2=M/C2)=1/3
– P(C1)=5/8
– P(C2)=3/8
Tinind cont de independenta variabilelor rezulta:

1 2
× × P (C1 ) = 2 / 25 × P(C1 ) = 0.006
5 5
• f1 (x) = P(X1=N, X2=M/C1)P(C1) =
2 1
× × P(C2 ) = 2 / 9 × P(C2 ) = 0.083
3 3
• f2 (x) = P(X1=N, X2=M/C2)P(C2) =
xЭ C2
• intrucit f2(x) > f1(x)
18
Ajustarea Laplace (vezi carte pg . 109)
C1 C2 C1 C2
N 1 2 +1
X1 F 0 2
X1 N 2 3
F 1 3
J 1 2
X2 m 1 1 X2
J 2 3
m 2 2
M 2 1
M 3 2
19
Reguli de decizie
Aplicatie: clasificarea e-mail-urilor: Spam (S) si nonSpam
(⌐S)
Multimea starilor (claselor): Θ={S, ⌐S},) si o variabila X: cuvintul “cod”
Presupunem cunoscute P(S)=0.3

P(X=cod/S)=0.8,
P(X=cod/ ⌐S )=0.05
In ce clasa va fi incadrat e-mail-ul trimis daca contine cuvintul “cod” ?
• Analiza aposteriorica: ?
• Decizia optima: ?
20

Reg Dec Opt VI 20

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Reg Dec Opt VI 20

Încărcat de

Drepturi de autor:

Formate disponibile

Modelul decizional Bayesian (clasic)

- Alegerea deciziei optime –

● etapa de definire a problemei

presupunem multimea starilor mediului decizional (sau a ipotezelor diagnostice conform

∆={θ1, θ2} si vectorul caracteristicilor X=(x, x-)

– presupun cunoscute P(θ1), P(x/θ1), P(x/θ2)

vom defini mai intai:

P(θ1/x) daca am decis : θr =θ2

– P(e)=P(e,x)+P(e,x-) (1) sau ,

tinand cont de legea …….? (vezi curs 2) rezulta :

• criteriul deciziei optime in cazul modelului bayesian este:

minimizarea probabilitatii erorii

Regula probabilitatii aposteriorice maxime (PAM):

θ1 daca P(θ1/x) > P(θ2/x) (1)

sau, rescriind regula:

• Regula PAM este o regula de decizie optima intrucit minimizeaza probabilitatea

– P(є/x)=min {P(θ1/x), P(θ2/x)}

Presupunem P(θ1/x) =0.3, intrucat θ=(θ1 , θ2 ), P(θ2/x)=1- P(θ1/x) =07

eroarea de clasificare este min( 0.3, 0.7) =0.3

Observatie; pentru fiecare x avem P(θ1/x) + P(θ2/x) =1

Generalizare: pentru m stari si o realizare x=(x1, ..,xn):

Decide θ1 daca P(θi/x) > P(θj/x) √ j ≠ i

• in cazul in care starile sunt egal probabile:

P(є/x)=min {P(x/θ1), P(x/θ2)}

• Fie {θ1,.., θm} multimea starilor mediului →{H1,..,Hm)

• Fie X=(X1,..,Xn) vectorul caracteristicilor

• Fie {d1,.., dm} multimea deciziilor (actiunilor), di →Hi=T (θr=θi)

notatie: di, decizia corecta atunci cind starea reala este θi

Presupunem ca observam vectorul X=x =(x1,…,xn) si luam decizia di.

Pierderea medie in cazul deciziei di va fi:

• ωmed(di /x)= ∑j ω(di, Hj) P(Hj/x)

unde ωmed reprezinta valoarea medie a pierderilor raportate la

diferitele stari ale mediului decizional ponderate cu probabilitatile

• Pierderea medie se mai numeste si risc :

R(di /x)= ωmed(di /x)=∑j ω(di, Hj) P(Hj/x)

• daca caracteristicile sunt independente:

• R(di) se mai numeste risc Bayes

• definim urmatoarea functie de pierdere:

(toate erorile au costuri egale)

minimizarea riscului presupune maximizarea probabilitatii aposteriorice

Carei clase ii apartine realizarea vectorului caracteristicilor x=(x1, x2) ?

– W1med( x1, x2) = p(h1/x)W(c1,h1) + P(h2/x)W(c1,h2) = 0.00768*0+0.00089*50=0.0445

rezulta: c*= c2 (clasa careia ii aprtine realizarea x=(x1, x2) ) 12

O modalitate de a reprezenta un clasificator este cu ajutorul

functiilor discriminant fi (x), i=1,..,m, respectiv

clasificatorul atribuie vectorul caracteristicilor, x, clasei Ci daca

fi (x)> fj (x) √ j≠I

• pentru clasificatorul care maximizeaza probabilitatea aposteriorica:

• pentru clasificatorul care minimizeaza riscul

P(Cj ) pentru j=1,..,m

α P(x1k /C1 ) …. P(xnl /C1 ) P(C1 )

Criteriul de optim: PAM

unde c reprezinta clasa (starea) si x o observatie a vectorului

Pentru variabilele discrete:

Din distributiile de probabilitati ale vectorului caracteristicilor se aleg probabilitatile

Tinind cont de independenta variabilelor rezulta:

Presupunem cunoscute P(S)=0.3

In ce clasa va fi incadrat e-mail-ul trimis daca contine cuvintul “cod” ?

S-ar putea să vă placă și

– W1med( x1, x2) = p(h1/x)W(c1,h1) + P(h2/x)W(c1,h2) = 0.007680+0.0008950=0.0445