Documente Academic
Documente Profesional
Documente Cultură
Retele Bayesiene
SIBIU, 2008
I. Introducere. Modelul probabilistic Bayesian
(2) P(S) = 1
Din ecuatiile (1) si (2) rezulta una dintre regulile modelului Bayesian, si anume
P(e|h) P(h)
P(h|e) = (3)
P(e)
2
P(e|h) P(h)
P(h|e) = (5)
P(e|h) P(h) + P(e|~ h) P(~ h)
si deci
P(e|h i ) P(h i )
P(h i |e) = k
, i = 1, k
(7)
P(e|h j ) P(h j )
j=1
P(h i |e) este probabilitatea ca pacientul sa aiba diagnosticul hi pe baza probelor clinice e
P(e|h i ) este probabilitatea ca sa existe toate probele clinice e daca diagnosticul h i este
adevarat, deci probabilitatea ca pacientul sa aiba totalitatea simptomelor e
(simptomatologie completa) daca i se pune diagnosticul hi.
Teorema lui Bayes data de formula (8) ofera o modalitate de calcul al diagnosticului probabil
al unui pacient in conditiile cunoasterii probelor clinice e. In cazul in care exista mai multe ipoteze
plauzibile si mai multe surse de probe, formula (8) poate duce la calcule extrem de complicate.
Daca se presupune ca e = {e1 ,e2 ,...,e n } sunt probe independente, calculul probabilitatii
P(e1 ,e2 ,...,e n |h j ) se poate face ca mai jos, ducand la o simplificare a formulei (8).
P(e|h j ) = P(e1 ,e2 ,...,e n |h j ) = P(e1|h j ) P(e2 |h j )...P(e n |h j ), j = 1, k (9)
3
aceasta cauza sistemele care folosesc modelul Bayesian utilizeaza o varianta modificata de calcul al
probabilitatii care reflecta obtinerea incrementala de probe. Daca e1 = {e11 ,e12 ,...,e1k } sunt
probele deja observate, s1 este o noua proba si e = e1 s1 atunci probabilitatea ipotezei hi in
conditiile existentei probelor e se poate calcula pe baza probabilitatii aceleasi ipoteze (presupus a fi
deja calculata) in conditiile existentei probelor e1, prin cumularea efectului lui s1, astfel:
P(s1|h i & e1 ) P(hi |e1 )
P(hi |e) = k
, i = 1, k, e1 = {e11 ,e12 ,...e1n }
si e = e1 s1 (10)
P(s1|h j & e1 ) P(h j |e1 )
j1
Probabilitatile sunt descrise printr-o valoare numerica unica. Acest lucru poate fi o
simplificare a modelului de gindire umana. De cele mai multe ori, expertii au dificultati in
a estima cu precizie probabilitatea unei ipoteze printr-o singura valoare, avind tendinta de a
specifica un interval de probabilitate.
Modelul Bayesian nu poate discerne intre ignoranta si incertitudine. De exemplu, fie trei
organizatii teroriste A, B si C care sint suspecte de un atac asupra unei institutii publice.
Exista anumite probe care sustin ipoteza vinovatiei organizatiei C cu probabilitatea 0.8. Cu
toate acestea, fara alte probe asupra vinovatiei organizatiilor A si B, nu se poate spune ca A
si B sint vinovate, fiecare cu probabilitatea 0.1.
4
P(A) = X P(~ A) = 1 X
Abordarea conform careia probele in favoarea unei ipoteze trebuie considerate probe in
favoarea negarii acelei ipoteze este in multe cazuri falsa.
Evident, h1 este logic echivalent cu h2. Daca s-ar face o analogie a confirmarii unei
ipoteze pe baza unei probe cu probabilitatile conditionate s-ar putea stabili egalitatea
C[h1|e] = C[h 2 |e], pentru orice proba e. Cu toate acestea, este total neintuitiv sa se spuna
ca observarea probei e, "Vaza este verde", confirma ipoteza h1, "Toti corbii sint negrii". In
anumite domenii, cum ar fi medicina, in care semnificatia certitudinii unei ipoteze pe baza
probelor este mai mult o confirmare a ipotezei decit o probabilitate de aparitie, este necesar
sa se introduca o diferenta intre increderea si neincrederea intr-o ipoteza.
Retelele Bayesiene sunt de fapt modelele grafice unidirectionale. Acest tip de grafuri
implica o notiune mai complicata a independentei in care se ia in consideratie si directia arcurilor.
5
Modelul retelelor Bayesiene foloseste un graf orientat aciclic pentru a reprezenta gradele de
incredere in faptele din baza de cunostinte si dependentele cauzale existente intre aceste fapte.
Structura unui graf orientat aciclic este definita de 2 seturi: setul nodurilor (vertexuri) si
setul arcelor orientate. Nodurile reprezinta variabile aleatoare si sunt desenate ca cercuri etichetate
cu numele variabilelor. Arcele reprezinta dependenta directa intre variabila si sunt desenate ca
sageti intre noduri. Spre exemplu, un arc din nodul Xi spre nodul Xj reprezinta o dependenta
statistica intre cele doua variabile corespondente. Deci, sageata indica ca o valoare luata de variabila
Xj depinde de valoarea luata de variabila Xi, sau mai direct, “variabila xi influenteaza variabila Xj”.
Pe langa structura grafului este necesar sa atragem atentia asupra unor parametri ai
modelului. Pentru o retea bayesiana trebuie sa se specifice distributia probabilitatilor conditionale
(Conditional Probability Distribution CPD) pentru fiecare nod. Daca se lucreaza cu variabile
discrete atunci aceste probabilitati pot fi reprezentate ca tabele (CPT), care reprezinta probabilitatea
ca nodul fiu sa ia toate valorile sale posibile pentru fiecare combinatie de valori a nodului parinte.
Sa consideram exemplul urmator in care avem noduri binare, adica din fiecare nod avem doua
posibile valori pentru a parcurge graful mai departe, pe care le vom nota cu A (Adevarat) si F
(Fals).
Din graful de mai jos se vede ca evenimentul “Iarba Umeda” (IU=A) are doua posibile
cauze: sau udata de stropitoare (S=A) sau din cauza ploii (P=A). Spre exemplu, din tabel se vede ca
P(IU=A | S=A, P=F) = 0.9 si P(IU=F | S=A, P=F) = 1 - 0.9 = 0.1, deci suma fiecarui rand din tabel
trebuie sa fie 1. Din cauza ca primul nod (Inourat) nu are parinti probabilitatea evenimentului
specificat de el este bazata pe observatiile anterioare si reprezinta 0.5 in acest caz.
6
Putem vedea ca relatiile conditionale independente ne permit sa reprezentam mai compact
setul de probabilitati. In cazul de fata simplificarea a fost minima, insa in cazul a n noduri relatia ar
fi fost cu mult mai complicata ceea ce ar ingreuna cu mult studiul.
Independenta conditionala
7
unde Parents(Yi) denota un set de predecesori imediati ai lui Yi in retea. De notat este ca valorile lui
P(yi|P arents(Yi)) sunt exact valorile memorate in tabel probabilitatilor conditionale asociat nodului
Yi.
Pentru a ilustra aceste afirmatii, luam ca exemplu reteaua Bayesiana din figura 2 care
reprezinta distributia probabilitatilor totale peste variabilele booleene Storm, Lightning, Thunder,
ForestFire, Campfire si BusTourGroup. In cazul nodului Campfire nodurile si arcele retelei
reprezinta afirmatia ca variabila CampJire este independent conditional de non-descendentii sai,
Lightning si Thunder, avand in vedere parintii imediati, Storm si BusTourGroup. Acest lucru
inseamna ca odata ce stim valorile variabilelor Storm si BusTourGroup, variabilele Lightning si
Thunder nu ne vor da nici o informatie suplimentara despre Campfire. In partea dreapta a figurii 2
putem observa tabel probabilitatilor conditionale asociate variabilei Campfire. De exemplu, ntrarea
din stanga sus a acestui tabel exprima afirmatia ca
De notat este ca acest tabel prezinta doar probabilitatile conditionale ale lui Campjire cunoscute
fiind variabilele parinte, Storm si BusTourGroup. Distributia completa probabilitatilor totale pentru
aceasta retea este formata de fapt din setul tabelelor cu probabilitati conditionale locale pentru toate
variabilele, impreuna cu setul de asumptii de independete conditionale descrise de retea. O trasatura
atractiva a retelelor de incredere Bayesiene este aceea ca acestea permit o modalitate convenienta de
a reprezenta cunostinte cauzale ca de exemplu faptul ca Lightning cauzeaza Thunder. Folosind
terminologia independetelor conditionale, acest fapt se poate exprima prin “Thunder este
independent conditional de celelalte variabile ale retelei, cunoscuta fiind valoarea lui Lightning.
O retea Bayesiana poate fi folosita pentru a predictiona valoarea unei variabile tinta (de
exemplu, ForestFire) in functie de valorile observate pentru alte variabile. Desigur, cum avem de a
face cu variabile aleatoare, nu ar fi corect sa atribuim o singura valoare determina variabilei tinta.
Ceea ce dorim sa determinam este distributia probabilitatilor pentru variabila tinta, care vor
specifica probabilitatea obtinuta pentru fiecare dintre valorile posibile, tinand cont si de valorile
celorlalte variabile. Acest pas de inferinta poate fi simplu daca sunt cunoscute exact valorile pentru
toate celelalte variabile ale retelei. Intr-o situatie mai generala, poate dorim sa predictionam
distributia probabilitatilor pentru o variabila ca ForestFire in functie de valorile observate pentru
doar un subset al celorlalte variabile (spre exemplu, poate doar valorile variabilelor Thunder si
BusTourGroup sunt cunoscute la un anumit moment).
Numeroase metode au fost propuse pentru inferinta probabilitatilor in retelele Bayesiene,
incluzand aici metode exacte de predictie sau metode de predictie aproximative care sacrifica
precizie in favoarea castigului in eficienta. De exemplu, metodele Monte Carlo ofera solutii
aproximative prin alegerea aleatoare de esantioane din distributia variabilelor neobservate (Pradham
8
and Dagum 1996). In teorie insa, atat inferinta prin metode exacte cat si cea prin metode
aproximative pot fi o problema NP (Dagum and Luby 1993). Din fericire, in practica metodele
aproximative s-a demonstrat ca pot fi extrem de folositoare in multe cazuri.
Exista numeroase metode de reprezentare disponibile pentru analiza datelor cum ar fi seturi de
reguli, arbori de decizii si retele neuronale artificiale; de asemenea exista multe tehnici de analizare
a datelor ca estimarea densitatii, clasificarea, regresia si clustering-ul. Deci, prin ce sunt speciale
metodele si retelele bayesiene? Exista minim patru raspunsuri la aceasta intrebare:
Retelele bayesiene pot utiliza seturi de date incomplete. Spre exemplu sa consideram o
problema in care doua dintre variabilele de intrare nu sunt nici intr-un fel corelate. Aceasta
relatie dintre variabilele respective normal nu prezinta o piedica in modurile standard de
abordare a problemelor, deoarece toate intrarile sunt examinate in fiecare caz. In cazul in
care una dintre intrari nu este observata majoritatea modelelor vor produce o predictie
eronanta, deoarece ele nu iau in consideratie relatiile dintre variabilele de intrare. Retelele
bayesiene ofera un mod natural de abordare a astfel de dependente.
Retelele bayesiene permit studierea relatiilor cauzale. Acest proces este util in cazul in care
se doreste intelegerea unui domeniu de probleme. Mai mult, cunoasterea relatiilor cauzale ne
permite sa facem predictii in cazul unor interventii. Spre exemplu, un manager, analizand
piata, doreste sa afle daca se merita marirea cheltuielilor pentru publicitatea unui produs in
scopul de a creste numarul de vanzari. Pentru a raspunde la aceasta intrebare el poate
determina daca publicitatea este sau nu cauza maririi vanzarilor si in ce masura. Utilizarea
retelelor bayesiene permite aflarea raspunsului la astfel de probleme chiar si in cazurile in
care nu se cunosc date despre efectele maririi vanzarilor.
Retelele bayesiene in conjunctie cu tehnicile de statistica bayesiana faciliteaza combinarea
domeniului cunoasterii cu domeniul datelor. Se stie ca cunostintele capatate anterior au o
importanta foarte mare in studiul problemelor din lumea reala, in special cand datele ce pot
ajuta la analiza nu sunt complete sau colectarea lor induce costuri prea mari. Faptul ca unele
aplicatii comerciale (spre exemplu sistemele expert) se pot axa pe baza cunostintelor
capatate anterior, reprezinta un atu in favoarea acestui model. In plus retelele bayesiene
intaresc puterea relatiilor cauzale cu teoria probabilitatilor. Deci, cunostintele anterioare pot
fi combinate cu datele utile folosind tehnicile de statistica bayesiana.
Metodele bayesiene de analiza in conjunctie cu retelele bayesiene si alte tipuri de modele
ofera o abordare eficienta si principiala in vederea evitarii suprapunerii datelor. Folosind
retelele bayesiene se poate ajung la antrenarea tuturor datelor, pe care le avem, in
solutionareaproblemei.
9
III. Concluzii
Retelele Bayesiene sunt folosite in o serie larga de aplicatii. Aplicatii ce le folosim in fiecare
zi, care implica asa-numitii Answering Wizard, majoritatea au la baza retele bayesiene.
Alte aplicatii de mentionat ale retelelor de incredere ar fi in urmatoarele domenii:
IT (Email Spam, IR, AI, clasificare, Windows Troubleshooters)
Medicina (diagnosticarea bolilor)
Marketing (analiza pietei si luarea de decizii)
Armata (vehicule cu pilot automat, automatic target recognition)
Prediction/Forecasting in diverse alte domenii
Retelele bayesiene au luat nastere din incercarea de a adauga probabilitatile in sistemele
expert. Un exemplu important este aplicatia QMR-DT (Quick Medical Reference). In aceasta
structura partea superioara reprezinta nodurile corespunzatoare bolilor, iar partea inferioara – cele
corespunzatoare simptomelor. Scopul acestui model este de a depista bolile pe baza simptomelor
observate.
IV. Bibliografie
[1] Kevin Murphy – “A Brief Introduction to Graphical Models and Bayesian Networks”, 1998
[2] Yang Xiang - “Probabilistic Reasoning in Multiagent Systems: A Graphical Models
Approach”, Cambridge University Press, 2002
[3] K. R. Koch – “Introduction to Bayesian Statistics”, 5th Edition, Springer, 2007
[4] Jayanta K. Ghosh et. al - “An Introduction to Bayesian Analysis”, Springer, 2006
[5] Eugene Charniak – “Bayesian Networks without Tears”, 1991
[6] Darlye Niedermayer - “An Introduction to Bayesian Networks and their Contemporary
Applications”, 1998
[7] Irad Ben-Gal - “Bayesian Networks”
[8] Adina Magda Florea – “Elemente de inteligenta artificiala”
1
[9] Tom M. Mitchell – “Machine Learning”, McGraw-Hill Science/Engineering/Math 1997.