Sunteți pe pagina 1din 24

Retele Bayesiene

Capitolul 5

2023-2024
Dependenta Bayesiana
• Observatie. Se considera o variabila aleatoare 𝑉 din domeniul
problema. De obicei exista doar nu numar mic de alte variabile
aleatoare care influenteaza direct valoarea lui 𝑉. Cu alte
cuvinte orice alta variabila din model este independenta de 𝑉,
date fiind valorile variabilelor ce afecteaza direct 𝑉 variabila.
• Exemplu. Se considera un student la examen. Studentul poate
fi mai mult sau mai putin inteligent (variabila aleatoare 𝐼) si
poate fi mai mult sau mai putin muncitor (variabila aleatoare
𝑀). La examen studentul raspunde corect la un numar de
intrebari (𝑅𝐶) si astfel obtine o nota (𝑁). Dat fiind numarul of
de raspunsuri corecte 𝑅𝐶, nota 𝑁 obtinuta de student este
independenta de inteligenta 𝐼 si de nivelul muncii sale 𝑀,
adica: 𝑁 ⊥ *𝑀, 𝐼+ | 𝑅𝐶.
2023-2024
Reprezentare ca Retea Bayesiana

Inteligent Muncitor

Raspunsuri corecte

Nota

2023-2024
Definirea Retelelor Bayesiene
• Definitie. O Retea Bayesiana (RB) este o reprezentare de tip
graf a presupunerilor de independenta conditionala din
domeniul problema. O RB contine:
– Un graf orientat aciclic – DAG cu noduri reprezentand variabile
aleatoare din domeniul problema.
– Un set de tabele de probabilitati conditionate, cate una pentru fiecare
variabila aleatoare, date fiind valorile parintilor sai.
• Presupunerile explicite de independenta definite de o RB sunt:
– O variabila aleatoare este independenta de nedescendentii sai, dati
fiind parintii sai.
– O variabila 𝑊 este descendenta a variabilei 𝑉 dnd 𝑊 = 𝑉 sau exista
cel putin o cale in graful RB de la 𝑉 la 𝑊.
2023-2024
Independenta intr-o RB
• Daca 𝑋 este o variabila aleatoare, 𝑌1 , … , 𝑌𝑛 sunt parintii sai si
𝑅 este o formula ce nu contine descendenti ai lui 𝑋, atunci:

𝑃 𝑋 = 𝑎 𝑌1 = 𝑏1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑏𝑛 ∧ 𝑅) = 𝑃 𝑋 = 𝑎 𝑌1 = 𝑏1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑏𝑛 )

𝑋 ⊥ 𝑅 | *𝑌1 , 𝑌2 , … , 𝑌𝑛 + 𝑅
×
𝑋


𝑌1 𝑌2 𝑌𝑛

2023-2024
Exemplu de RB
• Dispneea (respiratie greoaie) poate fi cauzata de
tuberculoza, cancer la plamani, bronsita sau un subset al
lor.
• O vizita recenta in Asia conduce la un risc crescut al
tuberculozei.
• Fumatul este un factor de risc pentru cancerul la
plamani si bronsita.
• Rezultatul unei radioscopii nu poate discrimina intre
cancerul la plamani si tuberculoza.
• Nici prezenta, nici absenta respiratiei greoaie nu pot
realiza aceasta discriminare. 2023-2024
Exemplu de RB

Vizsita in Asia? Fumeaza?

Tuberculoza Cancer la plamani Bronsita

Tuberculoza sau Cancer

Radioscopie pozitiva? Dispnee?

2023-2024
Specificarea unei RB
• Specificarea nodurilor. Fiecare nod corespunde unei
variabile aleatoare in domeniul problema.
• Specificarea domeniilor variabilelor aleatoare.
Trebuie sa descoperiti si sa indicati multimea tuturor
valorilor posibile pentru fiecare variabila.
• Specificarea arcelor. Fiecare arc indica o influenta
directa a unei variabile asupra altei variabile.
• Specificarea tabelelor de probabilitati conditionate –
TPC: exista cate un tabel separat pentru fiecare nod
(variabila) 𝑋 cu parentii 𝑌1 , … , 𝑌𝑛 (𝑛 poate fi 0 cand 𝑋
este un nod frunza). Tabelele sunt structurate ierarhic.
2023-2024
Exemplu TPC
• Fie 𝑋 o variabila aleatoare cu 𝑑𝑜𝑚(𝑋) = *𝑥1 , 𝑥2 +.
Presupunem ca 𝑋 are trei parinti 𝑌1 , 𝑌2 si 𝑌3 si fie
𝑑𝑜𝑚(𝑌1 ) = *𝑦11, 𝑦12+, 𝑑𝑜𝑚(𝑌2 ) = *𝑦21, 𝑦22+ si
𝑑𝑜𝑚(𝑌3 ) = *𝑦31, 𝑦32, 𝑦33+.

X
Y3 y31 y32 y33
Y2 y21 y22 y21 y22 y21 y22
Y1 y11 y12 y11 y12 y11 y12 y11 y12 y11 y12 y11 y12
x1
x2
2023-2024
Factorizarea probabilitatilor in RB – I
• O distributie cumulat a de probabilitate – DCP a 𝑛 variabile aleatoare
𝑋1 , 𝑋2 , … , 𝑋𝑛 este data de multimea valorilor 𝑃(𝑋1 = 𝑣1 ∧ ⋯ ∧ 𝑋𝑛 = 𝑣𝑛 )
pentru 𝑣𝑖 ∈ 𝑑𝑜𝑚(𝑋𝑖 ), 1 ≤ 𝑖 ≤ 𝑛. Cunoasterea acestor valori ne permite
sa eterminam orice probabilitate conditionala ce implica cele 𝑛 variabile.
• Presupunerile de independencta ale unei RB ne permit sa determinam
DCP din PCT-urile asociate variabilelor retelei.
• Fie 𝑋1 , 𝑋2 , … , 𝑋𝑛 o sortare topologica a variabilelor retelei astfel incat,
pentru fiecare variabila, parintii sai o preced in cadrul acestei sortari.
Exista cel putin o astfel de sortare intrucat reteaua este un DAG.
Aplicand formula de inmultire a probabilitatilor conditionate, rezulta ca:
𝑃 𝑋1 = 𝑣1 ∧ ⋯ ∧ 𝑋𝑛 = 𝑣𝑛 = 𝑃 𝑋1 = 𝑣1 ⋅ 𝑃 𝑋2 = 𝑣2 𝑋1 = 𝑣1 ⋅ …
… ⋅ 𝑃(𝑋𝑛 = 𝑣𝑛 |𝑋1 = 𝑣1 ∧ ⋯ ∧ 𝑋𝑛−1 = 𝑣𝑛−1 )

2023-2024
Factorizarea Probabilitatilor in RB – II
• Fiecare termen:
𝑃 𝑋𝑖 = 𝑣𝑖 𝑋1 = 𝑣1 ∧ ⋯ ∧ 𝑋𝑖−1 = 𝑣𝑖−1
are proprietatea ca nu este conditionat de un descendent al
variabilei 𝑋𝑖 . Aplcand presupunerile de independenta si notand
𝜋𝑋𝑖 tuplul parintilor variabilei 𝑋𝑖 si cu 𝜋𝑣𝑖 tuplul valorilor lor,
rezulta:
𝑃 𝑋𝑖 = 𝑣𝑖 𝑋1 = 𝑣1 ∧ ⋯ ∧ 𝑋𝑖−1 = 𝑣𝑖−1 = 𝑃(𝑋𝑖 = 𝑣𝑖 |𝜋𝑋𝑖 = 𝜋𝑣𝑖 )
• In concluzie:
𝑛
𝑃 𝑋1 = 𝑣1 ∧ ⋯ ∧ 𝑋𝑛 = 𝑣𝑛 = Π𝑖=1 𝑃 𝑋𝑖 = 𝑣𝑖 𝜋𝑋𝑖 = 𝜋𝑣𝑖
• Aceasta ecuatie este uneori considerata ca definitie a unei RB.

2023-2024
Exemplu de factorizare
𝐴 = Visita in Asia? Vizita in Asia? Fumeaza?

𝐹 = Fumeaza?
𝑇 = Tuberculosis Tuberculoza Cancer la plamani Bronsita

𝐶 = Cancer
𝐵 = Bronsita Tuberculoza sau
𝐸 = Tuberculoza sau Cancer Cancer

𝑅 = Radioscopie pozitiva?
Radioscopie pozitiva? Dispnee?
𝐷 = Dispnee?
• O sortare topologica este: 𝐴, 𝐹, 𝑇, 𝐶, 𝐵, 𝐸, 𝑅, 𝐷. Astfel ca factorizarea este:
𝑃 𝐴∧𝐹∧𝑇∧𝐶∧𝐵∧𝐸∧𝑅∧𝐷 =𝑃 𝐴 ⋅𝑃 𝐹 ⋅𝑃 𝑇 𝐴 ⋅𝑃 𝐶 𝐹 ⋅
𝑃 𝐵 𝐹 ⋅ 𝑃 𝐸 𝑇 ∧ 𝐶 ⋅ 𝑃 𝑅 𝐸 ⋅ 𝑃(𝐷|𝐸 ∧ 𝐵)
• Exista cate o astfel de relatie pentru fiecare combinatie posibila a celor 8
variabile in forma directa sau complementata (sunt variabile aleatoare
Booleene). Deci exista 28 = 256 relatii.
2023-2024
Rationament probabilistic in RB
• Rationament in RB = determinarea distributiei de
probabilitate a unei variabile, date fiind niste dovezi.
Trebuie sa gasim valorile 𝑃(𝑍|𝑌1 = 𝑣1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑣𝑛 ).
𝑍 este variabila interogata, 𝑌𝑖 sunt variabile observate
si expresiile 𝑌𝑖 = 𝑣𝑖 se numesc probe.
• S-a aratat ca aceasta este o problema NP-hard, adica nu
exista nici o speranta de a gasi o rezolvare polinomiala,
pe cazul general.
• O abordare a rationamentului in RB este de a exploata
structura retelei prin aplicarea unor reguli de
rationament.
2023-2024
Rationament probabilistic in RB
𝑃 𝑍 𝑌1 = 𝑣1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑣𝑛 =
𝑃(𝑍 ∧ 𝑌1 = 𝑣1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑣𝑛 )
=
𝑃(𝑌1 = 𝑣1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑣𝑛 )
𝑋 𝑃(𝑋 ∧ 𝑍 ∧ 𝑌1 = 𝑣1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑣𝑛 )
𝑇 𝑃(𝑇 ∧ 𝑌1 = 𝑣1 ∧ ⋯ ∧ 𝑌𝑛 = 𝑣𝑛 )
• Suma dupa 𝑋 se refera la toate variabilele din domeniu,
exceptand *𝑍, 𝑌1 , … , 𝑌𝑛 +.
• Suma dupa 𝑇 se refera la toate variabilele din domeniu,
exceptand *𝑌1 , … , 𝑌𝑛 +.
• Caz practic: domeniu cu 100 variabile. Sa presupunem ca
avem 𝑛 = 3 observatii si o singura variabila observata.
2023-2024
Cea mai simpla RB
• Contine doar doua variabile aleatoare : 𝐸 (dovada) si 𝐻
(ipoteza).
• Se considera urmatoarea interpretare:
• Ipoteza influenteaza dovada
• Se observa dovada
• Trebuie sa evaluam probabilitatea ipotezei data fiind dovada

? ∠

𝑯 𝑬

• Astfel, data fiind dovada observata 𝐸 trebuie sa determinam


𝑃 𝐻 𝐸 =?
2023-2024
Probabilitatile care definesc cea mai simpla RB
? ∠

𝑯 𝑬
• Se stie:
𝑃 𝐻 = 𝑝1 , 𝑃 ¬𝐻 = 1 − 𝑝1
𝑃 𝐸 𝐻 = 𝑝2 , 𝑃 ¬𝐸 𝐻 = 1 − 𝑝2
𝑃 𝐸 ¬𝐻 = 𝑝3 , 𝑃 ¬𝐸 ¬𝐻 = 1 − 𝑝3
• Aplicand teorema lui Bayes :
𝑃 𝐸 𝐻 ⋅𝑃(𝐻) 𝑝2 𝑝1
𝑃 𝐻𝐸 = = =
𝑃(𝐸) 𝑃 𝐸∧𝐻 +𝑃(𝐸∧¬𝐻)
𝑝2 𝑝1 𝑝2 𝑝1
=
𝑃 𝐸 𝐻 ⋅𝑃 𝐻 +𝑃 𝐸 ¬𝐻 ⋅𝑃(¬𝐻) 𝑝2 𝑝1 +𝑝3 (1−𝑝1 )
• Concluzie: cea mai simpla RB este echivalenta cu teorema
lui Bayes. 2023-2024
Rezolvarea folosind metoda “brute-force”
? ∠

𝑯 𝑬
• Se stie:
𝑃 𝐻 = 𝑝1 , 𝑃 ¬𝐻 = 1 − 𝑝1
𝑃 𝐸 𝐻 = 𝑝2 , 𝑃 ¬𝐸 𝐻 = 1 − 𝑝2
𝑃 𝐸 ¬𝐻 = 𝑝3 , 𝑃 ¬𝐸 ¬𝐻 = 1 − 𝑝3
• Aplicand formula probabilitatii conditionate:
𝑃(𝐻 ∧ 𝐸) 𝑃 𝐸 𝐻 ⋅ 𝑃(𝐻)
𝑃 𝐻𝐸 = = =
𝑃(𝐸) 𝑃 𝐸 ∧ 𝐻 + 𝑃(𝐸 ∧ ¬𝐻)
𝑝2 𝑝1 𝑝2 𝑝1
=
𝑃 𝐸 𝐻 ⋅𝑃 𝐻 +𝑃 𝐸 ¬𝐻 ⋅𝑃(¬𝐻) 𝑝2 𝑝1 +𝑝3 (1−𝑝1 )

2023-2024
Reguli de rationament (I)
• Se considera cazul determinarii 𝑃(𝑋|𝐸) cand 𝐸
nu contine descendentii lui 𝑋. Fie 𝑌 parintii lui 𝑋.
... ...
Se obtine: 𝑌
𝑃 𝑋 𝐸 = 𝑑∈𝑑𝑜𝑚 𝑌 𝑃(𝑋 ∧ 𝑌 = 𝑑|𝐸) =
𝑑∈𝑑𝑜𝑚 𝑌 𝑃 𝑋 𝑌 =𝑑∧𝐸 ⋅𝑃 𝑌 =𝑑 𝐸 =
𝑃 𝑋 𝑌 = 𝑑 ⋅ 𝑃(𝑌 = 𝑑|𝐸) 𝑋
𝑑∈𝑑𝑜𝑚 𝑌
• Observati ca in acest caz, determinarea 𝑃(𝑋|𝐸)
se reduce la determinarea anumitor probabilitati
𝑃(𝑌|𝐸) a.i. 𝑌 sunt parintii lui 𝑋. Probabilitatile
𝑃(𝑋|𝑌) sunt cunoscute din definitia retelei. 𝐸
• Acest tip de rationament este similar cu
rationamentul top-down.

2023-2024
Reguli de rationament (II)
• Se considera cazul determinarii 𝑃(𝑋|𝐸) cand 𝐸 contine cel putin un descendent
al lui 𝑋. Daca 𝐸 specifica o valoare 𝑥 pentru 𝑋 atunci 𝑃 𝑋 = 𝑥 𝐸 = 1 si
𝑃 𝑋 = 𝑥 ′ 𝐸 = 0 pentru toti 𝑥 ′ ≠ 𝑥. Altfel 𝐸 = 𝐸1 ∧ 𝐸2 a.i. 𝐸1 contine numai
descendenti ai lui 𝑋 (diferiti de 𝑋) si 𝐸2 nu contine descendenti ai lui 𝑋.
𝑃 𝑋 ∧ 𝐸1 ∧ 𝐸2
𝑃 𝑋 𝐸 = 𝑃 𝑋 𝐸1 ∧ 𝐸2 = =
𝑃 𝐸1 ∧ 𝐸2
𝑃 𝐸1 𝑋 ∧ 𝐸2 ⋅ 𝑃 𝑋 𝐸2 ⋅ 𝑃 𝐸2 𝑃 𝐸1 𝑋 ∧ 𝐸2 ⋅ 𝑃 𝑋 𝐸2
=
𝑃 𝐸1 ∧ 𝐸2 ⋅ 𝑃 𝐸2 𝑃 𝐸1 ∧ 𝐸2
• Observati ca acum, atat 𝑋 si 𝐸2 nu contin descendenti ai lui 𝐸1 , astfel ca putem
continua prin aplicarea regulii (I). X

𝐸 ... 𝐸1 ... ... 𝐸2 ...

2023-2024
Exemplu (I)
• Dimineata cand pleaca de acasa, dl. Holmes observa ca iarba in curtea sa este uda (H). El
crede ca aceasta este cauzata fie de ploaia din timpul noptii (R) sau de aspersorul lasat
pornit peste noapte (S). Apoi el observa ca iarba in curtea vecinului (Dl. Watson) este tot
uda (W). Astfel ca, el este aproape sigur ca a plouat in timpul noptii.

2023-2024
Exemplu (II)

2023-2024
Exemplu (III)

2023-2024
Pachetul PGMPY
• Poate fi descarcat de aici:
https://pgmpy.org/index.html

• Dispune de facilitati pentru:


• Reprezentarea retelelor Bayesiene
• Realizarea de inferente in retele Bayesiene
• Estimarea parametrilor
• Invatare

• Se considera exemplul cu dl.Holmes si dl.Watson:


• Se defineste strutura retelei
• Se definesc tabelel de probabilitati conditionate
• Se verifica modelulu, inclusiv presupunerile locale de independenta
• Se determina probabilitatile 𝑃 𝑅 𝐻) si 𝑃 𝑅 𝐻 ∧ 𝑊).
2023-2024
Link la exemplu de cod

• Link la codul pregatit in Google Colab:


https://colab.research.google.com/drive/1akrOMdj_UTyxD32BybImTLWG
ERoiv9k3?usp=sharing

2023-2024

S-ar putea să vă placă și