Sunteți pe pagina 1din 38

Capitolul 9

Modelele Mixte si EM
Daca vom defini o "joint distribution" (distributie in comun), peste variabilele observate si latente,
distributia corespunzatoare a variabilelor observate singure este obtinuta prin marginalizare. Acest
lucru permite distributii relativ complexe marginale peste variabilele observate care sa fie exprimate in
termeni "joint distribution" (distributie in comun) mai usor de utilizat asupra spatiului extins al
variabilelor observate si latente.
Introducerea de variabile latente permite ca distributii complicate sa fie formate din componente mai
simple. In acest capitol, vom vedea ca distributiile amestecate, cum ar fi amestecul Gaussian discutat in
sectiunea 2.3.9, poate fi interpretat in termeni de variabile latente discrete. Variabilele continue latente
vor forma subiectul capitolului 12.
La fel de bine ca si asigurarea unui cadru de lucru pentru construirea unor distributii de
probabilitate mai complicate, modelele mixte pot fi de asemenea utilizate, in datele cluster. Vom incepe
discutia de distributii mixte prin luarea in considerare a problemei de a gasi grupari intr-un set de
puncte de date, pe care le abordam mai intai folosind o tehnica nonprobabilistica numita algoritmul K-
means (Lloyd, 1982). Apoi vom introduce variabila latenta observand distributii mixte in care
variabilele discrete latente poate fi interpretate ca definirea atribuirii de puncte de date la componentele
specifice ale modelului mixt. O tehnica generala pentru gasirea estimatorilor verosimilitatii maxime in
modelele variabilelor latente este algoritmul sperantei de maximizare (EM). In primul rand vom folosi
distributia Gaussiana Mixta pentru a motiva algoritmul EM intr-un mod informational corect si apoi sa
dam un tratament mai atent bazat pe punct de vedere dat de variabila latenta. Vom vedea ca algoritmul
K-means corespunde cu o limita particulara nonprobabilistica a EM aplicat la Gaussian Mixt. In cele
din urma, vom discuta EM in unele generalitati.
Modelele Gaussian Mixte sunt utilizate pe scara larga in data mining, recunoasterea modelului,
invatare masina, si analiza statistica. In multe aplicatii, parametrii lor sunt determinati de
verosimilitatea maxima, utilizand de obicei algoritmul EM. Cu toate acestea, dupa cum vom vedea,
exista unele limitari semnificative la abordarea verosimilitatii maxime, tipic folosind algoritmul EM. In
orice caz asa cum vom vedea exista cateva limitari semnificative a abordarii verosimilitatii si in
capitolul 10 vom arata ca un tratament elegant Bayesian poate fi dat utilizand cadrul deductiei
variationale. Acest lucru necesita calcul suplimentar mic compararat cu EM, si ii rezolva principalele
dificultati de verosimilitate maxima, permitand de asemenea, numarul de componente in modelul mixt
sa fie dedus automatic din date.
Gruparea K-means
Am inceput prin a examina problema identificarii grupurilor, sau clusterelor, de puncte de date intr-un
spatiu multidimensional. Sa presupunem ca avem un set de date {x1,. . . , Xn} constand din N
observatii a unei variabile aleatoare Euclidiene D-dimensionale x. Scopul nostru este de a partitiona
setul de date in cateva clustere de numere K, unde vom presupune pentru moment ca valoarea K este
data. Intuitiv putem crede despre un cluster ca cuprindem un grup de puncte de date ale caror distante
dintre puncte sunt mici in comparatie cu distantele la punctele din afara clusterului. Putem formaliza
aceasta notiune prin introducerea mai intai a unui set de vectori D-dimensionali k, unde k = 1,. . . , K,
in care k este un prototip asociat cu clusterul al K-ulea. Dupa cum vom vedea in scurt timp, ne putem
gandi la k ca reprezentand centrele de clustere. Scopul nostru este apoi de a gasi o distribuire de
puncte de date la clustere, precum si un set de vectori {k}, asa cum suma patratelor distantelor a
fiecarui punct de date la cel mai apropiat vector al sau k, este un minim.
Este convenabil in acest moment sa se defineasca unele notatii pentru a descrie distribuirea
punctelor de date la clustere. Pentru fiecare punct de date xn, vom introduce un set corespunztor de
variabile indicator binare rnk{0, 1}, unde k = 1,. . . , K descriind care punct xn de date care este alocat
la clusterele K, astfel incat punctul de date xn este atribuit clusterului k apoi rnk=1, si rnj=0 pentru j k.
Acest lucru este cunoscut sub numele de schema de codificare 1-din-K. Putem defini apoi o functie
obiectiv, numit uneori o masura de distorsiune, data de:



N
n
K
k
k n nk
x r J
1
2
1

(9.1)
Care reprezinta suma patratelor distantelor pentru fiecare punct de date al vectorului atribuit
k

.
Scopul nostru este de a gasi valori pentru {rnk} si {k}, astfel incat sa se minimizeze J. Putem face
acest lucru printr-o procedura iterativa, in care fiecare iteratie implica doua etape succesive care
corespund optimizarii succesive cu privire la rnk si k . In primul rand vom alege cateva valori initiale
pentru k. Apoi in prima faza am minimiza J cu privire la rnk, pastrand k fix. In faza a doua am
minimiza J cu privire la k, pastrand rnk fixat. Aceste doua faze de optimizare sunt apoi repetate pana
la convergenta. Vom vedea ca aceste doua etape de actualizare rnk si k corespund lui E (speranta) si
M (maximizare) etapelor algoritmului EM, si pentru a sublinia acest lucru vom folosi termenii pasul E
si pasul M in contextul algoritmului K-means.
Se considera in primul rand determinarea determinarea rnk. Deoarece J in (9.1) este o functie
liniara a lui rnk, aceasta optimizare se poate face cu usurinta pentru a oferi o solutie de forma inchisa.
Termenii care implica diferiti n sunt independenti si astfel putem optimiza pentru fiecare n separat prin
alegerea lui rnk sa fie 1 pentru oricare valoare a lui k ceea ce da valoarea minima a
2
k n
x . Cu alte
cuvinte, vom atribui pur si simplu al n-lea punct de date la cel mai apropiat centru al grupului. Formal
acest lucru poate fi exprimat astfel:
daca k = arg
2
min
j n j
x

'

0
1
nk
r
altfel. (9.2)
Acum se considerara optimizarea lui k cu rnk tinuta fixa. Functia obiectiv J este o functie
patratica de k, si poate fi minimizata prin setarea derivatelor sale cu referire la k la zero dandu-ne:
( ) 0 2
1

N
n
k n nk
x r
(9.3)
Pe care le putem rezolva cu usurinta pentru a rezulta k

n
nk
n
n nk
k
r
x r

(9.4)
Numitorul in aceasta expresie este egal cu numarul de puncte atribuite clusterelor k, si asa acest rezultat
are o interpretare simpla, si anume set k este egal cu media din toate punctele de date xn atribuite
clusterului k. Din acest motiv, procedura este cunoscuta ca algoritmul K-means.
Cele doua faze de re-atribuire a punctelor de date la clustere si recalcularea mediilor clusterelor se
repeta la randul sau, pana cand nu exista nici o schimbare in atribuiri (sau pana cand maximum
numerelor de interatii este depasit). Deoarece fiecare faza reduce valoarea functiei obiectiv J,
convergenta algoritmului este asigurata. In orice caz se poate converge la un local mai degraba decat la
un minimum global al lui J. Proprietatile de convergenta a algoritmului K-means au fost studiate de
MacQueen (1967).
Algoritmul K-means este ilustrat folosind datele "Old Faithful" setate in Figura 9.1. In scopul
acestui exemplu, am facut o re-scalare liniara a datelor, cunoscuta sub numele de standardizare, astfel
incat fiecare dintre variabile are media zero si deviatia standard unitate. Pentru acest exemplu, am ales
K = 2, si asa mai departe
Figura 9.1 In aceasta ilustratie a algoritmului K-means utilizand re-scalarea setului de date "Old
Faithful".
(a) punctele verzi indica setul de date intr-un spatiu euclidian bi-dimensional. Alegerile initiale pentru
centrele 1 si 2 sunt aratate de culoarea rosie si albastru cu cruce. (b) In etapa initiala E, fiecare punct
de date este alocat in aceiasi masura clusterului rosu sau clusterului albastru, in functie de care este mai
apropiat centru al clusterului. Acest lucru este echivalent cu clasificarea punctelor in functie de pe care
parte a bisectoarei perpendiculare ale celor doua centre de cluster se afla si sunt aratate de linia
magenta. (c) In pas ulterior M, fiecare centru de cluster este re-calculate a fi media punctelor atribuite
clusterului corespunzator. (d)-(i) arata pasii succesivi E si M pana la finalul de convergentei
algoritmului.
Figura 9.2 Desenul functiei cost J dat de (9.1)
dupa fiecare pas E (punctele albastre) si pasul M
(puncte rosii) a algoritmului K-means pentru
exemplul prezentat in Figura 9.1. Algoritmul are
convergente dupa al treilea pas M, precum si ciclul
final EM nu produce nici o modificare nici in
distribuiri sau vectori prototip.
cazul, repartizarea fiecarui punct de date la cel mai apropiat centru de grup este echivalent cu o
clasificare a punctelor de date in functie de care se afla de fiecare parte a bisectoarei perpendiculare a
celor doua centre de cluster. Un grafic al functiei J cost este dat de (9.1) pentru exemplul "Old Faithful"
si este prezentat in Figura 9.2.
Retineti ca am ales in mod deliberat valori initiale sarace pentru centrele de cluster, astfel incat
algoritmul ia cativa pasi inainte de convergenta. In practica o procedura mai buna de initializare ar fi sa
se aleaga centrul clusterului k sa fie egal cu un subset aleator puncte de date K. De asemenea este
demn de remarcat ca algoritmul K-means in sine este adesea folosit pentru a initializa parametrii intr-
un model de amestec Gaussian inainte de aplicarea algoritmului de EM.
O implementare directa a algoritmului K-means dupa cum a fost discutat aici poate fi relativ
lent, deoarece in fiecare pas E este necesar sa se calculeze distanta Euclidiana dintre fiecare vector
prototip si fiecare punct de date. Diferite scheme au fost propuse pentru accelerarea algoritmului K-
means, dintre care unele se bazeaza pe precalcularea unei structuri de date, cum ar fi structura arbore,
astfel incat punctele de apropiere sunt in acelasi sub-arbore (Ramasubramanian si Paliwal, 1990;
Moore, 2000). Alte abordari fac uz de inegalitatea triunghiului pentru distante, evitandu-se astfel
calcule inutile de distanta (Hodgson, 1998; Elkan, 2003).
Pana acum, am considerat o versiune lot a algoritmului K-means, in care intregul set de date
este utilizat impreuna pentru a actualiza vectorii prototip. Putem obtine un algoritm stocastic on-line
(MacQueen, 1967) prin aplicarea procedurii Robbins-Monro la problema gasirii radacinilor functiei de
regresie data de derivate lui J in (9.1) cu privire la k. Acest lucru duce la o actualizare secventiala in
care, pentru fiecare punct de date xn la randul sau, am actualizat cel mai apropiat prototip k utilizand:
( )
vechi
k n n
vechi
k
nou
k
x + (9.5)
Unde n

este paramentrul rata de invatare, care este tipic facut sa descreasca monoton asa cum mai
multe puncte de date sunt considerate.
Algoritmul K-means se bazeaza pe utilizarea a distantei euclidiene patratice ca masura de
nesimilaritate dintre un punct de date si un vector prototip. Nu numai ca aceasta limiteaza tipul de
variabile de date care pot fi considerate (ar fi nepotrivit pentru cazurile in care unele sau toate
variabilele reprezinta etichete categorice de exemplu), dar se poate face determinarea de cluster-means
nerobust la valori exceptionale. Putem generaliza algoritmul K-means prin introducerea a unei masuri
mai generale de nesimilaritate intre doi vectori x si x, V(x, x) si apoi minimizam urmatoarea masura
de distorsionare:
( )

N
n
k n
K
k
nk
x r J
1 1
,
~
(9.6)
prin care se obtine algoritmul K-medoids. Pasul E implica din nou, pentru clusterul dat prototipuri k,
si atribuie fiecarui punct de date la cluster pentru care nesimilaritatile prototipului corespunzator sunt
mai mici. Costul de calcul a acestui fapt este O(K N), asa cum este cazul pentru algoritmul standard K-
means. Pentru o alegere generala a masurii de nesimilaritate, pasul M este potential mai complex decat
pentru K-means, si de aceea este comun pentru limitarea fiecarui cluster prototip sa fie egal cu unul din
vectorii de date atribuit la acest cluster, asa cum aceasta permite algoritmului fie implementat pentru
orice alegere a masurii de nesimilaritate V(,), atat timp cat aceasta poate fi rapid evaluata. Astfel ca
pasul M implica, pentru fiecare cluster k, o cautare discreta peste Nk puncte distribuite acestui cluster,
care necesita ( )
2
k
N O evaluari ale lui V(,).
O caracteristica notabila a algoritmului K-means este ca la fiecare iteratie, fiecare punct de date
este atribuit unic la unul, si numai unul, la unul din clustere. Intrucat anumite puncte de date vor fi mult
mai aproape de un centru special k decat de orice alt centru, acolo pot exista alte puncte de date care
stau aproximativ la jumatatea distantei dintre centrele de cluster. In acest ultim caz, nu este clar ca
repartizarea de cel mai apropiat cluster este cea mai potrivita. Vom vedea in sectiunea urmatoare ca
prin adoptarea unei abordari probabiliste, vom obtine "soft" atribuiri de puncte de date la clustere intr-
un mod care sa reflecte nivelul de incertitudine asupra celei mai adecvate atribuiri. Aceasta formulare
probabilistica aduce cu sine numeroase beneficii.
9.1.1 Imagine de segmentare si compresie
Ca o ilustrare a aplicatiei algoritmului K-means, consider problemele legate de segmentarea
imaginii si compresia imaginii. Scopul de segmentare este acela de a partitiona o imagine in regiuni,
fiecare din care are un aspect vizual rezonabil de omogen sau care corespunde cu obiecte sau parti de
obiecte (Forsyth si Ponce, 2003). Fiecare pixel intr-o imagine este un punct intr-un spatiu de 3
dimensiuni care cuprinde intensitatile canalelor de rosu, albastru si verde, iar algoritmul nostru de
segmentare trateaza pur si simplu fiecare pixel din imagine ca un punct de date separate. De retinut ca
cu strictete acest spatiu nu este Euclidian deoarece intensitatile canalului sunt delimitate de intervalul
[0, 1]. Cu toate acestea, putem aplica algoritmul K-means fara dificultate. Vom ilustra rezultatul rularii
lui K-means de convergenta, pentru orice valoare speciala a lui K, prin redesenarea imaginii prin
inlocuirea fiecarui vector de pixel cu {R, G, B} intensitate triplata data de centru k pentru care pixelul
a fost atribuit. Rezultatele pentru diferite valori ale K sunt prezentate in Figura 9.3. Vedem ca pentru o
anumita valoare data a K, algoritmul reprezinta imaginea utilizand o paleta de numai K culori. Ar
trebui subliniat faptul ca aceasta utilizare a lui K-means nu este o particulara abordare sofisticata pentru
segmentarea imaginilor, nu in ultimul rand pentru ca nu tine cont de proximitatea spatiala a diferitilor
pixeli. Problema segmentarii imaginii este in general destul de dificila si ramane subiectul a unei
cercetari active si este introdusa aici simplu pentru a ilustra comportamentul algoritmului K-means.
Figura 9.3 Doua exemple a aplicatiei algoritmului de clusterizare K-means pentru segmentarea
imaginilor care prezinta imagini initiale impreuna cu segmentarea lor K-means obtinuta prin utilizarea
diferitelor valori ale K. Aceasta ilustreaza utilizarea cuantificarii vectorului pentru compresie a datelor,
in care valorile mai mici a lui K da compresie mai mare in detrimentul unei imaginii de calitate mai
saraca.
Putem folosi, de asemenea, rezultatul algoritmului de clusterizare pentru a efectua compresia
datelor. Este important sa se faca distinctia dintre compresia fara pierderi de date, in care obiectivul
este de a fi capabili sa refacem datele initiale exact din reprezentarea comprimata, si pierderi de
compresie a datelor, in care am accepta unele erori in reconstructie, in schimbul unor niveluri mai
inalte de compresie decat pot fi obtinute in cazul fara pierderi. Putem aplica algorimtul K-means la
problema pierderii de date prin compresie, dupa cum urmeaza. Pentru fiecare dintre punctele de date N,
vom stoca doar identitatea k a clusterului pentru care sunt atribuite. Vom stoca de asemenea valorile
centrelor clusterelor K numite k, care necesita de obicei pierderi semnificative de date, abtinand
alegem K<< N. Fiecare punct de date este apoi aproximat de cel mai apropiat centru k. Noi puncte de
date pot fi similar comprimate prin gasirea in primul rand celui mai apropiat k si apoi stocarea
etichetei k in locul vectorului de date original. Acest cadru de lucru este de obicei numit vector
cuantificare, si vectorii k sunt numiti vectori code-book (documentatie).
Problema segmentarii imaginilor discutata mai sus ofera o ilustrare a utilizarii de clusterizare
pentru compresia datelor. Sa presupunem ca imaginea originala are N pixeli cuprinzand {R, G, B}
valori, fiecare dintre care este stocat cu 8 biti de precizie. Apoi, pentru a transmite imaginea de
ansamblu direct ar costa 24N biti. Acum sa presupunem ca mai intai rulam K-means pe datele de
imagine, si apoi in locul transmiterii vectorilor de intensitate originala de pixeli noi transmitem
identitatea celui mai apropiat vector k. Deoarece exista K asemenea vectori, acest lucru presupune
log2 K biti pe pixel. Noi trebuie sa transmitem de asemenea vectorii "code book" K, k, care necesita
24K biti, si asa numarul total de biti trebuie sa transmita imaginea care este 24K + N log2 K (rotunjirea
pana la cel mai apropiat intreg). Imaginea originala prezentata in Figura 9.3 are 240 180 = 43, 200
pixeli si asa se cere 24 43,200 = 1,036,800 biti pentru a transmite in mod direct. Prin comparatie,
imaginile comprimate necesita 43,248 biti (K=2), 86,472 biti (K=3), si 173,040 biti (K=10) pentru a
transmite. Acestea reprezinta raportul de comprimare in comparatie cu imaginea initiala de 4,2%, 8,3%,
si 16,7%. Vedem ca exista un compromis intre gradul de compresie si calitatea imaginii. De retinut ca
scopul nostru in acest exemplu este de a ilustra algoritmul K-means. Daca am fi avut intentia de a
produce o imagine buna comprimata, atunci ar fi fost mai fructuos sa consideram blocuri mici de pixeli
adiacenti, de exemplu de 5 5, si astfel sa exploateze corelatiile care exista in imagini naturale dintre
pixelii din apropiere.
9.2 Mixurile Gaussiene
In sectiunea 2.3.9 am motivat modelul mixt gaussian ca o suprapunere liniara simpla a componentelor
Gaussiane, scopul de a oferi o clasa mai bogata a modelelor dense decat Gaussianul simplu. Ne
intoarcem acum la formularea de Gaussian mixt in termeni de variabile latente discrete. Acest lucru ne
va oferi o intelegere mai profunda in aceasta distributie importanta si va servi de asemenea sa motiveze
algoritmul de speranta-maximizare.
Reamintind de la (2.188) ca distributia mixta gaussiana poate fi scrisa ca o suprapunere liniara a
Gaussians in forma urmatoare:
( ) ( )

k
k
k k
k x N x p
1
, | (9.7)
Sa introducem o variabila dimensionale K aleatoare binar z avand o reprezentare de 1-din-K in
care un element particular zk este egal cu 1 si toate celelalte elemente sunt egale cu 0. Valorile lui zk
satisfac zk{0, 1} si

k
k
z 1
, si vedem ca exista K posibile stari pentru vectorul z in functie de care
elementul este nenul. Vom defini distributia in comun p(x, z) in termeni a distributiei marginale p(z) si
o distributie conditionala p(x|z), care corespunde modelului grafic in Figura 9.4. Distributia marginala
peste z este specificata in termeni ai coeficientilor mixti k, in urmatorul mod:
( )
k k
z p 1
Reprezentarea grafica a unui model mixt, in care distributia in comun este exprimata in
forma p(x,z)=p(z)p(x|z).
Unde parametrii
{ }
k

trebuie sa satisfaca urmatoarea conditie:


1 0
k

(9.8)
Impreuna cu


K
k
k
1
1 (9.9)
pentru a valida probabilitatile. Deoarece z foloseste o 1-din-K reprezentare putem scrie de asemenea,
aceasta distributie si sub forma:
( )

K
k
z
k
k
z p
1

(9.10)
Similar, distributia conditionala a lui x dandu-se o valoare particulara pentru z este un Gaussian
( ) ( )

k x N z x p
k k
, | 1 |
(9.11)
Care poate fi de asemenea scrisa in forma:
( ) ( )
k
z
K
k
k
k x N z x p

1
, | | (9.11)
Distributia in comun este dat de p(z)p(x|z), si distributia marginala a lui x este apoi obtinuta prin
insumarea distributiei in comun peste toate starile posibile ale lui z pentru a da:
( ) ( ) ( ) ( )


z
K
k
k k
k x N z x p z p x p
1
, | |
(9.12)
unde am facut utilizarea (9.10) si (9.11). Astfel distributia marginala a lui x este un Mixt Gaussian de
forma (9.7). Daca avem mai multe observatii x1,. . . , xN, apoi pentru ca am reprezentat de distributia
marginala in forma p(x)=
( )

z
z x p ,
, rezulta ca pentru fiecare punct de date observate xn exista o
variabila corespunzatoare latenta Zn.
Am gasit, prin urmare, o formulare echivalenta a mixului gaussian care implica o variabile
latenta explicita. S-ar parea ca nu am castigat prea mult facand acest lucru. Cu toate acestea acum avem
posibilitatea de a lucra cu distributia in comun p(x,z) in loc de distributie marginala p(x) si aceasta va
duce la simplificari semnificative, notabile mai mult prin introducerea algoritmului de speranta de
maximizare (EM).
O alt cantitate care va juca un rol important este probabilitatea conditionala a lui z data x. Vom
folosi (zk) pentru a indica p(zk=1|x), a caror valoare poate fi gasita folosind teorema lui Bayes:
( ) ( )
( ) ( )
( ) ( )




K
j
j j
k k
k k
z x p z p
z x p z p
x z p x
1
1 | 1
1 | 1
| 1
( )
( )

K
j
j j
k k
j x N
k x N
1
, |
, |


(9.13)
Vom vedea k, la fel de important cum probabilitatea lui zk = 1, si cantitatea (zk) este ca si
probabilitatea posterioara corespunzatoare din moment ce a fost observat x. Asa cum vom vedea mai
tarziu, (zk) poate fi de asemenea vazuta ca responsabilitatea pe care componenta k o ia pentru
explicarea observatiei x.
Putem utiliza tehnica de esantionare ancestrala pentru a genera probe aleatoare distribuite in
functie de modelul Mixt Gaussian. Pentru a face acest lucru, mai inati vom genera o valoare pentru z,
pe care il notam z , din punct de vedere al distributiei marginale p(z) si apoi se genereaza o valoare
pentru x din distributis conditionata p(x| z ). Tehnici pentru prelevarea de probe din distributiile
standard sunt discutate in capitolul 11. Putem reprezenta probe de la distributia in comun p(x,z) prin
reprezentarea grafica a punctelor la valorile corespunzatoare ale lui x si apoi colorarea lor in functie de
valoarea lui z, cu alte cuvinte, la care componenta Gaussiana a fost responsabila pentru generarea ei,
asa cum se arata in Figura 9.5(a). In mod similar esantioane din distributia marginala p(x) sunt obtinute
prin luarea de esantioane de la distributia in comun si ignorand valorile lui z. Acestea sunt ilustrate in
Figura 9.5(b) prin schitarea valorilor lui x, fara etichete colorate.
Putem folosi de asemenea, acest set de date sintetice pentru a ilustra "responsabilitatile" prin
evaluarea fiecarui punct de date, probabilitatea posterioara pentru fiecare component in distributia
mixta din care acest set de date au fost generate. In special putem reprezenta valoarea
responsabilitatilor (znk) asociate cu punctul de date xn prin reprezentarea grafica a punctului
corespondent folosind proportiile de cerneala rosie, albastra si verde data de (znk) pentru k=1, 2, 3 asa
cum se arata in Figura 9.5(c). Deci de exemplu, un punct de date pentru fiecare (zn1)=1 va fi de
culoare rosie, in timp ce unul pentru fiecare (Zn2)=(zn3)=0.5 va fi colorat cu proportii egale de
cerneala albastra si verde in asa fel in care apar cyan. Acest lucru ar trebui sa fie comparat cu figura
9.5(a), in care punctele de date au fost etichetate utilizand identitatea reala a componentei din care au
fost generate.
9.2.1 Verosimilitatea maxima
Sa presupunem ca avem un set de date de observatii {x1,. . . , XN}, si dorim sa modelam aceste
date folosind un Mixt Gaussian. Putem reprezenta acest set de date ca o matrice ND notata X, in care
n-lea rand este dat de
T
n
x . In mod similar variabilele corespunzatoare latente vor notate Z de o matrice
N K cu
T
n
z randuri.
Figura 9.5 Exemplu de 500 de puncte desenate din mixtul a 3 Gaussiane prezentate in figura 2.23. (a) Probele de la
distributia in comun p(z)p(x|z), in care cele trei stari ale lui z, corespunztoare celor trei componente ale mixtului, sunt
reprezentate in rosu, verde si albastru, si(b) mostrele corespunzatoare din distributiile marginale p(x), care este obtinut prin
ignorarea pur si simplu a valorilor lui z si reprezentand doar valorile x. Setul de date in (a) este declarat a fi complet, in timp
ce in (b) este incomplet. (c) aceleasi probe in care culorile reprezinta valoarea responsabilitatilor (znk) asociate cu punctul
de date xn, obtinute prin reprezentarea grafica a punctului corespondent folosind proportii de cerneala rosie, albastra si
verde data prin (znk) pentru k=1, 2, 3.
Daca presupunem ca punctele de date sunt desenate independent din distributie, atunci putem
exprima modelul mixt gaussian pentru acest set de date i.i.d. folosind reprezentarea grafica din Figura
9.6. De la (9.7) functia verosimilitatea logaritmica este data de
( ) ( )



)

'


N
n
K
k
k n k
k x N X p
1 1
, | ln , , | ln
(9.14)
Inainte de a discuta cum sa se maximizam aceasta functie merita sa subliniem ca exista o problema
semnificativa asociata cu cadrul de verosimilitate maxima aplicata la modelele Mixte Gaussiane
datorita prezentei singularitatii. Pentru simplitate consideraram un Mixt Gaussian ale caror componente
au matrici covarianta date de

k
k
I
2

, unde I este matricea unitate, desi concluziile vor opri


matricea de covarianta generala. Sa presupunem ca una din componentele modelului mixt, sa zicem
componenta a j-a, dispune de o medie j exact egala cu unul din punctele de date, astfel incat j=xn
pentru unele valori ale lui n.
Figura 9.6 Reprezentarea grafica a unui model Mixt Gaussian
pentru un set de N i.i.d. puncte de date {xn}, cu puncte de latente
corespunzatoare {Zn}, unde n = 1,. . . , N.
Figura 9.7 Ilustrarea modului in care
singularitatile in functia verosimilitatii apar cu
amestecuri ale Gaussianului. Aceasta ar trebui sa
fie comparata cu cazul unui singur Gaussian
prezentat in Figura 1.14 pentru care nu apar
singularitati.
Acest punct de date va contribui apoi un termen in
functia verosimilitatii de forma:
( )
( )
j
j n n
I x x N

1
2
1
, |
2
1
2

(9.15)
Daca consideram limita j 0, apoi vedem ca acest termen merge la infinit si asa mai departe functia
verosimilitate va merge deasemenea la infinit. Astfel maximizarea functiei verosimilitatii logaritmice
nu este o problema bine reprezentata, deoarece astfel de singularitati vor fi mereu prezente si vor
aparea de ori de cate ori una din componentele Gaussiane "se prabusesc" intr-un specific punct de date.
Reamintesc ca aceasta problema nu apare in cazul a unei singure distributii Gaussiene. Pentru a
intelege diferenta, retineti ca daca un singur Gaussian se prabuseste pe un punct de date acesta va
contribui la factorii multiplicativi pentru cresterea functiei verosimilitatii sa creasca din alte puncte de
date si acesti factori vor merge catre zero exponential rapid, oferind o verosimilitate de ansamblu care
merge catre zero mai degraba decat catre infinit. Cu toate acestea, odata ce avem (cel putin) doua
componente in amestec, unul dintre componente poate avea o variatie finita si prin urmare atribuie
probabilitati finite la toate punctele de date in timp ce cealalta componenta poate reduce pe un singur
punct specific de date si contribuie astfel in cresterea vreodata a valoarei aditive la logaritmul
verosimilitatii. Acest lucru este ilustrat in Figura 9.7. Aceste singularitati ofera un alt exemplu al unei
severe supra-ajustari care pot aparea intr-o abordare de verosimilitate maxima. Vom vedea ca aceasta
dificultate nu se produce daca vom adopta o abordare Bayesiana. Pentru moment, cu toate acestea, noi
pur si simplu subliniem ca in aplicarea verosimilitattii maxime a modelului Mixt Gaussian noi trebuie
sa luam masuri pentru a evita gasirea de asemenea solutii patologice si in loc sa cautam un maxim local
al functiei verosimilitatii care se comporta bine. Putem spera sa evitam singularitatile prin utilizarea
euristicelor adecvate, de exemplu, prin detectarea atunci cand o componenta Gaussiana se prabuseste si
resetarea are insemnatate la o valoare aleasa aleatoriu in timp ce, deasemenea se face resetarea
covariantei sale la o anumita valoare mare, si apoi continuand cu optimizarea.
O alta problema suplimentara in gasirea de soluii maxime de verosimilitate provine din faptul
ca, pentru orice solutie data de verosimilitate maxima, un amestec de componente K vor avea un total
de K! Solutiile echivalente corespund cu K! Modalitatile de atribuire setului K de parametrii la
componentele K. Cu alte cuvinte, pentru orice punct dat (nedegenerat) in spatiul valorilor de parametrii
vor exista o continuare K! -1 puncte suplimentare, toate care dau nastere la exact aceeasi distributie.
Aceasta problema este cunoscuta sub numele de "identifiability" (identificabilitate) (Casella si Berger,
2002) si reprezinta un aspect important atunci cand dorim sa interpretam valorile parametrilor
descoperite de un model. "Identifiability" va aparea, de asemenea, atunci cand vom discuta despre
modelele avand variabile continue latente in Capitolul 12. Cu toate acestea, in scopul de a gasi un bun
model de densitate, este irelevant deoarece oricare dintre solutiile echivalente este la fel de bun ca
oricare altul.
Maximizarea functiei de verosimilitate logaritmica (9.14) pentru un model mixt Gaussian se
dovedeste a fi o problema mult mai complexa decat pentru cazul unui singur Gaussian. Dificultatea
provine din prezena nsumarii peste k care apare in interiorul logaritmului n (9.14), astfel c funcia
logaritmica nu mai acioneaz direct asupra Gaussianului. Dac ne-am stabilit derivate a verosimilatii
logaritmice catre zero, nu vom mai obine o soluie de form nchis, dup cum vom vedea n scurt
timp.
O abordare este de a aplica tehnici de optimizare pe baz de gradient (Fletcher, 1987; Nocedal
i Wright, 1999; Bishop i Nabney, 2008). Chiar dac tehnicile bazate pe gradient sunt fezabile, i ntr-
adevr vor juca un rol important atunci cnd discutm despre reelele de densitate mixta n Capitolul 5,
considerm acum o abordare alternativ cunoscuta sub numele de algoritmul EM care are aplicabilitate
larg i care va pune bazele pentru o discuie de tehnici de inferenta variationala n Capitolul 10.
9.2.2 EM pentru amestecurile Gaussiane
O metod elegant i puternic pentru gsirea de soluii de verosimilitate maxima pentru
modele cu variabile latente este numit algoritmul de speranta de maximizare, sau algoritm EM
(Dempster et al, 1977;. McLachlan i Krishnan, 1997). Mai trziu, vom da un tratament general al EM,
i vom arta, de asemenea, modul n care EM poate fi generalizat pentru a obine cadrul de inferen
variationala. Iniial, vom motiva algoritmul EM prin acordarea unui tratament relativ informal n
contextul modelului Gaussian mixt. Noi subliniem c EM are aplicabilitate larg, i ntr-adevr, vor fi
enumerate n contextul de o varietate de modele diferite n aceast carte.
S ncepem prin a scrie condiiile care trebuie ndeplinite la un maxim al funciei de
verosimilitate. Setarea derivailor de ln p(X|,,) n (9.14) cu privire la media k a componentelor
Gaussiene la zero, vom obine
( )
( )
( )
( )

nk
z
N
n
k
k n
j
j n j
k n k
x
j x N
k x N


1
, |
, |
0
(9.16)
unde am fcut uz de forma (2.43) pentru distribuia Gaussian. De reinut c probabilitile posterioare,
sau responsabilitile, dat de (9.13) apar in mod natural pe partea dreapt. nmulind cu

1
k
(pe
care le presupunem ca sunt nonsingular) si rearanjand vom obine:
( )

N
n
n nk
k
k
x z
N
1
1

(9.17)
Unde avem definit
( )

N
n
nk k
z N
1
(9.18)
Putem interpreta Nk ca numrul efectiv de puncte atribuite clusterului k. Se noteaza cu atentie forma
acestei soluii. Vedem c media k pentru componenta a k-ulea Gaussiana este obinut prin luarea
mediei ponderate a tuturor punctelor din setul de date, n care factorul de ponderare pentru un punct de
date xn este dat de probabilitatea posterioara (znk) a carei componenta k a fost responsabila pentru
generarea lui xn.
Dac am stabilit derivata lui ln p(X|,,), cu privire la k la zero, i s urmeze o linie de
raionament similar, fcnd uz de rezultat pentru solutia de verosimilitate maxim pentru matricea de
covarianta a un singur Gaussian, vom obine:
( )( )( )



N
n
T
k n k n nk
x x z
N
k
1
1
(9.19)
care are aceeai form ca si rezultatul corespunztor pentru un singur Gaussian potrivit la setul de date
dar din nou cu fiecare punct de date ponderat n funcie de probabilitatea posterioar corespunztoare i
cu numitorul dat de numrul efectiv de puncte asociate cu componenta corespunztoare.
n cele din urm, vom maximiza ln p(X|,,), cu privire la coeficienii de amestecare k. Aici
trebuie s inem cont de constrngere (9,9), care impune coeficienii mixti de insumat la unul. Acest
lucru poate fi realizat folosind un multiplicator Lagrange i maximizarea urmtoarei cantitati:
( )

,
_

+


K
k
k
X p
1
1 , , | ln
(9.20)
Si rezulta

,
_

,
_

N
n
j j
j n j
k
k n
x N
x N
1
, |
, |
0
(9.21)
unde din nou vom vedea aspectul responsabilitilor. Dac noi multiplicam acum ambele pri de k i
insumam peste k fcnd uz de constrngere (9,9), gsim =-N. Folosind aceasta pentru a elimina si
rearanjand vom obine:
N
N
k
k
(9.22)
astfel nct coeficientul de amestec pentru componenta a k-lea este dat de responsabilitatea medie pe
care acea component o ia pentru a explica punctele de date.
Este demn de pus in lumina faptul c rezultatele (9.17), (9.19), i (9.22) nu constituie o soluie
de forma inchisa pentru parametrii modelului mixt deoarece responsabilitile (znk) depind de aceti
parametri ntr-un mod complex prin (9.13). Cu toate acestea aceste rezultate nu sugereaz o schem
simpl iterativ pentru gsirea unei soluii la problema verosimilitatii maxime care dup cum vom
vedea se dovedete a fi o instan a algoritmului EM pentru cazul particular al modelului Gaussian
mixt. Am ales mai nti cteva valori iniiale pentru means, covariane, i coeficienii de amestecare.
Apoi vom alterna ntre urmtoarele dou actualizri pe care le vom numi pas E i pas M, pentru motive
care vor deveni evidente n scurt timp.
Figura 9.8 Ilustrarea algoritmului EM folosind setul "Old Faithful" aa cum este folosit pentru
ilustrarea algoritmului K-means n Figura 9.1. A se vedea textul pentru detalii.
n pasul speranta E vom folosi valorile curente ale parametrilor pentru evaluarea probabilitatii
posterioare sau responsabilitilor date de (9.13). Noi folosim atunci aceste probabiliti n pasul de
maximizare, sau pasul M, pentru a re-estima means, covarianelor, i coeficienii de amestecare
utiliznd rezultatele (9.17), (9.19), i (9.22). Reinei c n acest fel vom evalua noile means folosind
(9.17) i apoi utilizai aceste valori noi pentru a gsi covarianelor folosind (9.19), n conformitate cu
rezultatul corespunztor pentru o distribuie gaussian singura. Vom arta c fiecare actualizare a
parametrilor care rezult dintr-un pas E urmat de un pas M este garantat de a crete funcia logaritmica
de verosimilitate. n practic, algoritmul este considerat a fi convergent atunci cnd schimbarea funciei
de verosimilitate logaritmica sau alternativ n parametrii scade sub un anumit prag. Vom ilustra
algoritmul EM pentru un amestec de dou Gaussians aplicate pentru rescalare setului de date "Old
Faithful" n figura 9.8. Aici un amestec de dou Gaussians este utilizat, cu centre initializate folosind
aceleai valori ca i algoritmul K-means n Figura 9.1, i cu precizie matricele iniializate s fie
proporionale cu matricea unitate. Desenul (a) prezinta puncte de date n verde, mpreun cu
configuraia iniial a modelului mixt n care un conturur al abaterii standard pentru cele dou
componente Gaussiene sunt prezentate ca cercuri albastre i roii. Plot (b) arat rezultatul pasului E
iniial, n care fiecare punct de date este descris folosind o proporie de cerneal albastr egal cu
probabilitatea posterioara a ceea ce a fost generat din componenta albastra, i o proporie
corespunztoare de cerneal roie data de probabilitatea posterioara a ceea ce a fost generat de
componenta roie. Astfel punctele au o probabilitate semnificativa de apartenenta la fiecare cluster ce
apare violet. Situaia de dup primul pas M este prezentat n desenul (c), n care media Gaussianului
albastru sa mutat la media setului de date, ponderat de probabilitile fiecarui punct ce apartine
clusterului albastru, cu alte cuvinte s-a mutat la centrul de mas al cernelei albastre. n mod similar,
covariana Gaussianului albastru este setat egal cu covariana de cerneal albastr. Rezultate analoage
sunt oprite pentru componenta roie. Desenele (d), (e), i (f), arat rezultatele dup 2, 5, i 20 cicluri
complete de EM. n desenul (f) algoritmul este aproape de convergen.
Reinei c algoritmul EM presupune mult mai multe iteraii pentru a ajunge la convergena,
comparativ cu algoritmul K-means, i c fiecare ciclu necesit semnificativ mai multe calcule. Prin
urmare, este comun pentru a rula algoritmul K-means n scopul de a gsi o initializare potrivita pentru
Modelul Mixt Gaussian, care este ulterior adaptat folosind EM. Matrici de covarian pot fi convenabil
iniializate la covarianele eantion a clusterelor gsite de algoritmul K-means i coeficienii mixti pot fi
setati la fraciunile punctelor de date atribuite clusterelor respective. Ca i n abordrile bazate pe
gradient pentru maximizarea verosimilitatii logaritmice, tehnicile trebuie s fie folosite pentru a evita
singularitati ale funciei verosimilibile n care o component Gaussiana se prbuete pe un anumit
punct de date. Trebuie subliniat c vor fi in general multiple locale maxime ale funciei verosimilitatii
logaritmice i c EM nu este garantat de a gsi cea mai cuprinzatoare dintre aceste maxime. Deoarece
algoritmul EM pentru mixuri Gaussiane joac astfel un rol important, l-am rezumat mai jos.
EM pentru Mixul Gaussian
Avnd n vedere un model Mixt Gaussian, scopul este de a maximiza funcia verosimilitatii cu privire
la parametrii (care cuprind means i covarianele componentelor i coeficienii mixti).
1. Se initializeaza k

, covariantele
k
si coeficientii de amestecare k

, si se evalueaza
valoarea intitiala a verosimilitatii logaritmice.
2. Pasul E. Se evealueaza responsabilitatile utilizand valoarea parametrului curent:
( )
( )
( )

K
j
j n j
k n k
nk
j x N
k x N
z
1
, |
, |

(9.23)
3. Pasul M. Reestimarea parametrilor utilizand responsabilitatile curente:
( )

N
n
n nk
k
new
k
x z
N
1
1

(9.24)
( )( )( )


N
n
T
new
k n
new
k n nk
k
new
k
x x z
N
1
1

(9.25)
N
N
k new
k
(9.26)
Unde
( )

N
n
nk k
z N
1
(9.27)
4. Se evalueaza verosimilitatea logaritmica
( ) ( )



)

'


N
n
K
k
k
X N X p
1 1
, , | ln , , | ln
(9.28)
Si se verifica pentru convergenta sau parametrii sau verosimilitatea logaritmica. Daca criteriul de
convergenta nu e este satisfacut ne intoarcem la pasul 2.
9.3 O viziune alternativa a EM
n aceast seciune, vom prezenta o viziune complementar a algoritmului EM care recunoate rolul-
cheie jucat de variabile latente. Vom discuta aceast abordare n primul rnd ntr-un cadru abstract, i
apoi pentru ilustrare vom considera nc o dat cazul mixului Gaussian.
Scopul algoritmului EM este de a gsi soluii pentru verosimilitatea maxima pentru modele cu variabile
latente. Notm setul tuturor datelor observate de ctre X, n care n-lea rnd reprezint
T
n
x , i n mod
similar notm setul tuturor variabilelor latente observate de catre Z, cu un rand corespunzator
T
n
z .
Setul tuturor parametrilor de model este notat cu , i astfel ca functia verosimilitatii logaritmice este
data de:
( ) ( )

'

Z
Z X p X p | , ln | ln
(9.29)
Reinei c discuia noastr se va aplica la fel de bine la variabile latente continue pur i simplu prin
nlocuirea sumei pe Z cu un integral. O observaie cheie este faptul c nsumarea peste variabile latente
apare n interiorul logaritmului. Chiar dac distribuia n comun p(X,Z|) aparine familiei
exponeniale, distribuia marginala p(X|) de obicei nu este ca rezultat aceasta insumare. Prezena
sumei previne logaritmul sa acioneze direct asupra distribuiei n comun, rezultnd n expresii
complicate pentru soluia de verosimilitate maxim.
Acum s presupunem c, pentru fiecare observaie n X, ni s-a dat valoarea corespunztoare a
variabilei latente Z. Vom numi {X, Z} setul complet de date, i ne vom referi la datele reale observate
X ca fiind incomplete, dup cum este ilustrat n Figura 9.5. Funcia de verosimilitate pentru un set
complet de date pur i simplu ia forma ln p(X,Z|), i vom presupune c maximizarea a acestei functii
logaritmice de verosimilitate este foarte simpl.
n practic nu ne sunt date seturile de date complete {X, Z}, ci doar datele incomplete X. Starea
noastr de cunoatere a valorilor de variabile latente n Z este dat numai de distribuia posterioar (Z|
X,). Deoarece nu putem folosi verosimilitatea logaritmica a datelor complete, noi consideram in loc
valoarea sa ateptat sub distribuia posterioar a variabilei latente, ceea ce corespunde (dup cum vom
vedea) la pasul E al algoritmului EM. n ulteriorul pas M, vom maximiza aceast speranta. Daca
estimarea actuala pentru parametrii este notat
old
, apoi o pereche de pasi succesivi E si M dau
natere la o estimare revizuit
new
. Algoritmul este initializat prin alegerea unor valori de pornire
pentru parametrii 0

. Folosirea sperantei poate prea oarecum arbitrar. Cu toate acestea, vom vedea
motivaie pentru aceast alegere atunci cnd vom da un tratament mai profund lui EM n seciunea 9.4.
n pasul E, vom folosi valorile parametrice actuale
old
pentru a gsi distribuia posterioar a
variabilelor latente date de p(Z|X,
old
). Apoi noi vom folosim aceast distribuie posterioar pentru a
gsi sperana ca verosimilitatea logaritmica a datelor complete sa fie evaluata pentru cateva valori
parametrice generale . Aceast speranta notata cu Q (,
old
), este data de:
( ) ( ) ( )

Z
old old
Z X p X Z p Q | , ln , | ,
(9.30)
n pasul M, vom determina estimarea parametrului revizuit
new
prin maximizarea acestei funcii:
( )
old new
Q , max arg (9.31)
Reinei c n definiia lui ( )
old
Q , , logaritmul acioneaz direct asupra distribuiei n comun p(X,Z|
), i astfel maximizarea pasului M corespunzator va fi prin presupunere maleabil.
Algoritmul general EM este rezumat mai jos. Acesta are proprietatea, dup cum vom arta mai
trziu, c fiecare ciclu de EM va crete verosimilitatea logaritmica a datelor incomplete (cu excepia
cazului n care este deja la un maxim local).
Algoritmul General EM
Avand in vedere distribuia n comun p(X, Z | ) peste variabilele observate X i variabilele latente Z,
guvernate de parametrii , scopul este de a maximiza funcia de verosimilitate p(X|) cu privire la .
1. Alegei o setare iniial pentru parametrii
old
.
2. Pasul E Evaluati p( Z| X,
old
).
3. Pasul M Evaluati
new
dat de: ( )
old new
Q , max arg (9.32)
Unde
( ) ( ) ( )

Z
old old
Z X p X Z p Q | , ln , | ,
(9.33)
4. Verificai pentru convergena fie a verosimilitatii logaritmice sau valorile parametrilor. n cazul
n care criteriul de convergen nu este satisfacut, atunci s consideram urmatoarea:
old

new
(9.34)
Si apoi reintoarceti-va la pasul 2.
Algoritmul EM poate fi, de asemenea, utilizat pentru a gsi MAP (maxim posterior) soluii
pentru modelele n care un anterior p() este definit peste parametrii. n acest caz pasul E rmne
acelai ca i n cazul verosimilitatii maxime, n timp ce n pasul M cantitatea care urmeaz s fie
maximizat este data de Q(,
old
)+ln p(). Alegeri potrivite pentru prioritatea de a elimina
singularitati de tipul ilustrat n Figura 9.7.
Aici am luat n considerare utilizarea algoritmului EM pentru a maximizarea funciei de
verosimilitate, atunci cnd exist variabile discrete latente. Cu toate acestea, pot fi aplicate de asemenea
cand variabilele neobservate corespund la valori lips n setul de date. Distribuia valorilor observate
este obinuta prin luarea distribuiei n comun a tuturor variabilelor i apoi marginalizand peste cele
care lipsesc. EM pot fi apoi folosite pentru a maximiza funcia verosimilitatii corespunztoare. Vom
arta un exemplu de aplicare a acestei tehnici, n contextul analizei componentelor principale n figura
12.11. Aceasta va fi o procedur valida daca valorile datelor lipsesc la ntmplare, n sensul c
mecanismul care cauzeaz valorile sa lipseasca, nu depinde de valorile neobservate. n multe situaii,
acest lucru nu va fi cazul, de exemplu, daca un senzor nu reuete s returneze o valoare chiar daca
cantitatea masoara ceva depasiri de prag.
9.3.1 Mixul Gaussian revizuit
Considerm acum aplicarea acestor variabile latente, vedere a lui EM, la cazul specific al unui
model Mixt Gaussian. Reamintim faptul c scopul nostru este de a maximiza funcia verosimilitatii
logaritmice (9.14), care este calculata pe baza setului de date observate X, i am vzut c aceasta a fost
mai dificil dect pentru cazul unui singure distribuii Gaussiane datorit prezenei nsumarii peste k
care are loc n interiorul logaritmului. S presupunem apoi c, n plus fa de X, setul de date observate,
am primit de asemenea valorile corespunztoare variabilelor discrete Z. Amintiti-va ca Figura 9.5 (a)
arat ca un "complet" set de date (de exemplu, unul care include etichete care prezint care component
a generat fiecare punct de date), n timp ce Figura 9.5 (b) arat corespondenta setului de date
"incomplet". Modelul grafic pentru datele complete este prezentat n Figura 9.9.
Acest lucru arat acelai grafic ca n figura 9.6, cu excepia c noi presupunem acum c variabilele
discrete Zn sunt observate, precum i variabilele de date xn.
Acum consideraram problema maximizarii verosimilitatii pentru
setul complet de date {X, Z}. Din (9.10) i (9.11), aceast funcie de verosimilitate ia forma
( ) ( )



N
n
K
k
z
k n
z
k
nk
nk
k x N Z X p
1 1
, | , , | ,
(9.35)
Unde nk
z
denota al k-ulua component al lui k
z
. Luand logaritmul vom obtine:
( ) ( ) { }


+
N
n
K
k
k n k nk
k x N z Z X p
1
1
, | ln ln , , | , ln
(9.36)
Comparativ cu functia de verosimilitate logaritmica (9.14) pentru date incomplete arat c nsumarea
peste k i logaritmul au fost schimbate ntre ele. Logaritmul acum acioneaz direct asupra distribuiei
Gaussiene, care n sine este un membru al familiei exponeniale. Deloc surprinzator, acest lucru duce la
o soluie mult mai simpl pentru problema verosimilitatii maxime, dup cum vom arta acum.
Consideram n primul rnd maximizarea cu privire la means i covariane. Deoarece Zn este un vector
K-dimensional cu toate elementele egale cu 0, cu excepia unui singur element cu valoarea 1, functia
verosimilitatii logaritmice a datelor complete este pur i simplu o sum a contribuiilor independente K,
cate unul pentru fiecare component mixt. Astfel maximizarea cu privire la o medie sau o covarian
este exact ca pentru un singur Gaussian, cu excepia faptului c aceasta implic doar subsetul punctelor
de date care sunt "alocate" la respectiva component. Pentru maximizarea cu privire la coeficienii de
amestecare, observm c acestea sunt cuplate pentru diferite valori ale lui k prin virtutea constrngerii
de insumare (9.9). Din nou, acest lucru poate fi executat folosind un multiplicator Lagrange ca i
nainte, i conduce la rezultatul urmator:

N
n
nk k
z
N
1
1

(9.37)
astfel nct coeficienii de amestecare sunt egali cu fraciile punctelor de date atribuite la componentele
corespunztoare.
Astfel, vedem c functia verosimilitatii logaritmice a datelor complete poate fi maximizata
trivial n form nchis. n practic ns nu avem valori pentru variabile latente, deci dup cum am
discutat mai devreme, noi consideram speranta cu privire la distribuia posterioar a variabilelor latente
a verosimilitatii logaritmice a datelor complete.
Folosind (9.10) i (9.11), mpreun cu teorema lui Bayes, vedem c aceast distribuie posterioar ia
forma:
( ) ( ) [ ]

N
n
K
k
z
k n k
nk
k x N X Z p
1 1
, | , , , |
(9.38)
i, prin urmare, favorizand peste n, astfel nct sub distribuia posterioar {Zn} sunt independente.
Acest lucru este uor de verificat prin inspecia gaficului direct n Figura 9.6 i se face uz de criteriul
de separare-d. Valoarea ateptat al indicatorului variabilei znk sub aceasta distributie posterioara este
dat de:
[ ]
( ) [ ]
( ) [ ]

nk
nk
nk
nk
z
z
j n j
z
k n k
z
nk
nk
j x N
k x N z
z E
, |
, |


( )
( )
( )
nk
K
j
j n j
k n k
z
j x N
k x N

1
, |
, |
(9.39)
care este doar responsabilitatea componentului k pentru punctul de date xn. Valoarea estimat a
funciei verosimilitatii logaritmice datelor completee este prin urmare dat de:
( ) [ ] ( ) ( ) { }


+
N
n
k n k
K
k
nk Z
k x N z Z X p E
1 1
, | ln ln , , | , ln
(9.40)
Putem proceda acum, dup cum urmeaz. n primul rnd vom alege cteva valori iniiale pentru
parametrii
old

,
old

i
old
, i de a folosi acestea pentru a evalua responsabilitile (pasul E).
Pstrm apoi responsabilitile fixe i maximizam (9.40) cu privire la
k

,
k
i
k

(pasul M).
Acest lucru conduce la soluii de format nchis pentru
new

,
new

i
new
dat de (9.17), (9.19), i
(9.22), ca i nainte. Aceasta este exact algoritmul EM pentru Gaussian Mixt, asa cum rezult mai
devreme. Vom obine o perspectiv mai mult n rolul functiei de verosimilitate logaritmica a datelor
complete ateptate atunci cnd vom da o dovad de convergen a algoritmului EM n seciunea 9.4.
9.3.2 Relatii la K-means
Compararea algoritmului k-means cu algoritmul EM pentru amestecuri Gaussiane arat c exist o
asemanare aproapiata. ntruct algoritmul K-means efectueaz o atribuire puternica a punctelor de date
la clustere, n care fiecare punct de date este asociat unic cu un cluster, algoritmul EM face o atribuire
"soft" (usoara) bazata pe probabiliti posterioare. De fapt, putem obine algoritmul K-means ca o
limit de EM pentru amestecuri Gaussiane, dup cum urmeaz.
Se considerara un model Gaussian mixt n care matricile covariana componentelor amestecului
sunt date de ctre I, unde este un parametru variaie care este mprtita de toate componentele, iar I
este matricea identitate, astfel nct
( )
( )

)

'

2
2
1
2
1
exp
2
1
, |
k k
x k x p

(9.41)
Considerm acum algoritmul EM pentru un amestec de Gaussian K a acestui form n care noi tratam ca
o constant fixa, n loc de un parametru care urmeaz s fie re-estimat. Din (9.13) probabilitile
posterioare, sau responsabilitile, pentru un anumit punct de date xn, sunt date de:
( )
{ }

'

j
j n j
k n k
nk
x
x
z

2 / exp
2 / exp
2
2
(9.42)
Dac lum n considerare limita 0, vedem c la numitor termenul pentru care
2
j n
x
este cel
mai mic va merge catre zero cel mai lent, i prin urmare responsabilitile
( )
nk
z
pentru punctul de
date
n
x
toate merg la zero, cu excepia termenului j, pentru care responsabilitatea
( )
nj
z
va merge la
unitate. De reinut c aceasta tine independent de valorile ale lui k

atta vreme ct nici unul dintre


k

nu este zero. Astfel, n aceast limit, vom obine o atribuire grea de puncte de date la clustere, la
fel ca n algoritmul K-means, astfel nct
( )
nk
z
nk
r
unde nk
r
este definit de (9.2). Fiecare punct
de date este atribuit clusterului avnd cea mai apropiata medie.
Ecuaia EM de re-estimare pentru k

dat de (9.17), apoi se reduce la rezultatul K-means


(9.4). De reinut c formula de re-estimare pentru coeficienii de amestec (9.22) pur i simplu re-seteaza
valoarea k

astfel incat s fie egal cu fracia punctelor de date atribuite clusterului k, dei aceti
parametri nu mai joaca un rol activ n algoritm.
n cele din urm, limita 0 verosimilitatea logaritmica a setului de date complet ateptata,
dat de (9.40), devine:
( ) [ ]


+
N
n
K
k
k n nk Z
const x r Z X p E
1 1
2
2
1
, , | , ln (9.43)
Astfel, vedem c n aceast limit, maximiznd verosimilitatea logaritmica a setului de date complet
ateptata este echivalent cu reducerea la minimum a denaturrii msurei J pentru algoritmul K-means
dat de (9.1).
De reinut c algoritmul K-means nu estimeaza covarianele clusterelor ci doar means al
clusterului. O versiune grea de atribuire a modelului mixt gaussian cu matrici de covarian general,
cunoscut sub numele de algoritmul eliptic K-mean, a fost considerat de ctre Sung i Poggio (1994).
9.3.3 Amestecul distributiei Bernoulli
Pn n prezent, n acest capitol, ne-am concentrat asupra distribuirilor peste variabile continue
descrise de amestecuri de Gaussiane. Ca si exemplu urmator de modelare amestec, i pentru a ilustra
algoritmul EM ntr-un context diferit, vom discuta acum despre amestecuri ale variabilelor binare
discrete descrise prin distribuia Bernoulli. Acest model este, de asemenea, cunoscut sub numele de
analiz pe clase latente (Lazarsfeld i Henry, 1968; McLachlan i Peel, 2000). Fiind de importan
practic, discuia noastr de amestecuri Bernoulli va pune, de asemenea, fundamentul pentru
considerarea modelelor Markov ascunse peste variabile discrete.
Luai n considerare un set de D variabile binare i
x
, unde i = 1,. . . , D, fiecare dintre care este
guvernat de o distribuie Bernoulli cu parametrul i

, astfel nct
( ) ( )
( )


D
i
x
i
x
i
i i
x p
1
1
1 |
(9.44)
Unde ( )
T
D
x x x ,...,
1
si ( )
T
D
,...,
1
.
Vedem c variabilele individuale xi sunt independente avnd n vedere . Means i de covariana
acestei distribuii sunt uor de vzut s fie:
[ ]
[ ] ( ) { }
i i
diag x
x E

1 cov
(9.45)
(9.46)
Acum, s considerm un amestec finit de aceste distribuii date de:
( ) ( )

K
k
k k
x p x p
1
| , | (9.47)
Unde
{ } { }
K K
,..., , ,...,
1 1

, si
( ) ( )
( )


D
i
x
ki
x
ki k
i i
x p
1
1
1 |
(9.48)
Media i de covariana acestui amestec de distribuie sunt date de:
[ ]

K
k
k k
x E
1
(9.49)
[ ] { } [ ] [ ]

+
K
k
T T
k k k
x E x E k x
1
cov (9.50)
Unde
{ }


ki
diag k
Deoarece matricea covarianta cov[x] nu mai este diagonal, distribuia mixta
poate capta corelaiile dintre variabile, spre deosebire de o distribuie Bernoulli singura.
Dac ni se d un set de date X = {x1,. . . , Xn} atunci functia de verosimilitate logaritmica
pentru acest model este data de:
( ) ( )



)

'

N
n
K
k
k n k
x p X p
1 1
| ln , | ln
(9.51)
Din nou vedem aspectul al nsumarii in interiorul logaritmului, astfel c soluia de verosimilitate
maxim nu mai are form nchis.
Am deriva acum algoritmul EM pentru maximizarea funciei de verosimilitate pentru amestecul
de distribuii Bernoulli. Pentru a face acest lucru, vom introduce mai nti o variabila latenta explicita z
asociate cu fiecare instan a lui x. Ca i n cazul amestecului Gaussian, ( )
T
K
z z z ,...,
1
este o
variabil binar K-dimensionala cu o singur component egal cu 1, cu toate celelalte componente
egale cu 0. Putem apoi scrie distribuia condiional a lui x, avnd n vedere variabila latenta:
( ) ( )

K
k
z
k
k
x p z x p
1
| , |
(9.52)
n timp ce distribuia anterioara pentru variabilele latente este aceeai cu amestecul modelului
Gaussian, astfel nct
( )

K
k
z
k
k
z p
1
|
(9.53)
Dac vom forma produsul de p(x|z,) i p(z|) i apoi marginalizarea peste z, apoi vom recupera (9.47).
n scopul de a obine algoritmul EM, vom scrie jos functia de verosimilitate logaritmica a datelor
complete care este dat de:
( ) {
( ) ( ) [ ]

+ +


D
i
ki ni ki ni
N
n
k
K
k
nk
x x
z Z X p
1
1 1
1 ln 1 ln
ln , | , ln


(9.54)
unde X = {xn} i Z = {Zn}. Apoi vom lua speranta unei verosimilitati logaritmice a datelor complete
cu privire la distribuia posterioar a variabilelor latente pentru a rezulta:
( ) [ ] ( ){
( ) ( ) [ ]

+ +


D
i
ki ni ki ni
k
N
n
K
k
nk Z
x x
z Z X p E
1
1 1
1 ln 1 ln
ln , | , ln


(9.55)
unde (znk)=E[znk] este probabilitatea posterioara, sau responsabilitate, a componentelor k innd cont
de punctul de date xn. n pasul E, aceste responsabiliti sunt evaluate folosind teorema lui Bayes, care
ia forma:
( ) [ ]
( ) [ ]
( ) [ ]
( )
( )


K
j
j n j
k n k
z
z
j n j
z
z
k n k nk
nk nk
x p
x p
x p
x p z
z E z
nk
nj
nk
nk
1
|
|
|
|



(9.56)
Dac avem n vedere suma peste n n (9.55), vedem c responsabilitile intra doar prin doi termeni,
care poate fi scrisa ca:
( )

N
n
nk k
z N
1
(9.57)
( )
n
N
n
nk
k
k
x z
N
x

1
1

(9.58)
unde Nk este numrul efectiv de puncte de date asociate cu componenta k. n pasul M, am maximizat
asteptata verosimilitatii logaritmice a datelor complete cu privire la parametrii k

i . Dac am setat
derivatul de (9.55) cu privire la k egale cu zero i am rearanjat termenii, vom obine:
k k
x (9.59)
Vedem c aceasta stabilete media componentei k egal cu o medie ponderat a datelor, cu coeficienii
de ponderare dati de responsabilitile pe care componentele k le ia pentru punctele de date. Pentru
maximizarea cu privire la k, avem nevoie de a introduce un multiplicator Lagrange pentru a aplica
constrngerea k = 1. Urmand pasii analogi utilizati la acele amestecuri Gaussiene, vom obine apoi:
N
N
k
k
(9.60)
care reprezint un rezultat intuitiv rezonabil care presupune ca coeficientul de amestecare pentru
componenta k este dat de fracia efectiva de puncte n setul de date explicat de acest component.
De reinut c, n contrast cu amestecul de Gaussian, nu exist singulariti n care funcia de
verosimilitate merge la infinit. Acest lucru poate fi vzut prin notarea ca funcia de verosimilitate este
mrginit deasupra deoarece 0 <=p(xn|k)<=1. Exist singulariti la care funcia de verosimilitate
duce la zero, dar acestea nu vor fi gsite de ctre EM obtinut nu este initializat la un punct de plecare
patologic, deoarece algoritmul EM crete ntotdeauna valoarea funciei de verosimilitate, pn la un
maxim local gsit. Vom ilustra modelul mixt Bernoulli n Figura 9.10 prin utilizarea acestuia la un
model cu digits scris de mana. Aici imaginile digit au fost transformate n vectori binari prin setarea
tuturor elementelor ale cror valori depesc 0.5 la 1 i setarea elementelor rmase la 0. Am potrivi
acum un set de date de N = 600 de astfel de digits, cuprizand digits "2", "3", i "4", cu un amestec de K
= 3 distribuii Bernoulli prin rularea de 10 de iteraii ale algoritmului EM. Coeficienii de amestecare au
fost initializati la
K
k
/ 1
, iar parametrii kj

au fost setati la valori aleatoare alese uniform n


intervalul (0,25, 0,75) i apoi normalizate pentru a satisface constrngerii ca


j
kj
1
. Vedem c un
amestec de 3 distribuii Bernoulli sunt n stare s gseasc cele trei clustere in setul de date
corespunztor digits diferit. Conjugatul prealabil pentru parametrii distribuiei Bernoulli este dat de
distribuia beta, i am vzut c un beta prealabil este echivalent cu introducerea unor observaii
suplimentare efective ale lui x.
Figura 9.10 Ilustrarea modelului mixt Bernoulli n care rndul de sus arata exemple din datele digits setate dup
convertirea valorilor pixel din scara gri la scara binara utilizand un prag de 0,5. Pe rndul de jos primele trei imagini arata
parametrii ki pentru fiecare dintre cele trei componente n modelul mixt. Ca o comparaie potrivim de asemenea acelai set
de date folosind o singura distributie multivariate Bernoulli, folosind din nou verosimilitate maxim. Aceasta proportie
cantitativa la o simpla medie numerica n fiecare pixel i este demonstrat de imaginea cea mai din dreapta pe rndul de jos.
Putem introduce n mod similar "priors" n modelul mixt Bernoulli, i putem folosi EM pentru a
maximiza distributiile de probabilitate posterioara.
Este simplu s se extind analiza Mixta Bernoulli la cazul variabilelor multinomiale binare
avand M>2 stari prin realizarea unei utilizari de distribuii discrete (2.26). Din nou, putem introduce
Dirichlet priors peste parametrii modelului, dac se doreste.
9.3.4 EM pentru regresie liniara Bayesiana
Ca un al treilea exemplu de aplicare a EM, ne ntoarcem la evidentierea aproximarii dovezii
pentru regresie liniar Bayesiana. n seciunea 3.5.2, au fost obinute ecuaiile pentru hiperparametrii
i prin evaluarea probelor i stabilirea apoi a derivatelor a expresiei rezultate la zero. Ne ntoarcem
acum la o abordare alternativ pentru gsirea lui i bazat pe algoritmul EM. Reaminteasc c scopul
nostru este de a maximiza evidenta funciei p ( t | , ) dat de (3.77) cu privire la i . Deoarece
vectorul parametru w este marginalizat afar, il putem privi ca o variabil latent, i prin urmare putem
optimiza aceast funcie de verosimilitate marginal folosind EM. n pasul E, vom calcula distribuia
posterioar a lui w avand in vedere setarea curent a parametrilor i i apoi folosim acesta pentru a
gsi asteptata verosimilitate logaritmica a datelor complete. n pasul M, vom maximiza aceast
cantitate cu privire la i . Am derivat deja distribuia posterioar a lui w deoarece aceasta este dat
de (3.49). Functia de verosimilitate logaritmica a datelor complete este dat de:
( ) ( ) ( ) | ln , | ln , | , ln w p w t p w t p +
(9.61)
unde verosimilitatea p(t|w,) i prior p(w|) sunt date de (3.10) i (3.52), respectiv i y(x, w) este dat
de (3.3). Lund speranta cu privire la distribuia posterioar a lui w d apoi:
( ) [ ] [ ]
( )

1
]
1

,
_

+
,
_

N
n
n
T
n
T
w t E
N
w w E
M
w t p E
1
2
2
2
ln
2 2 2
ln
2
, | , ln


(9.62)
Setarea derivatelor cu privire la la zero, vom obine pasul M al ecuatiei de re-estimare:
[ ] ( )
N N
T
N
T
S Tr m m
M
w w E
M
+

(9.63)
Un rezultat analog este valabil i pentru .
De reinut c aceast ecuaie re-estimare ia o form uor diferit din rezultatul corespunztor
(3.92), derivat de evaluarea direct a funciei evidenta. Cu toate acestea, fiecare dintre ele implic
calcul i inversiune (sau descompunere Eigen) a matricei M M i, prin urmare, vom avea calculede
cost comparabile pe iteraie.
Aceste dou abordri pentru determinarea ar trebui binenteles s convearga la acelai rezultat
(presupunnd c pot gsi acelai maxim local al funciei de evidenta). Acest lucru poate fi verificat de
prima data observand ca, cantitatea este definit de:
( )
N
M
i
i
S Tr M M


+

1
1
(9.64)
La un punct staionar al funciei evidenta, ecuatia de re-estimare (3.92), va fi auto-constant satisfacuta
i prin urmare putem substitui pentru sa ne dea:
( )
N N
T
N
S Tr M m m (9.65)
i rezolvare pentru se obine (9.63), care este tocmai ecuatia de re-estimare EM.
Ca un ultim exemplu, vom considera un model relativ inchis, i anume vectorul masina de relevan
pentru regresia discutata n seciunea 7.2.1. Am folosit maximizarea directa de verosimilitate marginal
pentru a obine ecuaii de re-estimare pentru hiperparametrii i . Aici vom lua n considerare o
abordare alternativ, n care vom vizualiza vectorul pondere w, ca o variabil latent i se aplic
algoritmul EM. Pasul E implica gasirea de distribuie posterioar peste ponderi, i acest lucru este dat
de (7.81). n pasul M am maximizat verosimilitatea logaritmica a datelor complete asteptate, care este
definit de:
( ) ( ) [ ] | , , | ln w p w X t p E
w
(9.66)
acolo unde sperantele sunt luate cu privire la distribuia posterioar calculata folosind valorile
parametrilor "old". Pentru a calcula valorile parametrilor "new" maximizam cu privire la i pentru a
da:

ii m
i
new
i
2
1

(9.67)
( )
N
m t
i
i N
new

1
2
1
(9.68)
Aceste ecuaii de re-estimare sunt formal echivalente cu cele obinute prin maximizare directa.
9.4. Algoritmul EM in general
Algoritmul maximizrii sperantei, sau algoritmul EM, este o tehnic general pentru gsirea solutiilor
verosimilitatii maxime pentru modele probabilistice avand variabile latente (Dempster et al, 1977;.
McLachlan i Krishnan, 1997). Aici vom da un tratament foarte general a algoritmului EM i n proces
obtine o dovad a faptului c algoritmul EM deriva euristic n seciunile 9.2 i 9.3 pentru mixuri
Gaussiane care maximizeaza intr-adevar funcia de verosimilitate (Csisz "AR i Tusn` Ady, 1984;
Hathaway , 1986; Neal i Hinton, 1999). Discuia noastr va forma de asemenea baza pentru cadrul de
inferen variationala.
Luai n considerare un model probabilistic n care ne indica colectiv toate variabilele observate
de ctre X i toate variabilele ascunse de ctre Z. Distribuia n comun p(X,Z|) este guvernat de un
set de parametri notati . Scopul nostru este de a maximiza funcia de verosimilitate care este data de:
( ) ( )

Z
Z X p X p | , |
(9.69)
Aici presupunem c Z este discret, dei discuia este identic n cazul n care Z include variabile
continue sau o combinaie de variabile discrete i continue, cu nsumarea nlocuita de integrare dup
caz.
Noi trebuie s presupunem c optimizarea directa a lui p(X|) este dificila, dar optimizarea
functiei de verosimilitate a datelor complete p(X,Z|) este semnificativ mai uoara. In continuare vom
introduce o distribuie q (Z) definita peste variabilele latente i observm c pentru orice alegere a lui
q(Z), descompunerea urmtoare deine:
( ) ( ) ( ) p q KL q L X p || , | ln +
(9.70)
( ) ( )
( )
( )

'

Z
Z q
Z X p
Z q q L

| ,
ln ,
(9.71)
( ) ( )
( )
( )

'


Z
Z q
X Z p
Z q p q KL
| ,
ln ||
(9.72)
Reinei c L(q,), este o funcional (a se vedea Anexa D pentru o discuie de functionale) de
distribuie q(Z), i o funcie de parametrii .
Figura 9.11 Ilustraie a descompunerii dat de (9.70), care
deine pentru orice alegere de distribuie q(Z).
Deoarece divergena Kullback-Leibler satisface KL (qp) 0, vom vedea c cantitatea L(q,) este o limit inferioar, n functia
de verosimilitate log ln p(X|).
Este demn de a studia cu atenie formele de expresii (9.71) i (9.72) i n special de observat ca acestea
difer n semn i de asemenea c L(q,) conine distribuia n comun a lui X i Z n timp ce KL (q||p)
conine distributie condiional a lui Z avand X. Pentru a verifica o descompunere (9.70) mai inati vom
face uz de regula produs a probabilitatii de a da:
( ) ( ) ( ) | ln , | ln | , ln X p X Z p Z X p +
(9.73)
pe care apoi le vom nlocui n expresia pentru L(q, ). Acest lucru d natere la doi termeni, dintre care
unul anuleaz KL(q||p), n timp ce celalalt ofer verosimilitatea log necesara ln p(X|), dup ce s-a
constatat c q(Z) este o distribuie normalizata care insumeaza cu 1.
De la (9.72), vedem c KL(q||p) este divergen Kullback-Leibler ntre q(Z) i distribuia
posterioar p(Z|X,). Reamintim c divergena Kullback-Leibler satisface KL(q||p)>=0, cu egalitate
dac i numai dac, q(Z)=P(Z|X,). Prin urmare din (9.70) al carui L(q,)<=ln p(X|), cu alte cuvinte
L(q,) este o limit inferioar pe ln p(X|). Descompunerea (9.70) este ilustrat n Figura 9.11.
Algoritmul EM este o tehnic de optimizare iterativa n dou etape pentru gsirea de soluii
verosimilitatea maxima. Putem folosi descompunerea (9.70) pentru a defini algoritmul EM i s
demonstram c ntr-adevr maximizeaza verosimilitatea log. S presupunem c valoarea actual a
vectorului parametru este old. In pasul E, inferioar L(q,
old
) este maximizat cu privire la q(Z), n
timp ce inem
old
fix. Soluia la aceast problem a maximizrii este uor de remarcat prin notificarea
ca valoarea ln p(X|
old
) nu depinde de q(Z) i astfel cea mai mare valoare a lui L(q,
old
), va avea loc
atunci cnd divergenta Kullback-Leibler dispare. Cu alte cuvinte cnd q(Z) este egal cu distribuie
posterioar p(Z|X,
old
). n acest caz, limita inferioar va fi egal cu verosimilitatea log, dup cum
este ilustrat n Figura 9.12.
n pasul subsecvent M, distribuia q(Z) este deinuta fix i limita inferioar L(q, ), este
maximizat n ceea ce privete pentru a da o valoare noua new. Acest lucru va provoca o limita
inferioar L pentru a crete (numai daca este deja la un maxim), ceea ce va cauza ca functia
verosimilitatii logaritmice corespunzatoare sa creasca. Deoarece distribuia q este determinat folosind
vechile valori parametru, mai degrab dect valorile noi i este tinuta fixa in timpul pasului M, acesta
nu va egala distribua posterioar noua p(Z|X,
new
), i prin urmare va fi o divergenta KL diferita de
zero. Creterea in funcie de verosimilitate logaritmica este prin urmare, mai mare dect creterea in
limita inferioar aa cum se arat n figura 9.13.
Figura 9.12 Ilustrarea pasului E al algoritmului EM. Distribuia q este setata egal cu distribuia posterioara pentru
valorile parametrilor curenti
old
, provocnd
ca limita inferioar s se deplaseze in sus pn la
aceeai valoare ca i funcia verosimilitatii log,
cu disparitia divergenei KL.
Dac am nlocui q(Z)=P(Z|X,
old
) n
(9.71), vedem c dup pasul E limita
inferioar ia forma:
( ) ( ) ( ) ( )
( ) const Q
X Z p Z X p X Z p q L
old
Z Z
old old
+




,
, | | , ln , | ,
(9.74)
unde constanta este pur i simplu o entropie negativ a distribuiei q si este prin urmare independent
de . Astfel n pasul M cantitatea care este maximizat este sperana de verosimilitate log a datelor
complete, aa cum am vzut mai devreme n cazul amestecurilor Gaussiane. Reinei c variabila pe
care noi o optimizam apare numai n interiorul logaritmului. n cazul n care distribuia n comun
p(Z,X|) cuprinde un membru al familiei exponeniale, sau un produs al acestor membri, atunci vom
vedea c logaritmul va anula exponeniala i va conduce la un pas M care va fi de obicei mult mai
simplu dect maximizarea corespunztoare functiei de verosimilitate log a datelor incomplete p(X|).
Operatia algoritmului EM poate fi de asemenea vizualizata n spaiul parametrilor asa cum este ilustrat
schematic n Figura 9.14. Aici curba rosie descrie (date incomplete) funcia de verosimilitate log a crei
valoare dorim sa o maximizam.
Figura 9.13 Ilustrarea pasului M din algoritmul EM.
Distributia q(Z) este deinuta fix i limita inferioar L(q, ),
este maximizat cu privire la vectorul parametru pentru a
da o valoare revizuit
new
. Deoarece divergenta KL nu
este negativa, aceasta cauzeaz verosimilitatea log ln p(X|)
s creasc cu cel puin la fel de mult cum creste limita
inferioar.
Figura 9.14 Algoritmul EM implic calcul alternativ a
limitei inferioare pe verosimilitatea log pentru valorile
parametrilor curenti i apoi se maximizeaza aceasta limita
pentru a se obtine valorile parametrului. A se vedea textul
pentru o discuie complet.

S-ar putea să vă placă și