Sunteți pe pagina 1din 19

Arbori de de

izie: Privire de ansamblu


A. Noiuni preliminare

partiie a unei mulimi;


entropie (deniie: TM, pag. 57): pr. 2a, pr. 34a;
entropie ondiional spe i : pr. 14a;
entropie ondiional medie: pr. 2 d, . . . ;
tig de informaie (deniie: TM, pag. 58): pr. 2 d, pr. 34 , pr. 36a;
arbori de de izie, vzui a stru tur de date: pr. 1, pr. 6b, pr. 28
i, respe tiv, a program n logi a propoziiilor: pr. 2e, pr. 33b ;
expresivitatea arborilor de de izie u privire la fun ii boolene: pr. 29;

spaiu de versiuni pentru un on ept (de nvat): pr. 1, pr. 28, pr. 32;
zone de de izie i granie de separare/de izie pentru arbori de de izie u
variabile ontinue: pr. 9.

B. Algoritmul ID3 i variante

B1. Algoritmul ID3

pseudo- od: TM, pag. 56;


bias-ul indu tiv: TM, pag. 63-64;
exemple simple de apli are: pr. 2, pr. 32, pr. 34;
n prezena zgomotelor: pr. 36;

ID3 a algoritm per se:


de tip divide-et-impera, re ursiv,
greedy nu garanteaz obinerea soluiei optime:
pr. 4, pr. 21a, pr. 33 (vs. pr. 32b);
1-step look-ahead
omplexitate de timp (vezi Weka book, 2011, pag. 199):
la antrenare, n anumite ondiii: O(d m log m); la testare O(d),
unde d este numrul de atribute, m este numrul de exemple

ID3 a algoritm ML:


onsistent u datele de antrenament (n absena zgomotelor): pr. 4
algoritm de nvare de tip eager
analiza erorilor:
la antrenare: pr. 5, pr. 6a, pr. 9a, pr. 38;
la validare
la n-fold ross-validare
la ross-validare leave-one-out (CVLOO): pr. 9b, pr. 40b ;
overtting: pr. 9, pr. 21b , pr. 40, pr. 57b.

621
ARBORI de DECIZIE Privire de ansamblu

B2. Extensii / variante ale algoritmului ID3

atribute u valori ontinue: pr. 9, pr. 14 , pr. 40, pr. 41; h. 4, pr. 11b;
3-way splitting (sau: n-way splitting): pr. 12, pr. 42
alte variante de partiionare: pr. 43

atribute dis rete u multe valori: pr. 13


atribute u valori nespe i ate pentru unele instane;
atribute u diferite osturi aso iate: pr. 14
redu erea ara terului eager al nvrii: pr. 16
redu erea ara terului greedy al nvrii:
IG u 2-step look-ahead: pr. 17, pr. 18
variante de tip look-ahead spe i e atributelor ontinue: pr. 44

folosirea altor msuri de impuritate n lo ul tigului de informaie:


Gini Impurity, Mis lassi ation Impurity: pr. 15

redu erea overtting-ului:


redu ed-error pruning (folosind un set de date de validare):
TM, pag. 69-71; A. Cornujols, L. Mi let, 2nd ed., pag. 418-421;
rule post-pruning: TM, pag. 71-72;
top-down vs. bottom-up pruning: pr. 19, pr. 45;
pruning folosind testul statisti 2 : pr. 20, pr. 46

C. Proprieti numeri e / alitative ale arborelui ID3

eroarea la antrenare produs de algoritmul ID3 pe ori e set de date onsistente


este 0;

arborele ID3 nu este neaprat optimal ( a nr. de noduri/niveluri): pr. 4, pr. 33


inuena atributelor identi e i, respe tiv, a instanelor multiple asupra arbo-
relui ID3: pr. 7;

o margine superioar pentru numrul de noduri frunz din arborele ID3, n


fun ie de numrul de exemple i de numrul de atribute: pr. 8;

o margine superioar pentru eroarea la antrenare, n fun ie de numrul de


valori ale variabilei de ieire): pr. 6b;

o margine superioar pentru adn imea arborelui ID3 nd atributele de


intrare sunt ontinue, iar datele de antrenament sunt (ne)separabile liniar:
pr. 10;

o aproximare simpl a numrului de instane greit lasi ate din totalul de


M instane are au fost asignate la un nod frunz, u ajutorul entropei (H )
nodului respe tiv: pr. 37.

D. Alte metode de nvare automat bazate pe arbori

metode de nvare automat de tip ansamblist bazate pe arbori de de izie:


boosting (AdaBoost): pr. 22 ( onvergena erorii de antrenare), pr. 23, 48, 49,
50, 51, 53 (apli are), pr. 24 (AdaBoost a algoritm de optimizare se venial
n
raport u fun ia de ost / pierdere negativ-exponenial), pr. 25 (marginea

622
Privire de ansamblu ARBORI de DECIZIE

de votare), pr. 26 (o ondiie su ient pentru -slab nvabilitate, bazat


pe marginea de votare), pr. 52 (sele area trsturilor folosind AdaBoost;
apli are la lasi area de do umente)), pr. 54 (o proprietate interesant: ori e
mulime de instane distin te [i eti hetate din R este -slab nvabil u
ajutorul ompailor de de izie), pr. 55 (o variant generalizat a algoritmului
AdaBoost), pr. 22 i 23 (adevrat / fals); Bagging, Random Forests;

arbori de regresie (CART).

623
Clasi are bayesian: Privire de ansamblu
A. Noiuni preliminare (vezi [i ap. Probabiliti i statisti )

probabiliti i probabiliti ondiionate;


formula lui Bayes: pr. 4b;
ap. Probabiliti i statisti , pr. 6-7, 43-44;

independena [ ondiional a evenimentelor aleatoare:


ap. Probabiliti i statisti , pr. 5, 40, 41;

variabile aleatoare:
estimare de parametri n sensul verosimilitii maxime (MLE): pr. 4a;
(vezi i ap. Estimarea probabilitilor, pr. 5, 20)

distribuii probabiliste orelate, marginale i ondiionale: pr. 6, 8, 10, 27.


(vezi i ap. Probabiliti i statisti , pr. 14, 15)

independena [ ondiional a variabilelor aleatoare: pr. 8, 10, 24, 27-33;


(vezi i ap. Probabiliti i statisti , pr. 16, 53, 19, 20, 62)

ipoteze MAP vs. ipoteze ML:


formulare [ a soluii la probleme de optimizare: TM, pag. 156-157 (vezi
pr. 13);
exempli are: pr. 2, 3, 21, 1, 32;
exempli are n azul arborilor de de izie: pr. 12;

regresia logisti : vezi draftul apitolului suplimentar pentru artea ML a


lui T. Mit hell, Generative and dis riminative lassiers: Naive Bayes and
logisti regression (n spe ial se iunea 3);
regresia logisti , hestiuni introdu tive: pr. 10 de la apitolul Estimarea pro-
babilitilor .

B. Algoritmi

Algoritmul Bayes Naiv i algoritmul Bayes Corelat:327


formulare a probleme de optimizare: TM, pag. 167;
pseudo- od: vezi slide-uri;
apli are: pr. 4, 6, 7, 22, 23, 24;

apli area/adaptarea algoritmului Bayes Naiv pentru lasi are de texte:328


pr. 5, 25
folosirea regulii add-one [a lui Lapla e pentru netezirea parametrilor:
pr. 5, 26;

al ulul ratei medii a erorilor pentru algoritmii Bayes Naiv i Bayes Corelat:
pr. 8, 9, 27, 28, 29, 33;

zone de de izie i granie de de izie (separatori):


evidenierea gra a erorilor lasi atorului Bayes Naiv n raport u lasi-
 atorul Bayes Corelat: pr. 10.
327 La pun tele B i C onsiderm (impli it) toate variabilele de intrare sunt de tip Bernoulli sau, mai general,
de tip ategorial. La pun tul D vom onsidera i variabile de intrare de tip ontinuu, n genere de tip gaussian.
Variabila de ieire se onsider ntotdeauna de tip Bernoulli/ ategorial.
328 Atenie: Noi am folosit ai i versiunea de baz a algoritmului Bayes Naiv; varianta bag of words (vezi
artea Ma hine Learning a lui Tom Mit hell, pag. 183) difer uor de a easta.

624
Privire de ansamblu CLASIFICARE BAYESIAN

C. Proprieti ale algoritmilor Bayes Naiv i Bayes Corelat

da proprietatea de independen ondiional a atributelor de intrare n


raport u variabila de ieire se veri , atun i rezultatele produse de tre ei
doi algoritmi (Bayes Naiv i Bayes Corelat) n faza de testare oin id;

numrul de parametri ne esari de estimat din date: liniar pentru Bayes Naiv
(2d + 1) i exponenial pentru Bayes Corelat (2d+1 1): pr. 7e, 23ab, 28;

omplexitatea algoritmului Bayes Naiv:


omplexitatea de spaiu: O(dn)
omplexitatea de timp:
la antrenare: O(dn)
la testare: O(d ),
unde n este numrul de exemple, iar d este numrul de atribute de intrare
[LC: d este numrul de atribute de intrare din instana de test]
omplexitatea de eantionare: de ordin logaritmi pentru Bayes Naiv i de
ordin exponenial pentru Bayes Corelat: pr. 11.

(P0) e hivalena regulei de de izie a algoritmului Bayes Naiv ( nd toate va-


riabilele de intrare sunt de tip Bernoulli) regulei de de izie a regresiei logisti e
i, n onse in, liniaritatea granielor de de izie.

D. Algoritmii Bayes Naiv i Bayes Corelat


u variabile de intrare de tip gaussian
Proprieti:

(P1) presupunem variabila de ieire este boolean, i.e. ia valorile 0 sau 1;


da pentru ori e atribut de intrare, variabilele ondiionale Xi |Y = 0 i
Xi |Y = 1 au distribuii gaussiene de variane egale (i0 = i1 ), atun i regula
de de izie GNB (Gaussian Naive Bayes) este e hivalent ( a form) u ea a
regresiei logisti e, de i separarea realizat de tre algoritmul GNB este de
form liniar (vezi pr. 34a, 15);

Apli are: G[NB: 16, 38, G[JB: 37, GNB vs G[JB: 18.

E. Alte hestiuni
omparaii ntre algoritmul Bayes Naiv i ali algoritmi de lasi are auto-
mat: pr. 31, 33;

al ulul [intervalului erorii reale pornind de la eroarea de eantionare


(eroarea de test) pentru un lasi ator oare are: ap. Probabiliti i statis-
ti , pr. 27.

625
nvare bazat pe memorare: Privire de ansamblu
A. Noiuni preliminare
msuri de distan, msuri de similaritate: pr. 2
norm ntr-un spaiu ve torial; [msura de distan indus de tre o norm:
pr. 7

B. Algoritmul k -NN i variante

B1. Algoritmul k -NN


pseudo- od: TM, pag. 232
bias-ul indu tiv: ... Cine se aseamn se adun (sau: Spune-mi u ine te
mprieteneti, a s-i spun ine eti)
exemple (simple) de apli are: pr. 1, pr. 2
omplexitate de spaiu: O(d n)
omplexitate de timp:
la antrenare: O(d n)
la testare: O(d n log n)
la testare: [LC: O(d n k log k) pt. k > 1 (worst ase) i O(d n) pt. k = 1 ],
unde d este numrul de atribute, iar n este numrul de exemple
arbori kd (engl., kd-trees): Statisti al Pattern Re ognition, pag. 163-173
k -NN a algoritm ML lazy (vs. eager):
suprafee de de izie i granie de de izie:
diagrame Voronoi pentru 1-NN: pr. 4, pr. 11, pr. 17, pr. 18, pr. 19;
Proprietate: suprafeele de de izie i graniele de de izie depind de msura
de distan folosit: pr. 7
analiza erorilor:
1-NN pe date onsistente: eroarea la antrenare: 0
variaia numrului de erori (la testare i respe tiv testare) n fun ie de
valorile lui k : pr. 20, pr. 21ab
k -NN a metod ne-parametri ; alegerea lui k : CV: pr. 21
CVLOO: pr. 3, pr. 12, pr. 15, pr. 19
sensibilitatea / robusteea la zgomote: pr. 5
eroarea asimptoti : pr. 10, pr. 23
efe tul trsturilor redundante sau irelevante
blestemul marilor dimensiuni (engl., the urse of dimensionality): pr. 9.

B2. Variante ale algoritmului k -NN


k -NN folosind alte msuri de distan (de t dist. eu lidian): pr. 7
k -NN u ponderarea distanelor (engl., distan e-weighted k -NN):
TM, pag. 236-238 (form. 8.2, 8.3, 8.4)

algoritmul lui Shepard: pr.8

626
Privire de ansamblu nvare bazat pe MEMORARE

C. Comparaii u ali algoritmi

ID3: pr.11, pr. 13ab


SVM: pr.12, pr. 13

D. Alte metode de tip IBL

regresie lo al-ponderat: TM, pag. 236-238


reele RBF: TM, pag. 238-240
raionare bazat pe azuri (engl., ase-based reasoning): TM, pag. 240-244

627
Clusterizare: Privire de ansamblu
A. Noiuni de baz

instan neeti hetat vs. instan eti hetat (exemplu de antrenament)


nvare nesupervizat ( lusterizare) vs. nvare supervizat ( lasi are)
luster / grup / grupare / bin (engl.) vs. las
[fun ie/msur de] distan denit pe Rd Rd
tipuri de lusterizare: ierarhi vs. neierarhi
tipuri de ierarhii: ierarhii (arbori de lusterizare, dendrograme) obinuite vs.
ierarhii plate (engl., at hierar hies);
exemple: pr. 1a i respe tiv pr. 1b, pr. 6a

tipuri de apartenen a unei instane la un luster: hard vs. soft (ultima numai
pt. lusterizare ne-ierarhi )

B. Clusterizare ierarhi

B1. Noiuni spe i e

[fun ie de] similaritate


ntre lustere, denit pe baza [extinderii noiunii de
distan la P(X)P(X), unde X Rd este mulimea de instane, iar P(X) este
mulimea prilor lui X ;
tipuri de [fun ii de] similaritate:
single-linkage:329 d(A, B) = min{d(x, y)|x A, y B}
 omplete-linkage:330 d(A, B) = max{d(x, y)|x A, y B}
1 P
average-linkage: d(A, B) = d(x, y).
|A| |B| xA,yB

n general, putem onsidera sim(A, B) = 1/(1 + d(A, B)) sau hiar sim(A, B) =
1/d(A, B) nd ne referim doar la lustere non-singleton;
proprietate/restri ie: sim(A B, C) min{sim(A, C), sim(B, C)} pentru ori e
lustere A, B sele tate de algoritmul de lusterizare ierarhi la un pas oare are
i ori e alt luster C ;

[fun ie de] oeziune


[intern a unui luster (sau: ntre elementele / instanele
dintr-un luster);
exemplu (pentru lustere non-singleton):
!1
1 P C2|A|
oh(A) = d(x, y) =
C2|A| x,yA
P
x,yA d(x, y)

329 Sau: nearest-neighbour.


330 Sau: furthest-neighbour.

628
Privire de ansamblu CLUSTERIZARE

B2. Algoritmi de lusterizare ierarhi

tipuri de algoritmi de lusterizare ierarhi :


bottom-up ( lusterizare aglomerativ) vs. top-down ( lusterizare diviziv);
pseudo- od: Manning & S htze, Foundations of Statisti al Natural Language
Pro essing, 2002, pag. 502;
analiza ( a algoritmi per se): ambii algoritmi sunt iterativi i greedy; rezul-
tatele (ierarhiile) obinute nu sunt determinate neaprat n mod uni (vezi
pr. 3b);
exemple de apli are: pr. 1-5, 25-29 (pentru bottom-up), respe tiv pr. 6 (pen-
tru top-down);
implementri: pr. 54, 31, 55.

Proprieti:

lusterizarea folosind similaritate de tip single-linkage are tendina s


reeze lustere alungite; invers, folosind similaritate  omplete-linkage sau
average-linkage, se formeaz lustere de form mai degrab sferi (vezi
pr. 5 i 28);

numrul maxim de niveluri dintr-o dendrogram (vzut a arbore n sensul


teoriei grafurilor) este n 1, unde n este numrul de instane de lusterizat
(vezi pr. 4a); numrul minim de niveluri: log2 n (vezi pr. 4b).

exist o anumit oresponden ntre lusterizare ierarhi u similaritate


de tip
single-linkage i aarea arborelui [de a operire de ost minim dintr-un
graf; vezi pr. 6;
 omplete-linkage i aarea unei li i (subgraf maximal omplet) dintr-un
graf; (vezi Manning & S htze, op. it., pag. 506-507)
algoritmul de lusterizare aglomerativ la al rui pseudo- od am f ut re-
ferire mai sus are omplexitate O(n3 ) (vezi pr. 25); atun i nd se folosete
single-linkage sau omplete-linkage, exist ns versiuni/algoritmi de omple-
xitate O(n2 ): SLINK (1973) i respe tiv CLINK (1976);

la lusterizare ierarhi aglomerativ u similaritate average-linkage:


da se folosete a msur de similaritate ntre 2 instane osinusul unghiu-
lui dintre ve torii are instanele i se normalizeaz a eti ve tori (i.e., se
lu reaz u 2 ve tori oliniari u ei, dar de norm egal u 1), atun i al ulul
oeziunii [interne a unui luster nou format, pre um i al ulul distanei
dintre dou lustere se pot fa e n timp onstant 32.

Alte tipuri de msuri de similaritate:


metri a lui Ward : pr. 30

629
CLUSTERIZARE Privire de ansamblu

C. Clusterizare neierarhi ...

C1. ...folosind asignare hard a instanelor la lustere

Noiuni spe i e

entroid ( entru de greutate) al unui luster,


K -partiie, K - onguraie [iniial a entroizilor (pr. 11);
o fun ie de evaluare a  alitii lusterelor (sau: fun ie de  oeziune /
distorsiune / eroare total):
kxi C(xi ) k2 , unde C este K -
P
suma elor mai mi i ptrate: JK (C, ) =
partiie, este K - onguraie de entroizi, iar C(xi ) este entroidul el mai
apropiat de xi (pr. 12).

Algoritmul K -means

pseudo- od (o versiune [mai general): Manning & S htze, op. it.


, pag. 516;
alternativ, vezi enunul pr. 12 (sau, e hivalent, volosind variabile-indi ator:
pr. 37);
exemple de apli are: pr. 7-11, 15a, 19a, 20a, 33, 34;

exemple de euristi i pentru iniializarea entroizilor :


iniializare arbitrar/random n Rd sau n {x1 , x2 , . . . , xn } Rd (setul de date
de lusterizat);
apli are n prealabil a unui algoritm de lusterizare ierarhi ;
K -means++ (David Arthur, Sergei Vassilvitskii, 2007).
exemple de riterii de oprire :
dup efe tuarea unui numr maxim de iteraii (xat iniial);
nd omponena lusterelor nu se mai modi de la o iteraie la alta;
nd poziiile entroizilor nu se mai modi de la o iteraie la alta;
nd des reterea valorii riteriului JK de la o iteraie la alta nu mai este
stri t sau nu mai este peste un anumit prag xat n prealabil.

a algoritm per se:


algoritm iterativ : plea de la o soluie (K -partiie) aleas eventual n mod
arbitrar/aleatoriu i o mbuntete la e are iteraie;
soluia gsit este dependent de iniializarea entroizilor (vezi pr. 10);
mai mult, hiar la o a eeai iniializare, rezultatele pot diferi(!) da avem
instane multiple/redundante, situate la egal distan de 2 entroizi la o
iteraie oare are (vezi pr. 12b);
K -means poate  vzut i a algoritm de optimizare  vezi riteriul JK de
mai sus;
exploreaz doar parial spaiul de utare [a minimului riteriului JK ;
algoritmul K -means nu garanteaz atingerea optimului global (i.e., minimul)
riteriului JK (vezi pr. 12b, 38b);
strategia de utare/optimizare folosit de K -means este de tipul des retere
pe oordonate (engl., oordinate des ent), i.e. des retere iterativ, mergnd
alternativ pe e are din ele dou oordonate ale riteriului JK (C t , t ) (vezi
pr. 12a).

630
Privire de ansamblu CLUSTERIZARE

a algoritm de nvare automat:


[urmat de] generalizare: o instan nou x se aso iaz lusterului avnd
entroidul el mai apropiat de x;
graniele de separare dintre [pere hile de lustere produse de K -means sunt
[doar liniare, [ el puin atun i nd se folosete distana eu lidian (vezi
pr. 12.b);
este ns posibil s se obin separatori neliniari da se folosete o versiune
kernelizat a algoritmului K -means (vezi pr. 39);
a euristi pentru alegerea unei valori onvenabile pentru K , vezi CMU, 2012
fall, E. Xing, A. Singh, HW3, pr. 1.

implementare: pr. 56.

Proprieti

n legtur u riteriul denit mai sus, JK : PK (Rd )K [0, +), unde


PK este mulimea tuturor K -partiiilor peste mulimea de instane, X =
{x1 , x2 , . . . , xn } Rd :
valoarea 0 este atins, i anume atun i nd K = n, C este K -partiia de
lustere singleton Ci = {xi }, iar i = xi , pentru i= 1, . . . , n (pr. 36);
not.
pentru K > 0 xat, |PK | = K n , de i este nit, i exist J K = minC JK (C, C );
a est minimum (J K ) se poate obine prin explorarea exhaustiv a spaiului
PK , ns onsumul de timp este prohibitiv n pra ti (vezi pr. 12a);
J 1 J 2 . . . J n1 J n = 0 (vezi pr. 13).

n legtur u JK i algoritmul K -means:


JK (C t1 , t1 ) JK (C t , t ) la ori e iteraie (t > 0) a algoritmului K -means
(vezi pr. 12a);
n onse in, da se impune restri ia a la e are iteraie inegalitatea de
mai sus s e satisf ut n varianta stri t (JK (C t1 , t1 ) > JK (C t , t )), atun i
algoritmul K -means termin ntr-un numr nit de pai;
n vreme e minimizeaz oeziunea intra- lustere
, i.e. o sum ponderat a
sumelor elor mai mi i ptrate al ulate pe lustere,

K Pn
X ik kxi
i=1P k k 2
n
k=1 i=1 ik

unde ik = 1 da xi aparine lusterului de entroid k i ik = 0 n az ontrar,


algoritmul K -means maximizeaz (n mod aproximativ!) o msur de distan
ntre lustere
K  Pn 
X ik
i=1
kk xk2
n
k=1

unde x este media instanelor x1 , x2 , . . . , xn (pr. 37).

da d = 1, de i x1 , x2 , . . . , xn R,
ori e K -partiie (C1 , . . . , CK ) pentru are se atinge J K este de forma unei
ole ii de intervale: C1 = {x1 , . . . , xi1 }, C2 = {xi1 +1 , . . . , xi2 }, . . ., CK1 =
{xiK1 +1 , . . . , xn }, u i1 < i2 < . . . < iK1 < iK = n;
exist un algoritm de omplexitate O(Kn2 ) are al uleaz J K (vezi pr. 38).

631
CLUSTERIZARE Privire de ansamblu

algoritmul K -means poate  kernelizat (vezi pr. 39);


n onse in, putem obine drept granie de separare ntre lustere [i su-
prafee non-liniare (spre deosebire de versiunea ne-kernelizat a algoritmului
K -means, unde graniele sunt doar liniare).

C2. ...folosind asignare soft a instanelor la lustere

Noiuni preliminare

variabile aleatoare (dis rete, resp. ontinue);


media, variana i o-variana variabilelor aleatoare;

ve tor de variabile aleatoare; matri e de ovarian pentru un astfel de ve tor;


proprieti: matri ea de ovarian trebuie s e n mod ne esar simetri i
pozitiv denit (vezi pr. 24 de la apitolul de Probabiliti i statisti
);

distribuie (fun ie de densitate) de probabilitate (p.d.f.);


parametri ai unei distribuii;
distribuia gaussian: azurile uni- i multi-variat;

mixtur de distribuii probabiliste:


vzut a o form parti ular de ombinaie liniar
Pk de distribuii de probabi-
litate 1 1 + 2 2 + . . . + k k ( u i 0 i i=1 i = 1),
denit [i mai spe i s riind distribuia P (X) a o sum ponderat de pro-
P
babiliti ondiionate: z P (X|Z)P (Z), unde X sunt variabilele observabile,
iar variabila Z (eventual multipl) poate  neobservabil / latent / as-
uns;
exemple: o mixtur de distribuii ategoriale: pr. 56 de la apitolul Proba-
bilti i statisti ; o mixtur de distribuii gaussiene: pr 16 de la apitolul
Clasi are bayesian .

fun ie de verosimiliate a unui set de date (D ), n raport u o distribuie


probabilist dat: L() = P (D|), unde prin se noteaz parametrii respe tivei
distribuii. Exempli are: pr. 16 ; pr. 1 de la ap. Estimarea probabiltilor
MLE (Maximum Likelihood Estimation): estimarea [valorilor parametrilor
unei distribuii probabiliste n sensul maximizrii verosimilitii datelor dis-
ponibile. Exempli are: ap. Estimarea probabilitilor
, pr. 1-7, 11-21.

Observaie: Algoritmul EM este o metod de estimare a parametrilor unei


mixturi de distribuii probabiliste. Alternativ, pentru a elai obie tiv pot 
folosite alte metode, de exemplu metoda gradientului as endent.
Algoritmul EM pentru lusterizare
prin estimarea parametrilor unui
model de mixturi de distribuii gaussiene (GMM)

pseudo- od:
azul uni-dimensional, varianta nd doar parametrul este lsat liber: Ma-
hine Learning , Tom Mit hell, 1997, pag. 193; apli are: pr. 16;
azul uni-dimensional, varianta nd toi parametrii ( , i ) sunt lsai li-
beri: pr. 17; alte variante: pr. 43, 44;
azul multi-dimensional, varianta nd toi parametrii ( , i ) sunt lsai
liberi: pr. 23;

632
Privire de ansamblu CLUSTERIZARE

s hema algoritmi EM: ML book, pag. 195;


a algoritm per se:
algoritm iterativ :
plea de la o soluie (instaniere pentru parametri) aleas
eventual n mod arbitrar/aleatoriu i o mbuntete la e are iteraie. So-
luia gsit este dependent de valorile iniiale ale parametrilor;
algoritm de optimizare :
la e are iteraie t se al uleaz o fun ie auxiliar Qt (| (t) ), are reprezint
media fun iei de log-verosimilitate a datelor  omplete ( ele observabile
plus ele neobservabile), unde (0) , onstnd din valorile iniiale ale parame-
trilor mixturii ( ) se alege n mod arbitrar, iar apoi (t+1) = argmax Qt (| (t) );
media reprezentat de Qt se al uleaz n fun ie de distribuiile ondiionale
ale variabilelor neobservabile n raport u datele observabile i u (t) ;
se poate demonstra fun ia Qt onstituie o margine inferioar pentru fun -
ia de log-verosimilitate a variabilelor observabile, log P (X|) (vezi pr. 1 de
la apitolul Algoritmul EM );
teorema de ore titudine / onvergen (vezi problemele 1 i n spe ial 2 de la
apitolul Algoritmul EM ) pe de o parte garanteaz faptul la e are iteraie
a algoritmului EM, log-verosimilitatea datelor observabile, log P (X| (t) ) nu
des rete ( i e rete, e rmne nes himbat),
dar pe de alt parte nu garanteaz gsirea optimului global al fun iei de
log-verosimilitate a datelor observabile, log P (X|), i eventual a unui optim
lo al;
metoda de utare a optimului / maximului fun iei log P (X|) este  oordinate
as ent ( utare pe oordonate, n mod alternant);
a algoritm de nvare statisti
:
algoritmul EM poate  vzut a o metod de estimare a parmetrilor (engl.,
parameter tting);
a algoritm de nvare automat :
algoritmul EM este o metod de identi are/nvare de ipoteze ML (Maxi-
mum Likelihood); vezi apitolul/se iunea 6.4 din artea Ma hine Learning
;
nvare n prezena unor variabile aleatoare ne-observabile(!);
[urmat eventual de] generalizare: o instan nou x se aso iaz lusterului
(i.e., distribuiei) j pentru are se atinge maxj P (X = x|hj )P (hj );
spre deosebire de azul algoritmului K -means, suprafeele / graniele de se-
parare reate de algoritmul EM/GMM nu sunt n mod neaprat liniare (vezi
de exemplu o situaie ntlnit la rezolvarea pr. 15. , pag. 358, sau pr. 51. ).
omparativ u algoritmul K -means:
algoritmul EM/GMM este n general mai lent  mi area entroizilor poate
explora ntr-o manier mai n spaiul (vezi de exemplu pr. 19) , iar din
a est motiv poate s obin uneori rezultate mai bune / onvenabile (vezi spre
exemplu pr. 20), i este mai robust la inuena outlier-elor;
apare un fenomen de atra ie re ipro a mediilor gaussienelor (a este medii
ind e hivalentul entroizilor din algoritmul K -means), dotorit faptului
e are instan aparine ( u o anumit probabilitate) la e are luster (vezi
spre exemplu pr. 15.b).
s hema algoritmi EM (vezi Tom Mit hell, Ma hine Learning
book, 1997,
pag. 195) are diverse variante/apli aii:
al ulul parametrilor pentru mixturi de diverse distribuii [nu doar gaus-
siene: vezi apitolul Algoritmul EM;

633
CLUSTERIZARE Privire de ansamblu

al ulul parametrilor pentru gramati i probabiliste independente de ontext


(engl., probabilisti ontext-free grammars, PCFG);
al ulul parametrilor modelelor Markov as unse (engl., hidden Markov mo-
dels, HMM);
al ulul parametrilor reelelor bayesiene (engl., Bayes nets);
al ulul parametrilor reelelor de fun ii u baza radial (engl., radial basis
fun tions, RBF) o familie de reele neuronale arti iale; et .

Proprieti

Pentru distribuii gaussiene multi-variate:


da matri ea de ovarian este diagonal, atun i distribuia gaussian
respe tiv este e hivalent u un set/ve tor de variabile gaussiene uni-variate
independente (vezi pr. 25 de la apitolul Probabiliti i statisti );
da matri ea este de forma 2 I , unde I este matri ea identitate, datele
generate de respe tiva distribuie tind s se grupeze n sfere;
da matri ea este diagonal (fr ni io alt restri ie), datele generate se
grupeaz n elipse (sau: orpuri elipsoidale) avnd axele de simetrie paralele
u axele sistemului de oordonate;
n azul el mai general (de i nd matri ea nu este neaprat diagonal),
datele generate de a est tip de distribuie se grupeaz n elipse ( orpuri elip-
soidale) u axele de simetrie [desigur, perpendi ulare, dar altfel nerestri io-
nate.

Pentru s hema algoritmi EM:


vezi ele menionate mai sus n legtur u algoritmul EM vzut a algoritm
de optimizare.

Legtura dintre algoritmul K -means i algoritmul EM/GMM ( azul multi-


variat):
atun i nd = 2 I , iar 2 0 (i sunt satisf ute n dou restri ii),
algoritmul EM/GMM tinde s se omporte a i algoritmul K -means (vezi
pr. 47);

O legtur interesant ntre lasi atorul Bayes Naiv gaussian i algoritmul


EM/GMM nd matri ele de ovarian sunt diagonale:
o variant semi-supervizat a algoritmului EM/GMM. (pr. 53).

634
Algoritmul EM: Privire de ansamblu
Noiuni preliminare

estimarea parametrilor unei distribuii probabiliste n sensul verosimilitii


maxime (MLE) respe tiv n sensul probabilitii maxime a posteriori (MAP):
vezi ap. Probabiliti i statisti
;

tipuri/ lase de distribuii probabiliste vezi ap. Probabiliti i statisti ;


mixturi de distribuii probabiliste vezi ap. Probabiliti i statisti i ap.
Clusterizare;
metoda  oordinate as ent pentru rezolvarea problemelor de optimizare: pr. 1;
metoda multipli atorilor lui Lagrange pentru rezolvarea problemelor de opti-
mizare u restri ii: pr. 5, 7 i 15.

S hema algoritmi EM

pseudo- od: Ma hine Learning, Tom Mit hell, 1997, pag. 194-195;
fundamentare teoreti : pr. 1 i 2;
hestiuni metodologi e (relativ la iniializarea parametrilor): pr. 22.

EM pentru modelarea de mixturi de distribuii probabiliste

varianta general: An Introdu tion to Expe tation-Maximization, Dahua Lin;


diverse instane ale a estei variante: mixturi [de distribuii Bernoulli (pr. 14, 4),
mixturi [de distribuii ategoriale (pr. 5, 15)mixturi [de distribuii Poisson
(pr. 18), mixturi [de distribuii Gamma (pr. 19).

Alte instane/apli aii ale s hemei algoritmi e EM

EM pentru estimarea unui parametru [de tip probabilitate pentru o distri-


buie dis ret [n o uren, o distribuie ategorial, n ondiiile existenei
unei variabile neobservabile: pr. 3. Similar pentru distribuia multinomial:
pr. 13;

EM pentru estimarea tuturor parametrilor unei distribuii ategoriale: pr. 12;


EM pentru estimarea parametrului unei distribuii Poisson n ondiiile n
are o parte din valorile date lipses (pr. 10);

EM pentru estimarea parametrilor a do distribuii probabiliste atun i nd


se dau instane are sunt generate de suma elor dou distribuii: distribuii
exponeniale (pr. 8), sau distribuii gaussiene (pr. 20);

algoritmul Bayes Naiv ne-supervizat, i.e. algoritmul EM pentru [modelare


de mixturi de distribuii ategoriale multi-variate, u presupunerea de inde-
penden ondiional a atributelor de intrare n raport u atributul de ieire
(eti heta): pr. 7 (varianta de asignare soft a instanelor la luster) i pr. 17
(varianta hard);

635
ALGORITMUL EM Privire de ansamblu

EM pentru estimarea probabilitii de sele ie a unei omponente din adrul


unei mixturi [i.e. ombinaie liniar de dou distribuii probabiliste oare are:
pr. 9;

EM pentru modelul [mixturii domeniilor semanti e (engl., topi model) pen-


tru lusterizare de do umente: pr. [6 i 16.

EM pentru estimarea [nu n sens MLE, um a fost azul pn ai i, i n sens


MAP: pr. 20.

636
Reele neuronale arti iale: Privire de ansamblu
A1. Noiuni preliminare

fun ie matemati ; ompunere de fun ii reale;


al ulul valorii unei fun ii pentru anumite valori spe i ate pentru argumen-
tele/variabilele ei;

fun ie prag (sau, treapt), fun ie liniar, fun ie sigmoidal (sau, logisti ),
fun ie sigmoidal generalizat;
separabilitate liniar pentru o mulime de pun te din Rd ;
e uaii aso iate dreptelor n plan / planelor n spaiu / hiper-planelor n spaiul
Rd ;
e uaia dreptei n plan are tre e prin dou pun te date;
semnele aso iate pun telor din semi-planele determinate de o dreapt dat n
plan;

derivate ale fun iilor elementare de variabil real; derivate pariale


ve tori; operaii u ve tori, n parti ular produsul s alar al ve torilor ();
metoda gradientului des endent ( a metoda de optimizare); avantaje i deza-
vantaje; pr. 10, 23, 35, 36.

A2. [Cteva noiuni spe i e

uniti neuronale arti iale (sau, neuroniarti iali, per eptroni


);
tipuri de neuroni arti iali: neuroni-prag, liniari, sigmoidali;
omponente ale unui neuron arti ial: input, omponenta de sumare, ompo-
nenta / fun ia de a tivare, output;
fun ia matemati reprezentat / al ulat de un neuron arti ial;

reea neuronal arti ial; reele de tip feed-forward;


niveluri / straturi de neuroni, niveluri as unse, niveluri de ieire;
ponderi aso iate onxiunilor dintr-o reea neuronal arti ial;
fun ia matemati reprezentat / al ulat de o reea neuronal arti ial;
granie i zone de de izie determinate de o reea neuronal arti ial;
fun ia de eroare / ost (engl., loss fun tion).

A3. Cteva proprieti de expresivitate ale reelelor neuronale


A3. arti iale

(P0) Toate ele trei tipuri de neuroni arti iali (prag, liniar, sigmoidal) produ
separatori liniari.
Conse in: Con eptul xor nu poate  reprezentat / nvat u astfel de
dispozitive simple de lasi are.

(P0 ) Reelele neuronale arti iale pot determina granie de de izie neliniare
(i, n onse in, pot reprezenta on epte pre um xor).
Observaie: Reele de uniti sigmoidale pot determina granie de de izie
urbilinii (vezi pr. 8).

637
REELE NEURONALE Privire de ansamblu

(P1) Reele de neuroni diferite ( a stru tur i / sau tipuri de uniti) pot s
al uleze o a eeai fun ie. (Vezi pr. 3 i pr. 1. vs. pr. 2).
(P1 ) Dat o topologie de reea neuronal (i.e., graf de uniti neuronale al
ror tip este lsat nespe i at), este posibil a plasnd n noduri uniti de
un anumit tip s putem reprezenta / al ula o anumit fun ie, iar s himbnd
tipul unora dintre uniti (sau al tuturor unitilor), fun ia respe tiv s nu
mai pot  al ulat. (Vezi pr. 4 vs. pr. 34.331 )

(P2) Ori e unitate liniar situat pe un nivel as uns poate  absorbit pe


nivelul urmtor (pr. 33).

(P3) Ori e fun ie boolean poate  reprezentat u ajutorul unei reele ne-
uronale arti iale avnd doar dou niveluri de per eptroni-prag (pr. 5).

(P4) Ori e fun ie denit pe un interval mrginit din R, are este ontinu
n sens Lips hitz, poate  aproximat ori t de bine u ajutorul unei reele
neuronale are are un singur nivel as uns (pr. 7).

B. Algoritmi de antrenare a neuronilor arti iali


B. folosind metoda gradientului des endent

algoritmul de antrenare a unitii liniare: pr. 37


vezi T. Mit hell, Ma hine Learning
, p. 93, justi are: p. 91-92; onvergena:
p. 95; exemplu de apli are: pr. 11
varianta in remental a algoritmului de antrenare a unitii liniare: TM, ML
book, p. 93-94; despre onvergena a estei variante ( a aproximare a variantei
pre edente (bat h): TM, ML book, p. 93 jos;

algoritmul de antrenare a per eptronului-prag i onvergena: TM, ML book,


p. 88-89; exemplu de apli are: pr. 12;

algoritmul de antrenare a per eptronului sigmoidal i justi area sa teoreti :


TM, ML book, p. 95-97;

algoritmul Per eptron (!) al lui Rosenblatt; exemplu de apli are: 17, 39;

dedu erea regulii de a tualizare a ponderilor pentru tipuri parti ulare de per-
eptroni: pr. 13, 25.a, 38, 14.a;

o justi are probabilist (gen ipotez de tip maximum likelihood


) pentru mi-
nimizarea sumei ptratelor erorilor [la dedu erea regulii de antrenare pentru
per eptronul liniar: pr 14.b;

exemple de [folosire a unei alte fun ii de ost/pierdere/penalizare (engl.,


loss fun tion) de t semi-suma ptratelor erorilor: suma osturilor de tip log-
sigmoidal, pr. 15 (pentru per eptronul liniar), o fun ie de tip ross-entropie,
pr. 16 (pentru per eptronul sigmoidal).

B . Per eptronul Rosenblatt i rezultate de onvergen

exemplu de apli are [adi , nvare u per eptronul Rosenblatt: pr. 17.
331 Problemele 1.d i pr. 32 au n vedere o hestiune similar, ns pentru reele u topologii diferite: o anumit
extensie a fun iei xor nu poate  reprezentat pe reele de neuroni-prag are au un singur nivel as uns.

638
Privire de ansamblu REELE NEURONALE

teva proprieti simple ale per eptronului Rosenblatt: pr. 18.

rezultate de onvergen de tip mistake bound pentru [algoritmul de antre-


nare pentru per eptronul-prag [n varianta Rosenblatt: pr. 19, 40;
pentru per eptronul-prag ( lasi ): pr. 42;
nvare online u per eptronul-prag de tip Rosenblatt: pr. 41;

Per eptronul kernelizat [dual: pr. 24; parti ularizare pentru azul nu leului
RBF: pr. 50.

C. Antrenarea reelelor neuronale arti iale:


C. algoritmul de retro-propagare pentru reelel feed-forward

T. Mit hell, Ma hine Learning


, p. 98: pseudo- od pentru reele u uniti
de tip sigmoidal, u 2 niveluri, dintre are unul as uns; pentru dedu erea
regulilor de a tualizare a ponderilor (n azul mai general reelelor al feed-
forward (de uniti sigmoidale) u ori te niveluri, vezi p. 101-103);
pr. 20: dedu erea regulilor de a tualizare a ponderilor n azul reelelor u 2
niveluri, avnd ns uniti u fun ie de a tivare oare are (derivabil);

apli are: pr. 21, 43, 44;


prevenirea overtting-ului:
folosirea unei omponente de tip moment n expresia regulilor de a tualizare
a ponderilor: pr. 46;
regularizare: introdu erea unei omponente suplimentare n funia de optimi-
zat: pr. 22;

azul folosirii unei fun ii de a tivare de tip tangent hiperboli : pr. 45;
azul folosirii unei fun ii de ost/penalizare/eroare de tip ross-entropie:
pr. 48;

fenomenul de dispariie a gradientului [n azul apli rii algoritmului de


retro-propagare pentru reele neuronale profunde (engl., deep neural ne-
tworks) are foloses fun ia de a tivare sigmoidal: pr. 27;
exe uia manual a unei iteraii a algoritmului de retro-propagare n azul unei
reele neuronale simple, avnd un singur nivel as uns, u uniti e foloses
fun ia de a tivare ReL: pr. 49.

D. Reele neuronale profunde:


hestiuni introdu tive: pr. 28 i pr. 55.

639

S-ar putea să vă placă și