Documente Academic
Documente Profesional
Documente Cultură
May 3, 2012
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
1 / 45
Outline
Generaliti
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
2 / 45
Generaliti
Dei sau dezvoltat o larg palet de algoritmi de clustering, nu avem un cel mai bun algoritm Alegerea modalitii de grupare se face dup:
tipul de date capabilitile algoritmului de clustering aplicaie
Avem civa algoritmi care funcioneaz bine n nite cazuri Mai jos: discuii critice asupra algoritmilor de clustering n funcie de abiliti i slbiciuni
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
3 / 45
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
5 / 45
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
6 / 45
Caracteristicile datelor I
Analiza clusterelor este inuenat i de caracteristicile datelor Dimensionalitatea datelor: n spaii cu multe dimensiuni, densitatea bazat pe distana Euclidian i pierde sensul; volumul crete exponenial cu numrul de dimensiuni; necesarul de puncte pentru a menine densitatea constant crete deci i el exponenial; altfel zis: dac sunt multe dimensiuni, atunci distana este inuenat de valorile de pe ecare din ele, deci distanele se uniformizeaz; n acest caz metodele de reducere a dimensionalitii datelor sunt utilizate ca mecanism de preprocesare Cantitatea de date: muli algoritmi de clustering lucreaz bine pentru date puine sau moderate; complexitatea algoritmilor nu permite utilizarea pe date numeroase; algoritmii de clustering ar trebui s scaleze bine pe vertical sau s e uor de implementat distribuit (vezi platforma Apache Mahout)
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 7 / 45
Caracteristicile datelor II
Caracterul rar al datelor (sparseness): deseori provenit din date asimetrice, in care prezenta unei trsturi este mai important dect absena ei. Sunt folosite n acest caz metrici pentru date asimetrice; pot ns aprea ntrebri de forma: conteaz magnitudinea valorilor (e.g.: conteaz c ntrun co de cumprturi ai trei pini sau doar una?) Zgomot i outliers: o valoare atipic poate s degradeze mult rezultatul furnizat de algoritmul de clustering, n special pe cei bazai pe prototipuri; ali algoritmi pot decide unirea de clustere atunci cnd nu e cazul (e.g. single link). n multe cazuri eliminarea zgomoteldor i a datelor outlier se face ca pas de preprocesare naintea clusteringului propriuzis; ali algoritmi au o rezisten natural n faa datelor cu zgomot (e.g. DBSCAN).
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
8 / 45
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
9 / 45
Caracteristicile clusterelor I
Diferitele tipuri de clustere au fost descrise n cursul precedent Distribuia datelor: unele tehnici de grupare presupun anumite distribuii ale datelor; de multe ori se presupune c datele pot modelate ca o mixtur de distribuii, ecare cluster ind o component a mixturii Forma: unele clustere produse au form regulat (hiperdreptunghi, ca n cazul lui Fuzzy ART) sau globular (K-means, group average, metoda lui Ward); de cele mai multe ori ns, clusterele naturale sunt neregulate (DBSCAN i single link produc efectiv aa ceva) Dimensiuni diferite: clusterele naturale pot s nu aibceeai dimensiune; Densiti diferite: clusterele cu densiti extrem de diferite ridic probleme pentru algoritmi precum k-Means i DBSCAN
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 10 / 45
Caracteristicile clusterelor II
Clustere cu suprapuneri: cnd clusterele naturale se ating sau se suprapun, unele tehnici tind s produc un singur cluster unicat; folosirea unor tehnici fuzzy poate s e aici mai adecvat Relaii ntre clustere: n cele mai multe tehnici de clustering nu se ia n considerare o eventual relaie ntre clustere, precum poziia relativ a lor. Hrile cu auto-organizare (Self Organizing Maps) folosesc activarea vecinilor atunci cnd fac activarea neuronilor Clustering pe subspaii: putem avea grupri de date pe anumite seturi de dimensiuni din problema original; se pot aplica tehnici de selectare a trsturilor, dar asta poate s duc la nedetectarea altor seturi de dimensiuni pentru care clutsring-ul natural exist; exist i tehnici de clustering care detecteaz clusterele i setul de dimensiuni pe care acestea apar
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
11 / 45
Tratarea problemei de clustering ca problem de optimizare: de multe ori problema de grupare se poate transforma ntruna de optimizare: s se determine un mod de grupare care s maximizeze o funcie obiectiv specicat. Pentru optimizare se pot folosi metode bazate pe cutare, sau din domeniul cercetrilor operaionale, sau euristice: hill climbing, algoritmi genetici etc. Rezultatele obinute pot de multe ori (acceptabil de) bune, nu i optimale.
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
13 / 45
Outline
Generaliti
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
14 / 45
Un cluster este un grup de obiecte care sunt mai apropiate de un prototip ce denete clusterul dect de prototipul altui cluster Exemplu: K-means n seciunea curent:
obiectele pot s aparin de mai multe clustere simultan, cu anumiet ponderi clustere modelate ca distribuii statistice, caracterizat de parametri (e.g. media i dispersia) clustere cu relaii xe i impuse, de exemplu impuneri asupra gradului de vecintate
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
15 / 45
Fuzzy clustering
n multe cazuri datele nu pot partiionate n clustere bine separate; decizia de asignare a obiectelor apropiate de marginea de separare ntre clustere poate provit ca arbitrar Variant: pentru ecare obiect se calculeaz un grad de apartenen la ecare cluster: wij este gradul de apartenen al obiectului xi la clusterul Cj Exist variante fuzzy de clustering pentru calculul ponderilor wij Se pot folosi probabiliti pentru cuanticarea gradului de apartenen
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
16 / 45
Mulimi fuzzy i logic fuzzy: introduse de Lot Zadeh n 1965 n mulimi fuzzy: un obiect poate s aparin unei mulimi ntrun anumit grad numr ntre 0 i 1; prin extensie: o porpoziie poate s aibe un grad de adevr cuprins ntre 0 i 1 Logica binar tradiional este un caz particular al logicii fuzzy Exemplu: propoziia e nnorat are grad de adevr 0.25; ziua aparine deci n msura 0.25 mulimii zilelor noroase i n msura 0.75 mulimii zilelor ne-noroase
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
17 / 45
wij = 1
j =1
2
Fiecare cluster Cj conine cu pondere mai mare ca 0 mcar un punct i nu conine cu pondere 1 toate punctele:
m
0<
i =1
lucian.sasu@ieee.org (UNITBV) Curs 9
wij < m
May 3, 2012 18 / 45
Se selecteaz o pseudopartiie fuzzy iniial, i.e. se asigneaz valori pentru wij repet Calculeaz centroidul pentru ecare cluster folosind pseudopartiia Recalculeaz pseudopartiia, adic wij pn cnd centroizii nu se mai schimb Algoritmul este similar cu k-means
n k-means: se alterneaz pasul de modicare a centroizilor cu cel de asignare a obiectelor la cel mai apropiat centroid n fuzzy c-means: calcularea pseudopartiiei fuzzy din pasul 4 este echivalentul pasului de asignare din k-means
2 3
4 5
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
19 / 45
SSE (C1 , C2 , . . . , Ck ) =
(1)
unde cj estecentroidul fuzzy-clusterului j , p (1, ) determin inuena ponderilor Iniializare - se folosete cel mai des iniializare aleatoare: ponderile sunt alese aleator i apoi L1 - normalizate; caracterul aleator al alegerilor poate duce, la fel ca i la K-means la minim local pentru funcia SSE
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
20 / 45
Calculul centroizilor: pentru clusterul Cj centroidul cj este calculat ca: m p wij xi 1 (2) cj = i =m p wij
i =1
Fiecare punct contribui ntro anumit msur la calculul centroizilor; formula este mai general dect cea de la K-means datorit ponderilor wij Pentru mulimi tradiionale: wij {0, 1}
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
21 / 45
Valoare popular pentru p : 2 Pentru p apropiat de 1: comportamentul lui fuzzy c-means este foarte similar cu cel de la K-means Pentru p mare: toi centroizii de clustere devin apropiai de centroidul global al al tuturor punctelor partiiile devin mai fuzzy pe msur ce p crete
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
22 / 45
wij =
(3)
Pentru p = 2: wij =
k
(4)
q =1
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
23 / 45
Impactul lui p asupra valorii wij : p mare scade ponderea asignat clusterelor care sunt apropiate de un punct
1 p : wij k p 1: wij 1 pentru j indicele celui mai apropiat cluster Cj de xi i wij 0 pentru celelalte clustere = K-means
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
24 / 45
Puncte tari i limitri: pozitiv: se indic grade de apartenen pentru limitare: computaional intensiv alte caracteristici: motenite de la K-means
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
25 / 45
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
26 / 45
Fiecrui centroid i se asigneaz coordonate (i , j ) n cadrul hrii Relaia de vecintate a nodurilor este dat de apropierea coordonatelor; neuronii nu i schimb poziia n hart, doar ponderile
1 2 3 4 5 6
Iniializeaz centroizii repet selecteaz urmtorul obiect determin cel mai apropiat centroid de obiectul curent modic centroidul i centroizii dintro anumit vecintate a sa pn cnd centroizii nu se schimb foarte mult sau se depete un anumit prag
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
28 / 45
Iniializarea: valorile centroizilor pot alese din valorilor setului de date pentru care se face clustering Sau se aleg valori aleatoare din domeniul acoperit de setul de date (dar convergena poate lent n acest caz) Selectarea unui obiect: un obiect poate selectat de mai multe ori; se poate accentua frecvena de alegere a unor grupuri de obiecte Asignarea: cel mai apropiat centroid se determin folosind o distan, e.g. distana Euclidian; dac vectorii de intrare i de valori pentru centroizi sunt normalizai, atunci asta e echivalent cu determinarea centroidului care duce la produs scalar maxim, sau similaritatea cosinus
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
29 / 45
Actualizarea: considerm c centroizii sunt m1 , . . . , mk ; e p(t ) obiectul curent; e mj cel mai apropiat centroid fa de p(t ); se actualizeaz centroidul mi astfel: mi (t + 1) = mi (t ) + hi (t )(p(t ) mi (t )) hi (t ) determin efectul pe care l are diferena dintre p(t ) i mi (t ) hi (t ) scade cu timpul t hi (t ) scade cu distana dintre centroizii i i j (5)
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
30 / 45
Alegeri pentru hi (t ):
funcie Gaussian: hi (t ) = (t ) exp
dist (ri ,rj )2 2 2 (t )
funcia scar: hi (t ) = (t ) dac dist (ri , rj ) prag , 0 altfel rl = (xl , yl ), coordonatele n harta de neuroni a centroidului rl 0 < (t ) < 1 descrete monoton cu timpul t dist (, ) e distana Euclidian ntre locaiile celor doi centroizi (t ) scade cu creterea lui t ; controleaz vecintatea care va afectat de modicarea centroidului curent
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
31 / 45
Terminarea: algoritmul se termin cnd valorile centroizilor nu se mai modic sau se modic foarte puin Viteza de terminare depinde de alegerea valorilor centroizilor, de date, de funcia h Convergena este de regullent i n general negarantat Exemple de utilizare: clustering de documente, reprezentarea datelor n format bidimensional (Rapid Miner, Weka) Utilitate: lookup tables bazat pe similaritate, vizualizare
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
32 / 45
Puncte tari/slabe Faciliteaz interpretarea i vizualizarea rezultatelor de clustering Punct slab: setrile parametrilor sunt dependente de date i inueneaz mult rezultatul produs Punct slab: numrul de clustere determinate de SOM este de regul diferit de numrul de clustere naturale din date Punct slab: lipsa unei funcii care se optimizeaz; rezultatele rulrilor diferite sunt dicil de comparat Punct slab: lipsa unei convergene teoretic dovedite dei n practic el deseori converge
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
33 / 45
SOM alternative
Metod alternativ pentru reducerea numrului de dimensiuni: t-Distributed Stochastic Neighbor Embedding Metod pentru estimarea densitii de probabilitate: Generative Topographic Mapping
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
34 / 45
Outline
Generaliti
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
35 / 45
Abordri:
grid-based clustering: spaiul este divizat n celule i acestea sunt ulterior unite n clustere, dac sunt sucient de dense subspace clustering: se caut regiuni dense n subseturi de dimensiuni
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
36 / 45
mprirea n celule
Pentru atribute continue se poate mpri n intervale de dimensiuni egale, pe ecare atribut; limea intervalelor pe atribute diferite poate s difere Rezultat: ecare celul are acelai volum; densitatea poate aleas ca numrul de obiecte din celul Se poate aplica orice modalitate de discretizare a atributelor: intervale cu frecvene egale, intervale obinute prin clustering etc
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
38 / 45
Densitatea celulelor
Numrul de puncte / volumul celulei: numrul de semne rutiere pe km (1 dimensiune), numrul de uri pe km ptrat, numrul de molecule pe cm cub de gaz etc
Formarea clusterelor:
Adiacena ttrebuie denit clar; ntrun caroiaj 2D o celul se poate considera c are 4 sau 8 vecini Trebuie tratat cazul n care celule mrginae nu au densitate sucient de mare, dar apropiat de ; ele pot omise, dar asta poate duce la descompletarea clusterelor
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
39 / 45
Punct slab: celulele hiperrectangulare pot s nu surprind bien forme circulare Punct slab: numrul de celule crete exponenial cu numrul de dimensiuni
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
40 / 45
Clustering pe subspaiu
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
41 / 45
CLIQUE (CLustering In QUEest): bazat pe cutare pe grid; Caut ecient subspaiile n care putem avea clustere de date Esenial: proprietatea de monotonie a clusterelor bazate pe densitate
dac un set de puncte formeaz un cluster bazat pe densitate n k dimensiuni, atunci acelai set de puncte este de asemenea parte a unui cluster bazat pe densitate n toate subseturile posibile ale acelor dimensiuni
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
42 / 45
Gsete toate zonele dense n spaii unidimensionale corespunztoare ecrui atribut. Acesta este setul de celule unu-dimensionale k2 repet genereaz toate celulele candidat dense k -dimensionale folosind celule dense (k 1) dimensionale elimin celulele care au mai puin de puncte k k +1 pn cnd nu mai exist celule candidat k -dimensionale Gsete clustere prin reunirea tuturor celulelor dense adiacente Sumarizeaz ecare cluster folosind un set mic de inegaliti care descriu domeniul de valori al atributelor pentru celulele din cluster
Curs 9 May 3, 2012 43 / 45
2 3 4
5 6 7 8 9
lucian.sasu@ieee.org (UNITBV)
Principiul de baz e similar cu principiul APRIORI Punct slab: pot rezulta clustere care partajeaz obiecte; interpretarea poate dicil Punct slab: complexitate potenial exponenial - mai ales dac sunt multe celule dense care se genereaz n spaii cu puine dimensiuni
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
44 / 45
Bibliograe
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar: Introduction to Data Mining, 2006, Addison-Wesley
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
45 / 45