Sunteți pe pagina 1din 45

Introducere n Data Mining

Analiza gruprilor: probleme i ali algoritmi Lucian Sasu, Ph.D.


Universitatea Transilvania din Braov, Facultatea de Matematic i Informatic

May 3, 2012

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

1 / 45

Outline

Generaliti

Clustering bazat pe prototipuri

Clustering bazat pe densitate

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

2 / 45

Generaliti

Dei sau dezvoltat o larg palet de algoritmi de clustering, nu avem un cel mai bun algoritm Alegerea modalitii de grupare se face dup:
tipul de date capabilitile algoritmului de clustering aplicaie

Avem civa algoritmi care funcioneaz bine n nite cazuri Mai jos: discuii critice asupra algoritmilor de clustering n funcie de abiliti i slbiciuni

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

3 / 45

Exemplu: comparaie ntre K-means i DBSCAN I


Att DBSCAN ct i K-means sunt algoritmi partiionali: datele sunt mprite n subseturi fr suprapuneri; o dat e asignat unui singur cluster K-means folosete prototipuri, iar DBSCAN se bazeaz pe concept de densitate de date DBSCAN poate obine clustere de dimensiuni i forme diverse; nu e afectat de zgomot sau outliers; K-means are diculti cu clustere nonglobulare sau de dimensiuni diferite; ambii algoritmi se comport nesatisfctor atunci cnd clusterele au zone cu densiti foarte diferite K-means poate folosit doar acolo unde conceptul de centroid este denit i are sens; DBSCAN are nevoie de concept de densitate, n forma original pornind de la distana Euclidian
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 4 / 45

Exemplu: comparaie ntre K-means i DBSCAN II


K-means poate denit pentru date rare, cu numr mare de dimensiuni - e.g. date document; DBSCAN se comport slab pentru date n spaii cu prea multe dimensiuni Versiunile originale al lui K-means i DBSCAN au fost concepute pentru date Euclidiene, dar ulterior sau extins pentru manipularea altor tipuri de date DBSCAN nu face nicio presupunere apriori asupra distribuiei datelor. K-means este echivalent cu presupunerea clasic din statistic: datele sunt distribuite normal, cu aceeai dispersie dar cu medii (centroizi) diferii DBSCAN i K-means folosesc toate atributele n clustering K-means poate gsi clustere care nu sunt bine separate, chiar dac ele se suprapun; DBSCAN unete clusterele care se suprapun

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

5 / 45

Exemplu: comparaie ntre K-means i DBSCAN III


K-means are complexitate O (m), iar DBSCAN are O (m2 ); pentru cazul n care numrul de dimensiuni este mic, se poate ajunge pentru DBSCAN la O (m log m) DBSCAN produce acelai set de clustere de la o rulare la alta, K-means folosete iniializarea aleatoare a centroizilor clusterelor i deci poate duce la clustere diferite DBSCAN determin automat numrul de clustere; K-means are nevoie de precizarea lui K ; DBSCAN ns are nevoie de precizarea parametrilor Eps i MinPts K-means poate vzut ca o problem de optimizare; DBSCAN nu se bazeaz pe niciun model formal

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

6 / 45

Caracteristicile datelor I
Analiza clusterelor este inuenat i de caracteristicile datelor Dimensionalitatea datelor: n spaii cu multe dimensiuni, densitatea bazat pe distana Euclidian i pierde sensul; volumul crete exponenial cu numrul de dimensiuni; necesarul de puncte pentru a menine densitatea constant crete deci i el exponenial; altfel zis: dac sunt multe dimensiuni, atunci distana este inuenat de valorile de pe ecare din ele, deci distanele se uniformizeaz; n acest caz metodele de reducere a dimensionalitii datelor sunt utilizate ca mecanism de preprocesare Cantitatea de date: muli algoritmi de clustering lucreaz bine pentru date puine sau moderate; complexitatea algoritmilor nu permite utilizarea pe date numeroase; algoritmii de clustering ar trebui s scaleze bine pe vertical sau s e uor de implementat distribuit (vezi platforma Apache Mahout)
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 7 / 45

Caracteristicile datelor II
Caracterul rar al datelor (sparseness): deseori provenit din date asimetrice, in care prezenta unei trsturi este mai important dect absena ei. Sunt folosite n acest caz metrici pentru date asimetrice; pot ns aprea ntrebri de forma: conteaz magnitudinea valorilor (e.g.: conteaz c ntrun co de cumprturi ai trei pini sau doar una?) Zgomot i outliers: o valoare atipic poate s degradeze mult rezultatul furnizat de algoritmul de clustering, n special pe cei bazai pe prototipuri; ali algoritmi pot decide unirea de clustere atunci cnd nu e cazul (e.g. single link). n multe cazuri eliminarea zgomoteldor i a datelor outlier se face ca pas de preprocesare naintea clusteringului propriuzis; ali algoritmi au o rezisten natural n faa datelor cu zgomot (e.g. DBSCAN).

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

8 / 45

Caracteristicile datelor III


Tipul atributelor din setul de date: sunt necesare msuri de densitate i proximitate adecvate tipurilor atributelor; uneori datele trebuie discretizate sau binarizate astfel nct datele s poat trimise spre grupare; atenie c asemenea manevre pot duce la mrirea numrului de dimensiuni; alteori avem mix de tipuri de atribute, distanele se denesc prin formule adhoc, dependente de problem Scala datelor: datele pot msurate pe scale diferite; nlimea poate de ordinul metrilor (1.52.4 m), greutatea poate de ordinul zecilor/sutelor de kg (50-150). Distanele mult prea diferite pot anula diferenele de pe scale mai mici Proprieti matematice ale spaiului datelor: unele tehnici de clustering folosesc funcii de agregare precum media sau mediana datelor, ntrun spaiu Euclidian. Ali algoritmi cer ca noiuni precum densitate s aib sens pentru problemele abordate.

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

9 / 45

Caracteristicile clusterelor I
Diferitele tipuri de clustere au fost descrise n cursul precedent Distribuia datelor: unele tehnici de grupare presupun anumite distribuii ale datelor; de multe ori se presupune c datele pot modelate ca o mixtur de distribuii, ecare cluster ind o component a mixturii Forma: unele clustere produse au form regulat (hiperdreptunghi, ca n cazul lui Fuzzy ART) sau globular (K-means, group average, metoda lui Ward); de cele mai multe ori ns, clusterele naturale sunt neregulate (DBSCAN i single link produc efectiv aa ceva) Dimensiuni diferite: clusterele naturale pot s nu aibceeai dimensiune; Densiti diferite: clusterele cu densiti extrem de diferite ridic probleme pentru algoritmi precum k-Means i DBSCAN
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 10 / 45

Caracteristicile clusterelor II
Clustere cu suprapuneri: cnd clusterele naturale se ating sau se suprapun, unele tehnici tind s produc un singur cluster unicat; folosirea unor tehnici fuzzy poate s e aici mai adecvat Relaii ntre clustere: n cele mai multe tehnici de clustering nu se ia n considerare o eventual relaie ntre clustere, precum poziia relativ a lor. Hrile cu auto-organizare (Self Organizing Maps) folosesc activarea vecinilor atunci cnd fac activarea neuronilor Clustering pe subspaii: putem avea grupri de date pe anumite seturi de dimensiuni din problema original; se pot aplica tehnici de selectare a trsturilor, dar asta poate s duc la nedetectarea altor seturi de dimensiuni pentru care clutsring-ul natural exist; exist i tehnici de clustering care detecteaz clusterele i setul de dimensiuni pe care acestea apar

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

11 / 45

Caracteristici generale ale tehnicilor de clustering I


Dependena de ordine: pentru anumii algoritmi numrul i calitatea algoritmilor pot s difere substanial n funcie de ordinea procesrii datelor; n alte cazuri sensibilitatea nu este att de mare Caracterul nedeterminist: dac se face uz de factorul aleator, atunci rulri diferite duc la rezultate diferite; pot necesare rulri multiple Scalabilitatea: se refer n acest context la complexitatea algoritmilor; algoritmii de complexitate O (m2 ) unde m e numrul de nregistrri din setul de date, sunt considerai inecieni n context de DM; o alt problem este complexitatea de memorie muli algoritmi presupun implicit c datele se pot ncrca n memoria RAM Selectarea parametrilor: cei mai muli algoritmi de clustering au parametri de a cror alegere depinde succesul procesului de grupare; se poate folosi metod de tip trial and error, cross validation etc; spre exemplu, la K-means parametrul poate numrul K sau metrica folosit pentru detectarea relaiei de vecintate
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 12 / 45

Caracteristici generale ale tehnicilor de clustering II

Tratarea problemei de clustering ca problem de optimizare: de multe ori problema de grupare se poate transforma ntruna de optimizare: s se determine un mod de grupare care s maximizeze o funcie obiectiv specicat. Pentru optimizare se pot folosi metode bazate pe cutare, sau din domeniul cercetrilor operaionale, sau euristice: hill climbing, algoritmi genetici etc. Rezultatele obinute pot de multe ori (acceptabil de) bune, nu i optimale.

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

13 / 45

Outline

Generaliti

Clustering bazat pe prototipuri

Clustering bazat pe densitate

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

14 / 45

Clustering bazat pe prototipuri

Un cluster este un grup de obiecte care sunt mai apropiate de un prototip ce denete clusterul dect de prototipul altui cluster Exemplu: K-means n seciunea curent:
obiectele pot s aparin de mai multe clustere simultan, cu anumiet ponderi clustere modelate ca distribuii statistice, caracterizat de parametri (e.g. media i dispersia) clustere cu relaii xe i impuse, de exemplu impuneri asupra gradului de vecintate

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

15 / 45

Fuzzy clustering

n multe cazuri datele nu pot partiionate n clustere bine separate; decizia de asignare a obiectelor apropiate de marginea de separare ntre clustere poate provit ca arbitrar Variant: pentru ecare obiect se calculeaz un grad de apartenen la ecare cluster: wij este gradul de apartenen al obiectului xi la clusterul Cj Exist variante fuzzy de clustering pentru calculul ponderilor wij Se pot folosi probabiliti pentru cuanticarea gradului de apartenen

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

16 / 45

Fuzzy clustering: mulimi fuzzy

Mulimi fuzzy i logic fuzzy: introduse de Lot Zadeh n 1965 n mulimi fuzzy: un obiect poate s aparin unei mulimi ntrun anumit grad numr ntre 0 i 1; prin extensie: o porpoziie poate s aibe un grad de adevr cuprins ntre 0 i 1 Logica binar tradiional este un caz particular al logicii fuzzy Exemplu: propoziia e nnorat are grad de adevr 0.25; ziua aparine deci n msura 0.25 mulimii zilelor noroase i n msura 0.75 mulimii zilelor ne-noroase

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

17 / 45

Fuzzy clustering: clustere fuzzy


Avem un set de date X = {x1 , . . . , xm } unde xi este un punct n-dimensional O coleie de clustere fuzzy C1 , . . . , Ck este un subset al tuturor submulimilor fuzzy ale lui X : pentru orice punct xi avem de asignat un grad de apartenen wij relativ la clusterele Cj Condiii:
1

Toate ponderile unui punct dat xi au suma 1:


k

wij = 1
j =1
2

Fiecare cluster Cj conine cu pondere mai mare ca 0 mcar un punct i nu conine cu pondere 1 toate punctele:
m

0<
i =1
lucian.sasu@ieee.org (UNITBV) Curs 9

wij < m
May 3, 2012 18 / 45

Fuzzy clustering: fuzzy cmeans


Algoritmul fuzzy c-means:
1

Se selecteaz o pseudopartiie fuzzy iniial, i.e. se asigneaz valori pentru wij repet Calculeaz centroidul pentru ecare cluster folosind pseudopartiia Recalculeaz pseudopartiia, adic wij pn cnd centroizii nu se mai schimb Algoritmul este similar cu k-means
n k-means: se alterneaz pasul de modicare a centroizilor cu cel de asignare a obiectelor la cel mai apropiat centroid n fuzzy c-means: calcularea pseudopartiiei fuzzy din pasul 4 este echivalentul pasului de asignare din k-means

2 3

4 5

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

19 / 45

Fuzzy clustering: fuzzy cmeans

Ca i n cazul K-means avem o funcie care se minimizeaz


k m p wij dist (xi , cj )2 j =1 i =1

SSE (C1 , C2 , . . . , Ck ) =

(1)

unde cj estecentroidul fuzzy-clusterului j , p (1, ) determin inuena ponderilor Iniializare - se folosete cel mai des iniializare aleatoare: ponderile sunt alese aleator i apoi L1 - normalizate; caracterul aleator al alegerilor poate duce, la fel ca i la K-means la minim local pentru funcia SSE

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

20 / 45

Fuzzy clustering: fuzzy cmeans

Calculul centroizilor: pentru clusterul Cj centroidul cj este calculat ca: m p wij xi 1 (2) cj = i =m p wij
i =1

Fiecare punct contribui ntro anumit msur la calculul centroizilor; formula este mai general dect cea de la K-means datorit ponderilor wij Pentru mulimi tradiionale: wij {0, 1}

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

21 / 45

Fuzzy clustering: fuzzy cmeans

Valoare popular pentru p : 2 Pentru p apropiat de 1: comportamentul lui fuzzy c-means este foarte similar cu cel de la K-means Pentru p mare: toi centroizii de clustere devin apropiai de centroidul global al al tuturor punctelor partiiile devin mai fuzzy pe msur ce p crete

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

22 / 45

Fuzzy clustering: fuzzy cmeans

Actualizarea pseudo-partiiei fuzzy: reprezint modicarea valorilor de apartenen wij


wij : msura n care punctul i aparine clusterului j
1 dist (xi ,cj )2 k q =1
1 p 1 1 p 1

wij =

(3)

1 dist (xi ,cq )2

Pentru p = 2: wij =
k

1 dist (xi ,cj )2 1 dist (xi ,cq )2

(4)

q =1

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

23 / 45

Fuzzy clustering: fuzzy cmeans

Impactul lui p asupra valorii wij : p mare scade ponderea asignat clusterelor care sunt apropiate de un punct
1 p : wij k p 1: wij 1 pentru j indicele celui mai apropiat cluster Cj de xi i wij 0 pentru celelalte clustere = K-means

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

24 / 45

Fuzzy clustering: fuzzy cmeans

Puncte tari i limitri: pozitiv: se indic grade de apartenen pentru limitare: computaional intensiv alte caracteristici: motenite de la K-means

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

25 / 45

Clustering folosind mixtur de modele

A se vedea seciunea 9.2.2 din [1]

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

26 / 45

Clustering folosind SOM


SOM: Slef Organizing Map Reea neural articial ntrodus de Teuvo Kohonen Scop: gsirea unui set de centroizi (vectori de referin n terminologia SOM) Fiecare obiect este asignat centroidului care are cea mai mare similaritate cu el Fiecrui centroid i se asigneaz un neuron Obiectele (datele) sunt procesate unul cte unul;centroidul cel mai apropiat este actualizat Suplimentar: i vecinii acestui centroid sufer modicri Spre deosebire de K-means, nu se menine apartenena unui obiect fa de centroidul cel mai apropiat Ieirea furnizat de algoritm: un set de centroizi care denesc clusterele
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 27 / 45

Clustering folosind SOM

Fiecrui centroid i se asigneaz coordonate (i , j ) n cadrul hrii Relaia de vecintate a nodurilor este dat de apropierea coordonatelor; neuronii nu i schimb poziia n hart, doar ponderile
1 2 3 4 5 6

Iniializeaz centroizii repet selecteaz urmtorul obiect determin cel mai apropiat centroid de obiectul curent modic centroidul i centroizii dintro anumit vecintate a sa pn cnd centroizii nu se schimb foarte mult sau se depete un anumit prag

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

28 / 45

Clustering folosind SOM

Iniializarea: valorile centroizilor pot alese din valorilor setului de date pentru care se face clustering Sau se aleg valori aleatoare din domeniul acoperit de setul de date (dar convergena poate lent n acest caz) Selectarea unui obiect: un obiect poate selectat de mai multe ori; se poate accentua frecvena de alegere a unor grupuri de obiecte Asignarea: cel mai apropiat centroid se determin folosind o distan, e.g. distana Euclidian; dac vectorii de intrare i de valori pentru centroizi sunt normalizai, atunci asta e echivalent cu determinarea centroidului care duce la produs scalar maxim, sau similaritatea cosinus

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

29 / 45

Clustering folosind SOM

Actualizarea: considerm c centroizii sunt m1 , . . . , mk ; e p(t ) obiectul curent; e mj cel mai apropiat centroid fa de p(t ); se actualizeaz centroidul mi astfel: mi (t + 1) = mi (t ) + hi (t )(p(t ) mi (t )) hi (t ) determin efectul pe care l are diferena dintre p(t ) i mi (t ) hi (t ) scade cu timpul t hi (t ) scade cu distana dintre centroizii i i j (5)

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

30 / 45

Clustering folosind SOM

Alegeri pentru hi (t ):
funcie Gaussian: hi (t ) = (t ) exp
dist (ri ,rj )2 2 2 (t )

funcia scar: hi (t ) = (t ) dac dist (ri , rj ) prag , 0 altfel rl = (xl , yl ), coordonatele n harta de neuroni a centroidului rl 0 < (t ) < 1 descrete monoton cu timpul t dist (, ) e distana Euclidian ntre locaiile celor doi centroizi (t ) scade cu creterea lui t ; controleaz vecintatea care va afectat de modicarea centroidului curent

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

31 / 45

Clustering folosind SOM

Terminarea: algoritmul se termin cnd valorile centroizilor nu se mai modic sau se modic foarte puin Viteza de terminare depinde de alegerea valorilor centroizilor, de date, de funcia h Convergena este de regullent i n general negarantat Exemple de utilizare: clustering de documente, reprezentarea datelor n format bidimensional (Rapid Miner, Weka) Utilitate: lookup tables bazat pe similaritate, vizualizare

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

32 / 45

Clustering folosind SOM

Puncte tari/slabe Faciliteaz interpretarea i vizualizarea rezultatelor de clustering Punct slab: setrile parametrilor sunt dependente de date i inueneaz mult rezultatul produs Punct slab: numrul de clustere determinate de SOM este de regul diferit de numrul de clustere naturale din date Punct slab: lipsa unei funcii care se optimizeaz; rezultatele rulrilor diferite sunt dicil de comparat Punct slab: lipsa unei convergene teoretic dovedite dei n practic el deseori converge

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

33 / 45

SOM alternative

Metod alternativ pentru reducerea numrului de dimensiuni: t-Distributed Stochastic Neighbor Embedding Metod pentru estimarea densitii de probabilitate: Generative Topographic Mapping

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

34 / 45

Outline

Generaliti

Clustering bazat pe prototipuri

Clustering bazat pe densitate

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

35 / 45

Clustering bazat pe densitate

Abordri:
grid-based clustering: spaiul este divizat n celule i acestea sunt ulterior unite n clustere, dac sunt sucient de dense subspace clustering: se caut regiuni dense n subseturi de dimensiuni

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

36 / 45

Clustering bazat pe celule


Tehnica funcioneaz cu att mai bine cu ct sunt mai puine dimensiuni ale datelor de intrare Fiecare obiect aparine unei celule; determinarea apartenenei se face printr-o singur iteraie peste date; de asemenea densitatea ecrei celule este determinat la aceeai iteraie Algoritmul de baz: Se denete un set de celule, obinute prin partiionarea spaiului Fiecare nregistrare (obiect) este asignat la o celul; se actualizeaz numrul de elemente din ecare celul Se elimin celulele care au o densitate mai mic dect un prag specicat Se formeaz clustere din celule dense adiacente
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 37 / 45

Clustering bazat pe celule

mprirea n celule
Pentru atribute continue se poate mpri n intervale de dimensiuni egale, pe ecare atribut; limea intervalelor pe atribute diferite poate s difere Rezultat: ecare celul are acelai volum; densitatea poate aleas ca numrul de obiecte din celul Se poate aplica orice modalitate de discretizare a atributelor: intervale cu frecvene egale, intervale obinute prin clustering etc

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

38 / 45

Clustering bazat pe celule

Densitatea celulelor
Numrul de puncte / volumul celulei: numrul de semne rutiere pe km (1 dimensiune), numrul de uri pe km ptrat, numrul de molecule pe cm cub de gaz etc

Formarea clusterelor:
Adiacena ttrebuie denit clar; ntrun caroiaj 2D o celul se poate considera c are 4 sau 8 vecini Trebuie tratat cazul n care celule mrginae nu au densitate sucient de mare, dar apropiat de ; ele pot omise, dar asta poate duce la descompletarea clusterelor

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

39 / 45

Clustering bazat pe celule


Puncte tari/slabe Eciente i efective la crearea i contorizarea densitii celulelor pentru puine dimensiuni; complexitatea este O (m) Pentru ctare de celule dense vecine: dac se folosete un arbore de cutare sau kd tree , complexitatea obinut este O (m log m) Punct slab: rezultatul e mult inuenat de valoarea lui
prea mare se pierd celule prea mic clustere care ar trebui separate sunt unite

Punct slab: celulele hiperrectangulare pot s nu surprind bien forme circulare Punct slab: numrul de celule crete exponenial cu numrul de dimensiuni

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

40 / 45

Clustering pe subspaiu

Se pot considera doar submulimi ale atributelor Motive:


datele pot grupate pe anumite subseturi de atribute, dar uniform distribuite pe toate dimensiunile pe subseturi de dimensiuni diferite obinem clustere diferite

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

41 / 45

Clustering pe subspaiu: algoritmul CLIQUE

CLIQUE (CLustering In QUEest): bazat pe cutare pe grid; Caut ecient subspaiile n care putem avea clustere de date Esenial: proprietatea de monotonie a clusterelor bazate pe densitate
dac un set de puncte formeaz un cluster bazat pe densitate n k dimensiuni, atunci acelai set de puncte este de asemenea parte a unui cluster bazat pe densitate n toate subseturile posibile ale acelor dimensiuni

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

42 / 45

Clustering pe subspaiu: algoritmul CLIQUE


Algoritmul CLIQUE:
1

Gsete toate zonele dense n spaii unidimensionale corespunztoare ecrui atribut. Acesta este setul de celule unu-dimensionale k2 repet genereaz toate celulele candidat dense k -dimensionale folosind celule dense (k 1) dimensionale elimin celulele care au mai puin de puncte k k +1 pn cnd nu mai exist celule candidat k -dimensionale Gsete clustere prin reunirea tuturor celulelor dense adiacente Sumarizeaz ecare cluster folosind un set mic de inegaliti care descriu domeniul de valori al atributelor pentru celulele din cluster
Curs 9 May 3, 2012 43 / 45

2 3 4

5 6 7 8 9

lucian.sasu@ieee.org (UNITBV)

Clustering pe subspaiu: algoritmul CLIQUE

Principiul de baz e similar cu principiul APRIORI Punct slab: pot rezulta clustere care partajeaz obiecte; interpretarea poate dicil Punct slab: complexitate potenial exponenial - mai ales dac sunt multe celule dense care se genereaz n spaii cu puine dimensiuni

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

44 / 45

Bibliograe

Pang-Ning Tan, Michael Steinbach, and Vipin Kumar: Introduction to Data Mining, 2006, Addison-Wesley

lucian.sasu@ieee.org (UNITBV)

Curs 9

May 3, 2012

45 / 45

S-ar putea să vă placă și