Curs9 Data Mining

Introducere n Data Mining
Analiza gruprilor: probleme i ali algoritmi Lucian Sasu, Ph.D.

Universitatea Transilvania din Braov, Facultatea de Matematic i Informatic
May 3, 2012
lucian.sasu@ieee.org (UNITBV)
Curs 9
May 3, 2012
1 / 45
Outline
Generaliti
Clustering bazat pe prototipuri
Clustering bazat pe densitate
Curs 9
May 3, 2012
2 / 45
Generaliti
Dei sau dezvoltat o larg palet de algoritmi de clustering, nu avem un cel mai bun algoritm Alegerea modalitii de grupare se face dup:
tipul de date capabilitile algoritmului de clustering aplicaie
Avem civa algoritmi care funcioneaz bine n nite cazuri Mai jos: discuii critice asupra algoritmilor de clustering n funcie de abiliti i slbiciuni
Curs 9
May 3, 2012
3 / 45
Exemplu: comparaie ntre K-means i DBSCAN I

Att DBSCAN ct i K-means sunt algoritmi partiionali: datele sunt mprite n subseturi fr suprapuneri; o dat e asignat unui singur cluster K-means folosete prototipuri, iar DBSCAN se bazeaz pe concept de densitate de date DBSCAN poate obine clustere de dimensiuni i forme diverse; nu e afectat de zgomot sau outliers; K-means are diculti cu clustere nonglobulare sau de dimensiuni diferite; ambii algoritmi se comport nesatisfctor atunci cnd clusterele au zone cu densiti foarte diferite K-means poate folosit doar acolo unde conceptul de centroid este denit i are sens; DBSCAN are nevoie de concept de densitate, n forma original pornind de la distana Euclidian
lucian.sasu@ieee.org (UNITBV) Curs 9 May 3, 2012 4 / 45
Exemplu: comparaie ntre K-means i DBSCAN II

K-means poate denit pentru date rare, cu numr mare de dimensiuni - e.g. date document; DBSCAN se comport slab pentru date n spaii cu prea multe dimensiuni Versiunile originale al lui K-means i DBSCAN au fost concepute pentru date Euclidiene, dar ulterior sau extins pentru manipularea altor tipuri de date DBSCAN nu face nicio presupunere apriori asupra distribuiei datelor. K-means este echivalent cu presupunerea clasic din statistic: datele sunt distribuite normal, cu aceeai dispersie dar cu medii (centroizi) diferii DBSCAN i K-means folosesc toate atributele n clustering K-means poate gsi clustere care nu sunt bine separate, chiar dac ele se suprapun; DBSCAN unete clusterele care se suprapun
Curs 9
May 3, 2012
5 / 45
Exemplu: comparaie ntre K-means i DBSCAN III

K-means are complexitate O (m), iar DBSCAN are O (m2 ); pentru cazul n care numrul de dimensiuni este mic, se poate ajunge pentru DBSCAN la O (m log m) DBSCAN produce acelai set de clustere de la o rulare la alta, K-means folosete iniializarea aleatoare a centroizilor clusterelor i deci poate duce la clustere diferite DBSCAN determin automat numrul de clustere; K-means are nevoie de precizarea lui K ; DBSCAN ns are nevoie de precizarea parametrilor Eps i MinPts K-means poate vzut ca o problem de optimizare; DBSCAN nu se bazeaz pe niciun model formal
Curs 9
May 3, 2012
6 / 45
Caracteristicile datelor I
Analiza clusterelor este inuenat i de caracteristicile datelor Dimensionalitatea datelor: n spaii cu multe dimensiuni, densitatea bazat pe distana Euclidian i pierde sensul; volumul crete exponenial cu numrul de dimensiuni; necesarul de puncte pentru a menine densitatea constant crete deci i el exponenial; altfel zis: dac sunt multe dimensiuni, atunci distana este inuenat de valorile de pe ecare din ele, deci distanele se uniformizeaz; n acest caz metodele de reducere a dimensionalitii datelor sunt utilizate ca mecanism de preprocesare Cantitatea de date: muli algoritmi de clustering lucreaz bine pentru date puine sau moderate; complexitatea algoritmilor nu permite utilizarea pe date numeroase; algoritmii de clustering ar trebui s scaleze bine pe vertical sau s e uor de implementat distribuit (vezi platforma Apache Mahout)
Caracteristicile datelor II
Caracterul rar al datelor (sparseness): deseori provenit din date asimetrice, in care prezenta unei trsturi este mai important dect absena ei. Sunt folosite n acest caz metrici pentru date asimetrice; pot ns aprea ntrebri de forma: conteaz magnitudinea valorilor (e.g.: conteaz c ntrun co de cumprturi ai trei pini sau doar una?) Zgomot i outliers: o valoare atipic poate s degradeze mult rezultatul furnizat de algoritmul de clustering, n special pe cei bazai pe prototipuri; ali algoritmi pot decide unirea de clustere atunci cnd nu e cazul (e.g. single link). n multe cazuri eliminarea zgomoteldor i a datelor outlier se face ca pas de preprocesare naintea clusteringului propriuzis; ali algoritmi au o rezisten natural n faa datelor cu zgomot (e.g. DBSCAN).
Curs 9
May 3, 2012
8 / 45
Caracteristicile datelor III

Tipul atributelor din setul de date: sunt necesare msuri de densitate i proximitate adecvate tipurilor atributelor; uneori datele trebuie discretizate sau binarizate astfel nct datele s poat trimise spre grupare; atenie c asemenea manevre pot duce la mrirea numrului de dimensiuni; alteori avem mix de tipuri de atribute, distanele se denesc prin formule adhoc, dependente de problem Scala datelor: datele pot msurate pe scale diferite; nlimea poate de ordinul metrilor (1.52.4 m), greutatea poate de ordinul zecilor/sutelor de kg (50-150). Distanele mult prea diferite pot anula diferenele de pe scale mai mici Proprieti matematice ale spaiului datelor: unele tehnici de clustering folosesc funcii de agregare precum media sau mediana datelor, ntrun spaiu Euclidian. Ali algoritmi cer ca noiuni precum densitate s aib sens pentru problemele abordate.
Curs 9
May 3, 2012
9 / 45
Caracteristicile clusterelor I
Diferitele tipuri de clustere au fost descrise n cursul precedent Distribuia datelor: unele tehnici de grupare presupun anumite distribuii ale datelor; de multe ori se presupune c datele pot modelate ca o mixtur de distribuii, ecare cluster ind o component a mixturii Forma: unele clustere produse au form regulat (hiperdreptunghi, ca n cazul lui Fuzzy ART) sau globular (K-means, group average, metoda lui Ward); de cele mai multe ori ns, clusterele naturale sunt neregulate (DBSCAN i single link produc efectiv aa ceva) Dimensiuni diferite: clusterele naturale pot s nu aibceeai dimensiune; Densiti diferite: clusterele cu densiti extrem de diferite ridic probleme pentru algoritmi precum k-Means i DBSCAN
Caracteristicile clusterelor II
Clustere cu suprapuneri: cnd clusterele naturale se ating sau se suprapun, unele tehnici tind s produc un singur cluster unicat; folosirea unor tehnici fuzzy poate s e aici mai adecvat Relaii ntre clustere: n cele mai multe tehnici de clustering nu se ia n considerare o eventual relaie ntre clustere, precum poziia relativ a lor. Hrile cu auto-organizare (Self Organizing Maps) folosesc activarea vecinilor atunci cnd fac activarea neuronilor Clustering pe subspaii: putem avea grupri de date pe anumite seturi de dimensiuni din problema original; se pot aplica tehnici de selectare a trsturilor, dar asta poate s duc la nedetectarea altor seturi de dimensiuni pentru care clutsring-ul natural exist; exist i tehnici de clustering care detecteaz clusterele i setul de dimensiuni pe care acestea apar
Curs 9
May 3, 2012
11 / 45
Caracteristici generale ale tehnicilor de clustering I

Dependena de ordine: pentru anumii algoritmi numrul i calitatea algoritmilor pot s difere substanial n funcie de ordinea procesrii datelor; n alte cazuri sensibilitatea nu este att de mare Caracterul nedeterminist: dac se face uz de factorul aleator, atunci rulri diferite duc la rezultate diferite; pot necesare rulri multiple Scalabilitatea: se refer n acest context la complexitatea algoritmilor; algoritmii de complexitate O (m2 ) unde m e numrul de nregistrri din setul de date, sunt considerai inecieni n context de DM; o alt problem este complexitatea de memorie muli algoritmi presupun implicit c datele se pot ncrca n memoria RAM Selectarea parametrilor: cei mai muli algoritmi de clustering au parametri de a cror alegere depinde succesul procesului de grupare; se poate folosi metod de tip trial and error, cross validation etc; spre exemplu, la K-means parametrul poate numrul K sau metrica folosit pentru detectarea relaiei de vecintate
Caracteristici generale ale tehnicilor de clustering II
Tratarea problemei de clustering ca problem de optimizare: de multe ori problema de grupare se poate transforma ntruna de optimizare: s se determine un mod de grupare care s maximizeze o funcie obiectiv specicat. Pentru optimizare se pot folosi metode bazate pe cutare, sau din domeniul cercetrilor operaionale, sau euristice: hill climbing, algoritmi genetici etc. Rezultatele obinute pot de multe ori (acceptabil de) bune, nu i optimale.
Curs 9
May 3, 2012
13 / 45
Outline
Generaliti
Curs 9
May 3, 2012
14 / 45
Un cluster este un grup de obiecte care sunt mai apropiate de un prototip ce denete clusterul dect de prototipul altui cluster Exemplu: K-means n seciunea curent:
obiectele pot s aparin de mai multe clustere simultan, cu anumiet ponderi clustere modelate ca distribuii statistice, caracterizat de parametri (e.g. media i dispersia) clustere cu relaii xe i impuse, de exemplu impuneri asupra gradului de vecintate
Curs 9
May 3, 2012
15 / 45
Fuzzy clustering
n multe cazuri datele nu pot partiionate n clustere bine separate; decizia de asignare a obiectelor apropiate de marginea de separare ntre clustere poate provit ca arbitrar Variant: pentru ecare obiect se calculeaz un grad de apartenen la ecare cluster: wij este gradul de apartenen al obiectului xi la clusterul Cj Exist variante fuzzy de clustering pentru calculul ponderilor wij Se pot folosi probabiliti pentru cuanticarea gradului de apartenen
Curs 9
May 3, 2012
16 / 45
Fuzzy clustering: mulimi fuzzy
Mulimi fuzzy i logic fuzzy: introduse de Lot Zadeh n 1965 n mulimi fuzzy: un obiect poate s aparin unei mulimi ntrun anumit grad numr ntre 0 i 1; prin extensie: o porpoziie poate s aibe un grad de adevr cuprins ntre 0 i 1 Logica binar tradiional este un caz particular al logicii fuzzy Exemplu: propoziia e nnorat are grad de adevr 0.25; ziua aparine deci n msura 0.25 mulimii zilelor noroase i n msura 0.75 mulimii zilelor ne-noroase
Curs 9
May 3, 2012
17 / 45
Fuzzy clustering: clustere fuzzy

Avem un set de date X = {x1 , . . . , xm } unde xi este un punct n-dimensional O coleie de clustere fuzzy C1 , . . . , Ck este un subset al tuturor submulimilor fuzzy ale lui X : pentru orice punct xi avem de asignat un grad de apartenen wij relativ la clusterele Cj Condiii:
1
Toate ponderile unui punct dat xi au suma 1:

k
wij = 1
j =1
2
Fiecare cluster Cj conine cu pondere mai mare ca 0 mcar un punct i nu conine cu pondere 1 toate punctele:
m
0<
i =1
lucian.sasu@ieee.org (UNITBV) Curs 9
wij < m
May 3, 2012 18 / 45
Fuzzy clustering: fuzzy cmeans

Algoritmul fuzzy c-means:
1
Se selecteaz o pseudopartiie fuzzy iniial, i.e. se asigneaz valori pentru wij repet Calculeaz centroidul pentru ecare cluster folosind pseudopartiia Recalculeaz pseudopartiia, adic wij pn cnd centroizii nu se mai schimb Algoritmul este similar cu k-means
n k-means: se alterneaz pasul de modicare a centroizilor cu cel de asignare a obiectelor la cel mai apropiat centroid n fuzzy c-means: calcularea pseudopartiiei fuzzy din pasul 4 este echivalentul pasului de asignare din k-means
2 3
4 5
Curs 9
May 3, 2012
19 / 45
Ca i n cazul K-means avem o funcie care se minimizeaz

k m p wij dist (xi , cj )2 j =1 i =1
SSE (C1 , C2 , . . . , Ck ) =
(1)
unde cj estecentroidul fuzzy-clusterului j , p (1, ) determin inuena ponderilor Iniializare - se folosete cel mai des iniializare aleatoare: ponderile sunt alese aleator i apoi L1 - normalizate; caracterul aleator al alegerilor poate duce, la fel ca i la K-means la minim local pentru funcia SSE
Curs 9
May 3, 2012
20 / 45
Calculul centroizilor: pentru clusterul Cj centroidul cj este calculat ca: m p wij xi 1 (2) cj = i =m p wij
i =1
Fiecare punct contribui ntro anumit msur la calculul centroizilor; formula este mai general dect cea de la K-means datorit ponderilor wij Pentru mulimi tradiionale: wij {0, 1}
Curs 9
May 3, 2012
21 / 45
Valoare popular pentru p : 2 Pentru p apropiat de 1: comportamentul lui fuzzy c-means este foarte similar cu cel de la K-means Pentru p mare: toi centroizii de clustere devin apropiai de centroidul global al al tuturor punctelor partiiile devin mai fuzzy pe msur ce p crete
Curs 9
May 3, 2012
22 / 45
Actualizarea pseudo-partiiei fuzzy: reprezint modicarea valorilor de apartenen wij

wij : msura n care punctul i aparine clusterului j
1 dist (xi ,cj )2 k q =1
1 p 1 1 p 1
wij =
(3)
1 dist (xi ,cq )2
Pentru p = 2: wij =
k
1 dist (xi ,cj )2 1 dist (xi ,cq )2
(4)
q =1
Curs 9
May 3, 2012
23 / 45
Impactul lui p asupra valorii wij : p mare scade ponderea asignat clusterelor care sunt apropiate de un punct
1 p : wij k p 1: wij 1 pentru j indicele celui mai apropiat cluster Cj de xi i wij 0 pentru celelalte clustere = K-means
Curs 9
May 3, 2012
24 / 45
Puncte tari i limitri: pozitiv: se indic grade de apartenen pentru limitare: computaional intensiv alte caracteristici: motenite de la K-means
Curs 9
May 3, 2012
25 / 45
Clustering folosind mixtur de modele
A se vedea seciunea 9.2.2 din [1]
Curs 9
May 3, 2012
26 / 45
Clustering folosind SOM

SOM: Slef Organizing Map Reea neural articial ntrodus de Teuvo Kohonen Scop: gsirea unui set de centroizi (vectori de referin n terminologia SOM) Fiecare obiect este asignat centroidului care are cea mai mare similaritate cu el Fiecrui centroid i se asigneaz un neuron Obiectele (datele) sunt procesate unul cte unul;centroidul cel mai apropiat este actualizat Suplimentar: i vecinii acestui centroid sufer modicri Spre deosebire de K-means, nu se menine apartenena unui obiect fa de centroidul cel mai apropiat Ieirea furnizat de algoritm: un set de centroizi care denesc clusterele
Fiecrui centroid i se asigneaz coordonate (i , j ) n cadrul hrii Relaia de vecintate a nodurilor este dat de apropierea coordonatelor; neuronii nu i schimb poziia n hart, doar ponderile
1 2 3 4 5 6
Iniializeaz centroizii repet selecteaz urmtorul obiect determin cel mai apropiat centroid de obiectul curent modic centroidul i centroizii dintro anumit vecintate a sa pn cnd centroizii nu se schimb foarte mult sau se depete un anumit prag
Curs 9
May 3, 2012
28 / 45
Iniializarea: valorile centroizilor pot alese din valorilor setului de date pentru care se face clustering Sau se aleg valori aleatoare din domeniul acoperit de setul de date (dar convergena poate lent n acest caz) Selectarea unui obiect: un obiect poate selectat de mai multe ori; se poate accentua frecvena de alegere a unor grupuri de obiecte Asignarea: cel mai apropiat centroid se determin folosind o distan, e.g. distana Euclidian; dac vectorii de intrare i de valori pentru centroizi sunt normalizai, atunci asta e echivalent cu determinarea centroidului care duce la produs scalar maxim, sau similaritatea cosinus
Curs 9
May 3, 2012
29 / 45
Actualizarea: considerm c centroizii sunt m1 , . . . , mk ; e p(t ) obiectul curent; e mj cel mai apropiat centroid fa de p(t ); se actualizeaz centroidul mi astfel: mi (t + 1) = mi (t ) + hi (t )(p(t ) mi (t )) hi (t ) determin efectul pe care l are diferena dintre p(t ) i mi (t ) hi (t ) scade cu timpul t hi (t ) scade cu distana dintre centroizii i i j (5)
Curs 9
May 3, 2012
30 / 45
Alegeri pentru hi (t ):
funcie Gaussian: hi (t ) = (t ) exp
dist (ri ,rj )2 2 2 (t )
funcia scar: hi (t ) = (t ) dac dist (ri , rj ) prag , 0 altfel rl = (xl , yl ), coordonatele n harta de neuroni a centroidului rl 0 < (t ) < 1 descrete monoton cu timpul t dist (, ) e distana Euclidian ntre locaiile celor doi centroizi (t ) scade cu creterea lui t ; controleaz vecintatea care va afectat de modicarea centroidului curent
Curs 9
May 3, 2012
31 / 45
Terminarea: algoritmul se termin cnd valorile centroizilor nu se mai modic sau se modic foarte puin Viteza de terminare depinde de alegerea valorilor centroizilor, de date, de funcia h Convergena este de regullent i n general negarantat Exemple de utilizare: clustering de documente, reprezentarea datelor n format bidimensional (Rapid Miner, Weka) Utilitate: lookup tables bazat pe similaritate, vizualizare
Curs 9
May 3, 2012
32 / 45
Puncte tari/slabe Faciliteaz interpretarea i vizualizarea rezultatelor de clustering Punct slab: setrile parametrilor sunt dependente de date i inueneaz mult rezultatul produs Punct slab: numrul de clustere determinate de SOM este de regul diferit de numrul de clustere naturale din date Punct slab: lipsa unei funcii care se optimizeaz; rezultatele rulrilor diferite sunt dicil de comparat Punct slab: lipsa unei convergene teoretic dovedite dei n practic el deseori converge
Curs 9
May 3, 2012
33 / 45
SOM alternative
Metod alternativ pentru reducerea numrului de dimensiuni: t-Distributed Stochastic Neighbor Embedding Metod pentru estimarea densitii de probabilitate: Generative Topographic Mapping
Curs 9
May 3, 2012
34 / 45
Outline
Generaliti
Curs 9
May 3, 2012
35 / 45
Abordri:
grid-based clustering: spaiul este divizat n celule i acestea sunt ulterior unite n clustere, dac sunt sucient de dense subspace clustering: se caut regiuni dense n subseturi de dimensiuni
Curs 9
May 3, 2012
36 / 45
Clustering bazat pe celule

Tehnica funcioneaz cu att mai bine cu ct sunt mai puine dimensiuni ale datelor de intrare Fiecare obiect aparine unei celule; determinarea apartenenei se face printr-o singur iteraie peste date; de asemenea densitatea ecrei celule este determinat la aceeai iteraie Algoritmul de baz: Se denete un set de celule, obinute prin partiionarea spaiului Fiecare nregistrare (obiect) este asignat la o celul; se actualizeaz numrul de elemente din ecare celul Se elimin celulele care au o densitate mai mic dect un prag specicat Se formeaz clustere din celule dense adiacente
mprirea n celule
Pentru atribute continue se poate mpri n intervale de dimensiuni egale, pe ecare atribut; limea intervalelor pe atribute diferite poate s difere Rezultat: ecare celul are acelai volum; densitatea poate aleas ca numrul de obiecte din celul Se poate aplica orice modalitate de discretizare a atributelor: intervale cu frecvene egale, intervale obinute prin clustering etc
Curs 9
May 3, 2012
38 / 45
Densitatea celulelor
Numrul de puncte / volumul celulei: numrul de semne rutiere pe km (1 dimensiune), numrul de uri pe km ptrat, numrul de molecule pe cm cub de gaz etc
Formarea clusterelor:
Adiacena ttrebuie denit clar; ntrun caroiaj 2D o celul se poate considera c are 4 sau 8 vecini Trebuie tratat cazul n care celule mrginae nu au densitate sucient de mare, dar apropiat de ; ele pot omise, dar asta poate duce la descompletarea clusterelor
Curs 9
May 3, 2012
39 / 45

Puncte tari/slabe Eciente i efective la crearea i contorizarea densitii celulelor pentru puine dimensiuni; complexitatea este O (m) Pentru ctare de celule dense vecine: dac se folosete un arbore de cutare sau kd tree , complexitatea obinut este O (m log m) Punct slab: rezultatul e mult inuenat de valoarea lui
prea mare se pierd celule prea mic clustere care ar trebui separate sunt unite
Punct slab: celulele hiperrectangulare pot s nu surprind bien forme circulare Punct slab: numrul de celule crete exponenial cu numrul de dimensiuni
Curs 9
May 3, 2012
40 / 45
Clustering pe subspaiu
Se pot considera doar submulimi ale atributelor Motive:

datele pot grupate pe anumite subseturi de atribute, dar uniform distribuite pe toate dimensiunile pe subseturi de dimensiuni diferite obinem clustere diferite
Curs 9
May 3, 2012
41 / 45
Clustering pe subspaiu: algoritmul CLIQUE
CLIQUE (CLustering In QUEest): bazat pe cutare pe grid; Caut ecient subspaiile n care putem avea clustere de date Esenial: proprietatea de monotonie a clusterelor bazate pe densitate
dac un set de puncte formeaz un cluster bazat pe densitate n k dimensiuni, atunci acelai set de puncte este de asemenea parte a unui cluster bazat pe densitate n toate subseturile posibile ale acelor dimensiuni
Curs 9
May 3, 2012
42 / 45

Algoritmul CLIQUE:
1
Gsete toate zonele dense n spaii unidimensionale corespunztoare ecrui atribut. Acesta este setul de celule unu-dimensionale k2 repet genereaz toate celulele candidat dense k -dimensionale folosind celule dense (k 1) dimensionale elimin celulele care au mai puin de puncte k k +1 pn cnd nu mai exist celule candidat k -dimensionale Gsete clustere prin reunirea tuturor celulelor dense adiacente Sumarizeaz ecare cluster folosind un set mic de inegaliti care descriu domeniul de valori al atributelor pentru celulele din cluster
Curs 9 May 3, 2012 43 / 45
2 3 4
5 6 7 8 9
Principiul de baz e similar cu principiul APRIORI Punct slab: pot rezulta clustere care partajeaz obiecte; interpretarea poate dicil Punct slab: complexitate potenial exponenial - mai ales dac sunt multe celule dense care se genereaz n spaii cu puine dimensiuni
Curs 9
May 3, 2012
44 / 45
Bibliograe
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar: Introduction to Data Mining, 2006, Addison-Wesley
Curs 9
May 3, 2012
45 / 45

Curs9 Data Mining

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs9 Data Mining

Încărcat de

Drepturi de autor:

Formate disponibile

Introducere n Data Mining

Analiza gruprilor: probleme i ali algoritmi Lucian Sasu, Ph.D.

Clustering bazat pe prototipuri

Clustering bazat pe densitate

Exemplu: comparaie ntre K-means i DBSCAN I

Exemplu: comparaie ntre K-means i DBSCAN II

Exemplu: comparaie ntre K-means i DBSCAN III

Caracteristicile datelor III

Caracteristici generale ale tehnicilor de clustering I

Caracteristici generale ale tehnicilor de clustering II

Clustering bazat pe prototipuri

Clustering bazat pe densitate

Clustering bazat pe prototipuri

Fuzzy clustering: mulimi fuzzy

Fuzzy clustering: clustere fuzzy

Toate ponderile unui punct dat xi au suma 1:

Fuzzy clustering: fuzzy cmeans

Fuzzy clustering: fuzzy cmeans

Ca i n cazul K-means avem o funcie care se minimizeaz

Fuzzy clustering: fuzzy cmeans

Fuzzy clustering: fuzzy cmeans

Fuzzy clustering: fuzzy cmeans

Actualizarea pseudo-partiiei fuzzy: reprezint modicarea valorilor de apartenen wij

1 dist (xi ,cq )2

1 dist (xi ,cj )2 1 dist (xi ,cq )2

Fuzzy clustering: fuzzy cmeans

Fuzzy clustering: fuzzy cmeans

Clustering folosind mixtur de modele

A se vedea seciunea 9.2.2 din [1]

Clustering folosind SOM

Clustering folosind SOM

Clustering folosind SOM

Clustering folosind SOM

Clustering folosind SOM

Clustering folosind SOM

Clustering folosind SOM

Clustering bazat pe prototipuri

Clustering bazat pe densitate

Clustering bazat pe densitate

Clustering bazat pe celule

Clustering bazat pe celule

Clustering bazat pe celule

Clustering bazat pe celule

Se pot considera doar submulimi ale atributelor Motive:

Clustering pe subspaiu: algoritmul CLIQUE

Clustering pe subspaiu: algoritmul CLIQUE

Clustering pe subspaiu: algoritmul CLIQUE

S-ar putea să vă placă și