Documente Academic
Documente Profesional
Documente Cultură
Curs 8
Curs 8
May 3, 2012
1 Generaliti
2 Algoritmul K-means
4 Algoritmul DBSCAN
5 Evaluarea clusterelor
Domenii de utilizare:
tiine sociale
biologie
statistic
recunoatere de abloane (pattern recognition)
regsirea informaiei
analiza imaginilor
bioinformatic
Excluziv vs non-excluziv:
excluziv: un punct aparine unui singur cluster
non-exclusiv (eng: overlapping): un punct poate asociat mai multor
clustere
utilitatea clusterelor neexclusive: pot reprezenta puncte ce aparin
simultan mai multor clase sau puncte apropiate de zona de separare
Fuzzy clustering: ecare obiect are o msur fuzzy de apartenen la
ecare cluster
clusterele devin mulimi fuzzy
clustere fuzzy pot convertite la unele de tip exclusiv prin alegerea
pentru ecare dat a acelui cluster pentru care msura fuzzy este mai
mare
Bine separate
Bazate pe prototipuri
Bazate pe grafuri
Bazate pe densitate
Conceptuale
1 Generaliti
2 Algoritmul K-means
4 Algoritmul DBSCAN
5 Evaluarea clusterelor
Strategii:
clusterul care are valoarea SSE cea mai mare poate mprit n mai
multe subclustere
se introduce un nou centroid: cel mai deprtat punct fa de orice
cluster
dispersarea unui cluster: se ignor centroidul unui cluster, punctele din
el sunt reasignate altor clustere; se alege clusterul care produce
creterea maxim de SSE
unirea a dou clustere: clusterele cu cel mai apropiat centroid se unesc
i rezult unul singur
Puncte tari:
simplu de implementat
ecient: se oprete dup puine iteraii
bisecting K-means, K-mean++: puin sensibile la problema iniializrii
clusterelor
Puncte slabe:
nu poate manipula date ce prezint grupuri non-globulare, de
dimensiuni sau densiti diferite
probleme la datele care conin outliers
algoritmul e restricionat la datele pentru care noiunea de centroid are
sens
1 Generaliti
2 Algoritmul K-means
4 Algoritmul DBSCAN
5 Evaluarea clusterelor
MIN
MAX
Group average
Distana dintre centroizi
Alte metode bazate pe funcie obiectiv: e.g. metoda lui Ward
lucian.sasu@ieee.org (UNITBV) Curs 8 May 3, 2012 57 / 85
Clustering ierarhic aglomerativ: MIN
Complexitatea de memorie:
matricea de proximitate: simetric, dar cu numr iniial de elemente
O(m2 )
lista de clustere i apartenena punctelor la clustere: O(m), unde m e
numrul de clustere
Complexitate de timp:
Cutarea liniar a clusterelor proxime la iteraia i: O((m i + 1)2 ); n
total este complexitate de O(m3 )
Dac pentru ecare cluster se menine o list sortat (sau heap) a
clusterelor n funcie de proximitate, se reduce costul cutrii celui mai
apropiat cluster la O(m i + 1); mpreun cu costul meninerii listelor
sortate se ajunge la complexitate de timp O(m2 log m)
1 Generaliti
2 Algoritmul K-means
4 Algoritmul DBSCAN
5 Evaluarea clusterelor
Rezistent la zgomot
Poate obine clustere de forme i dimensiuni diferite
1 Generaliti
2 Algoritmul K-means
4 Algoritmul DBSCAN
5 Evaluarea clusterelor