Documente Academic
Documente Profesional
Documente Cultură
LECTIA3
Clustering
Kmeansclustering;
Clusteringaglomerativ
Clusteringdiviziv
Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU
TEHNICIDATAMINING 2007
Cap4.Clusterizare
Clusterizareaesteprocesuldedivizareauneibazededateingrupedeinregistrarisimilarastfelincat
membriiaceleasigrupesafiecatsepoatedeapropriatiunuldealtul,iargrupurilesuntcatsepoate
dedepartateuneledecelelalte.
Inclusterizarenuexistaniciomtdedatepreclasificatesinusefaceniciodistinctieintrevariabilele
indepsiceledependente.Var(atributele)infctdecaresefaceoperatiadeclusterizaresenumesc
vardeintrare,iardimensiuneaproblemeiestedatadenrvardeintrare.
CelmaidesfolositalgdeclusterizareestealgKmeans(alclusterizariicukclusterefolosindmedia
aritmetica).
AlgKmeans(MacQueen1967)
Fiekfixat,k=nrclustere.
1. Sealeglaintamplarekpuncte(inregistrari)cafiindcentereleinitialealecelorkclustere.
(MacQueenpropunealegereaprimelorkinreg)
2. Ptfiecareinregdeterminacelmaiapropriatcentrusiatribuieinregistrariiclusterulasociat
centrului.
3. Ptfiecarecluster,calculeazamediainregdincluster.Mutacentralclusteruluiinpctcoresp
mediei.
4. Repetapasii2si3panacandseobtineconvergentaadicapanacandnrdereatribuiriale
clusterelorestemaimicdecatovaloaredata.
Obs.Algfunctioneazanumaiptatribuitecuvalorinumerice.Oposibilafctdistantcaresadescrie
notiuneadecelmaiapropriatestefctdistantaeuclidianaintredouapct: X = ( x1 , x2 ,..., xn ) si
Y = ( y1 , y 2 ,..., y n ) : d ( X , Y ) =
Exemplu:Sappcan=2adicaavemdouaattributedeintrare,atunciputemreprezentapunctele
(inregistrarile)inplan:
5
4
3
2
1
0
0
Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU
TEHNICIDATAMINING 2007
Dacaalegemk=3,
AlegemlaintamplarecentreleclusterelorpuncteleA(1,1),B(3,1),C(7,1).Grupampunctelein
clustereastfel:
cluster1:punctele(1,1),(0,2),(2,2)
cluster2:punctele(3,1),(4,1),(4,3),(5,3)
cluster3:punctele(6,4),(6.5,3.5),(7,1).
Calculammediileclusterelorsirecentram.
cluster1:x=(1+0+2)/3=1,y=(1+2+2)/3=5/3
cluster2:x=(3+4+4+5)/4=4,y=(1+1+3+3)/4=2
cluster3:x=(7+6+6.5)/3=6.5,y=(1+4+3.5)/3
Serecalcdistanteledelafiecarepunctlanoilecentre.Cumdistminimenuduclareatribuiriale
clusterelor,seobtineconvergenta.
Deasemenea,alegandcele3centreinitialealtfel,clusterelerezultatevorfialtele.Deexemplu,
Cluster1:acelasicentru
Cluster2:acelasicentru
Cluster3:x=(2+3+4+7+4+5+6+6.5)/8=4.68,y=(2+1+1+3+3+4+3.5+1)/8=2.31
Cluster1:acelasicentru
Cluster2:x=1.5,y=1.5
Cluster3:x=(3+4+7+4+5+6+6.5)/7=5.7,y=(1+1+3+3+4+3.5+1)/7=2.35
Serecentreaza,seatribuielui1clusterul2siprocedeulcontinua.
Alegerealuik:Incelemaimultecazurinuexunmotivaprioriptselectarealuik.Deobiceise
alegeovaloarealuik,seapilcaalg,seevalueazarezultatele,apoiseincearcaoaltavaloaresise
analizeaza.
Unalttipdeclusterizareesteclusterizareaierarhica.Aceastasepoatefacefolosind:
Metodeaglomerativedeclusterizarepresupunoseriedefuziuniainregistrarilor
initialedinnclustere(cateinregsunt)ingrupuridinceincemaiputinedeinreg,pana
candseobtinenrdeclusteredorit.
Metodedivizivedeclusterizareppcainitialtoateinregfacpartedintrunsingrucluster
pecareapoiilvorimpartiingrupuri.
Metodeledeclusterizareierarhicesepotreprezentaprintrodiagrama2Dnumitadendograma
careprezintafuziunilesaudivizarilefacute.
Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU
TEHNICIDATAMINING 2007
Exempludedendograma:
Metodeaglomerative
Metodedivizive
Diferentadintremetodeaparedatoritamodurilordiferitedeamasuradistintreclustere.
1. Clusterizareculegsimpla
Distintreclustere=celmaiscurtdrumintreclustere
D(r , s ) = min{d (i, j ) / i este in clusterul r si j in clusterul s}
2. Clusterizareculegcompleta
Distintreclustere=distantadintrecelemaidepartateinregdinclustere
D(r , s) = max{d (i, j ) / i este in clusterul r si j in clusterul s}
3. Clusterizareculegmedie
D(r,s)=media{d(i,j)/iinclusterulr,jsuntinclusteruls}=
d (i, j )
card (r ) card ( s )
4. Clusterizareculegmediedegruprsisseunesca.i.dupauniredistmediedin
interiorulfiecaruiclustersafieminima.Ppcanoulclusterformatprinunirealuircus
estet.Atunci:
D(r,s)=media{d(i,j)/i,jsuntinclusterultformatprinfuzionarealuircus}
5. ClusterizareculegaturaWard:Dist=crestereainsumapatrateloreroriiESSdupa
fuzionareacelordouaclustereintrunulsingur.Sealegpasisuccesivicaresaminimizeze
crestereainESSlafiecarepas.
Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU
TEHNICIDATAMINING 2007
X=mt,n=nrelemaleluiX
n
ESS ( X ) = xi media
2
i =1
D(r,s)=ESS(t=clusterobtprinfuzionarealuirsis)(ESS(r)+ESS(s))
Metodedivizive:
Algoritm:
Initialtoateinregsuntintrunsingurcluster.
Sedecideunpragptdist.
Secalcdistdintreorice2inregsisedetperecheacuceamaimaredist.
Distmaxsecomparacupragulptdist.
Dacadistmax>pragptdistatuncigrupulseimparteindoua.Cele2inregsepunin
clusterediferiteiarcelelaltepctesepuninclusterulcelmaiapropriat.Siserepeta
procedeul.
Dacadistmax<pragptdistatuncistop.
Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU