Sunteți pe pagina 1din 5

TEHNICIDATAMINING 2007

LECTIA3
Clustering

Kmeansclustering;
Clusteringaglomerativ
Clusteringdiviziv

Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU

TEHNICIDATAMINING 2007

Cap4.Clusterizare

Clusterizareaesteprocesuldedivizareauneibazededateingrupedeinregistrarisimilarastfelincat
membriiaceleasigrupesafiecatsepoatedeapropriatiunuldealtul,iargrupurilesuntcatsepoate
dedepartateuneledecelelalte.

Inclusterizarenuexistaniciomtdedatepreclasificatesinusefaceniciodistinctieintrevariabilele
indepsiceledependente.Var(atributele)infctdecaresefaceoperatiadeclusterizaresenumesc
vardeintrare,iardimensiuneaproblemeiestedatadenrvardeintrare.

Ppcaavemnvariabiledeintrare: X 1 , X 2 ,..., X n .Atuncifiecareinregcecontinecateovaloarept


celenvar( X 1 = x1 , X 2 = x2 ,..., X n = xn )reprezintaunpunct ( x1 , x2 ,..., xn ) inspatialn
dimensional.

CelmaidesfolositalgdeclusterizareestealgKmeans(alclusterizariicukclusterefolosindmedia
aritmetica).

AlgKmeans(MacQueen1967)

Fiekfixat,k=nrclustere.
1. Sealeglaintamplarekpuncte(inregistrari)cafiindcentereleinitialealecelorkclustere.
(MacQueenpropunealegereaprimelorkinreg)
2. Ptfiecareinregdeterminacelmaiapropriatcentrusiatribuieinregistrariiclusterulasociat
centrului.
3. Ptfiecarecluster,calculeazamediainregdincluster.Mutacentralclusteruluiinpctcoresp
mediei.
4. Repetapasii2si3panacandseobtineconvergentaadicapanacandnrdereatribuiriale
clusterelorestemaimicdecatovaloaredata.

Obs.Algfunctioneazanumaiptatribuitecuvalorinumerice.Oposibilafctdistantcaresadescrie
notiuneadecelmaiapropriatestefctdistantaeuclidianaintredouapct: X = ( x1 , x2 ,..., xn ) si

Y = ( y1 , y 2 ,..., y n ) : d ( X , Y ) =

(x1 y1 )2 + ... + (xn yn )2 .

Exemplu:Sappcan=2adicaavemdouaattributedeintrare,atunciputemreprezentapunctele
(inregistrarile)inplan:
5
4
3
2
1
0
0

Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU

TEHNICIDATAMINING 2007

Dacaalegemk=3,
AlegemlaintamplarecentreleclusterelorpuncteleA(1,1),B(3,1),C(7,1).Grupampunctelein
clustereastfel:

cluster1:punctele(1,1),(0,2),(2,2)
cluster2:punctele(3,1),(4,1),(4,3),(5,3)
cluster3:punctele(6,4),(6.5,3.5),(7,1).

Calculammediileclusterelorsirecentram.
cluster1:x=(1+0+2)/3=1,y=(1+2+2)/3=5/3
cluster2:x=(3+4+4+5)/4=4,y=(1+1+3+3)/4=2
cluster3:x=(7+6+6.5)/3=6.5,y=(1+4+3.5)/3

Serecalcdistanteledelafiecarepunctlanoilecentre.Cumdistminimenuduclareatribuiriale
clusterelor,seobtineconvergenta.

Deasemenea,alegandcele3centreinitialealtfel,clusterelerezultatevorfialtele.Deexemplu,
Cluster1:acelasicentru
Cluster2:acelasicentru
Cluster3:x=(2+3+4+7+4+5+6+6.5)/8=4.68,y=(2+1+1+3+3+4+3.5+1)/8=2.31

d (1,2) = (3 4.68) 2 + (2.31 1) 2 < 2


Decisingurarealocareesteanodului(2,2)laclusterul2.

Cluster1:acelasicentru
Cluster2:x=1.5,y=1.5
Cluster3:x=(3+4+7+4+5+6+6.5)/7=5.7,y=(1+1+3+3+4+3.5+1)/7=2.35

Serecentreaza,seatribuielui1clusterul2siprocedeulcontinua.

Alegerealuik:Incelemaimultecazurinuexunmotivaprioriptselectarealuik.Deobiceise
alegeovaloarealuik,seapilcaalg,seevalueazarezultatele,apoiseincearcaoaltavaloaresise
analizeaza.

Unalttipdeclusterizareesteclusterizareaierarhica.Aceastasepoatefacefolosind:
Metodeaglomerativedeclusterizarepresupunoseriedefuziuniainregistrarilor
initialedinnclustere(cateinregsunt)ingrupuridinceincemaiputinedeinreg,pana
candseobtinenrdeclusteredorit.
Metodedivizivedeclusterizareppcainitialtoateinregfacpartedintrunsingrucluster
pecareapoiilvorimpartiingrupuri.

Metodeledeclusterizareierarhicesepotreprezentaprintrodiagrama2Dnumitadendograma
careprezintafuziunilesaudivizarilefacute.

Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU

TEHNICIDATAMINING 2007

Exempludedendograma:

Metodeaglomerative

Metodedivizive

Metodeaglomerative:Producoseriedepartitiialeinreg: Pn , Pn1 ,...P1 unden=nrtotaldeinreg

Pn = {{i1}, {i2 },..., {in }} nmt(nclustere)


.
.
.

P1 = {i1 , i2 ,..., in } 1cluster


Lafiecarepasmetodaunsetecatedouaclusteremaiexactdouaclusterecaresuntcelemai
apropriate:
AlegemR,Sa.i. D ( R, S ) = min D(r , s ) .UnimRsiS.
r , s clustere

Diferentadintremetodeaparedatoritamodurilordiferitedeamasuradistintreclustere.

1. Clusterizareculegsimpla
Distintreclustere=celmaiscurtdrumintreclustere
D(r , s ) = min{d (i, j ) / i este in clusterul r si j in clusterul s}

2. Clusterizareculegcompleta
Distintreclustere=distantadintrecelemaidepartateinregdinclustere
D(r , s) = max{d (i, j ) / i este in clusterul r si j in clusterul s}

3. Clusterizareculegmedie
D(r,s)=media{d(i,j)/iinclusterulr,jsuntinclusteruls}=

d (i, j )

card (r ) card ( s )

4. Clusterizareculegmediedegruprsisseunesca.i.dupauniredistmediedin
interiorulfiecaruiclustersafieminima.Ppcanoulclusterformatprinunirealuircus
estet.Atunci:
D(r,s)=media{d(i,j)/i,jsuntinclusterultformatprinfuzionarealuircus}

5. ClusterizareculegaturaWard:Dist=crestereainsumapatrateloreroriiESSdupa
fuzionareacelordouaclustereintrunulsingur.Sealegpasisuccesivicaresaminimizeze
crestereainESSlafiecarepas.

Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU

TEHNICIDATAMINING 2007

X=mt,n=nrelemaleluiX
n

ESS ( X ) = xi media
2

i =1

D(r,s)=ESS(t=clusterobtprinfuzionarealuirsis)(ESS(r)+ESS(s))

Metodedivizive:
Algoritm:
Initialtoateinregsuntintrunsingurcluster.
Sedecideunpragptdist.
Secalcdistdintreorice2inregsisedetperecheacuceamaimaredist.
Distmaxsecomparacupragulptdist.
Dacadistmax>pragptdistatuncigrupulseimparteindoua.Cele2inregsepunin
clusterediferiteiarcelelaltepctesepuninclusterulcelmaiapropriat.Siserepeta
procedeul.
Dacadistmax<pragptdistatuncistop.

Lectordr.DANIELAJOITAUNIVERSITATEATITUMAIORESCU