Sunteți pe pagina 1din 10

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means

5. Gruparea
5.1. Concepte de baz n cluster analysis.
Gruparea (Cluster analysis) reprezint o tehnic de mprire a unui set de date pentru
care nu exista nici o clas pre definita intr-un set de clase - grupuri. Fiecare dintre aceste
clase este definita de un model prototip care poate fi un obiect abstract sau cel mai
reprezentativ obiect al clasei. Deci spre deosebire de clasificare unde se atribuie un element
la un set de clase cunoscut, de data aceasta se procedeaz la gsirea claselor care sunt
prezente intr-un set de date (obiecte). n contextul acestui scop, tehnicile de grupare opereaz
prin gsirea similaritilor dintre date, n conformitate cu caracteristicile prezente in datele
analizate. Grupurile sunt numite clusteri (clusters). Civa autori au privit gruparea ca un tip
special de clasificare.
Multe definiii au fost propuse pentru grupare i anume:

Set de elemente asemntoare (similare) cu elementele din interiorul aceluiai


cluster. Elementele din diferite grupri nu sunt asemntoare.

Distana dintre punctele aparinnd unei grupri este mai mic dect distana dintre
un punct din interiorul gruprii i altul din afara gruprii.

Ca si tehnic grupare reprezint o clasificare nesupervizata deoarece nu exista seturi


predefinite de clase
Problema gruprii din punct de vedere teoretic poate fi definit astfel:

Avnd:
baz de date de tupluri D = {t1 , t 2 ,..., t n } i
o valoare ntreag k,

problema gruprii este definirea unei mapri


f : D {1,..., k} ,
unde fiecare tuplu ti este asignat unui grup (cluster) Kj, 1 j k .
Un grup Kj, conine acele tupluri care au fost mapate n el;
adic K j = t i f (t i ) = K j ,1 i n i ti D.

Exemplu
Pentru a ilustra utilitatea tehnicii de grupare, vom presupune ca Acme Credit Card
Company intenioneaz sa lanseze o noua asigurare de via. Pentru a lua o decizie corect se
recurge la informaiile din promoia precedent. Materialul promoional va fi trimis ca si

63

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
component a cartelei de credit, acelora care au cartela de credit cu o balan pozitiv. Se vor
utiliza tehnicile de data mining pentru a trimite propunerile de asigurare acelor persoane care
nu au soldul cartelei de credit pozitiv dar care sunt interesai de avantajul promoiei. Scopul
este de a gsi un profil individual a celor care pot obine o asigurare de via.
Baza de date pentru persoanele care au cartela de credit
Income

Magazine

Watch
Promotion

Life
Insurance
Promotion

Credit
Card
Insurance

Range
($)
4050K
3040K
4050K
3040K
5060K
2030K
3040K
2030K
3040K
3040K
4050K
2030K
5060K
4050K
2030K

Promotion

Sex

Yes
Yes
No
Yes
Yes
No
Yes
No
Yes
Yes
No
No
Yes
No
No

No
Yes
No
Yes
No
No
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No

No
Yes
No
Yes
Yes
No
Yes
No
No
Yes
Yes
Yes
Yes
No
Yes

No
No
No
Yes
No
No
Yes
No
No
No
No
No
No
No
Yes

Male
Female
Male
Male
Female
Female
Male
Male
Male
Female
Female
Male
Female
Male
Female

Age
45
40
42
43
38
55
35
27
43
41
43
29
39
55
19

In urma partiionrii setului de obiecte au rezultat un numr de 3 clusteri. Dintre cele


3 partiionri se alege cluster-ul 3 in care sunt prezente cele mai multe persoane care au o
asigurare de via.
Cluster 1

Cluster 2

64

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means

Utiliznd obiectele din acest cluster se poate gsi o machet (printr-o regul de asociere) ce
va defini profilul celor care au cumprat o asigurare de via. Regula este urmtoarea:
IF Sex = Female & 43 >= Age >= 35 & Credit Card Insurance = No
THEN Class = 3

Rule Accuracy: 100.00%


Rule Coverage: 66.67%

5.2. Msuri de calitate a gruprilor


Calitatea unei operaii de grupare va depinde att de masurile de similaritate
disimilaritate utilizate, ct si de metoda care implementeaz aceste masuri de calitate.
Calitatea unei grupri este de asemenea msurat prin posibilitatea de descoperi una sau mai
multe machetele care caracterizeaz global fiecare din gruprile detectate.
Se utilizeaz dou noiuni
Masuri de similaritate a cror rol este de a stabili apartenena unui element la o
grupare
Masuri de disimilaritate a cror rol este de stabili un criteriu de neapartenen a
unui element la o grupare

Similaritate si disimilaritate intre obiecte


Distantele sunt utilizate in mod normal pentru a msura similaritatea sau
disimilaritatea intre doua seturi de obiecte. Astfel d(i, j) va defini distana ntre dou obiecte i
respectiv j.
Fiecare dintre aceste obiecte va fi caracterizat de un set de atribute.
De exemplu
i = (xi1, xi2, , xip) si
j = (xj1, xj2, , xjp)
sunt doua p-dimensional obiecte

65

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
Setul de date in contextual acestui mod de reprezentare, supuse operaiei de detectare
a grupurilor se vor putea reprezenta matricial in doua moduri:
x
11
...
x
i1
...

xn1

... x
1f
... ...
...

x
if
... ...
... x
nf

d(2,1)

d(3,1) d (3,2) 0

:
:
:

d ( n,1) d (n,2) ... ... 0

... x
1p
... ...
... x
ip
... ...

... x
np

(1) Matrice de obiecte


- n obiecte fiecare are
- p atribute

(2) Matrice de disimilaritate


- d(i j) reprezint distana dintre obiectul i si j

Observaie
Matricea de disimilaritate pstreaz o colecie de relaii pentru toate perechile de obiectele,
unde d(i, j) reprezint diferena sau disimilaritatea dintre obiectele i i j. n general d(i; j) este
un numr pozitiv care tinde la zero cnd obiectele i i j sunt foarte similare, i devine mai
mare cu ct obiectele i i j difer.

5.3. Tipuri de date (atribute) in clustering analysis


Exist mai multe tipuri de atribute care pot apare in descrierea unui obiect. Acestea vor
trebui tratate unitar in contextul pstrrii semnificaiei pe care o prezint. Tipurile de atribute
care pot apare sunt
Atribute numerice:
Atribute nominale
Atribute de tip interval:
Atribute mixte
De exemplu
Atribute
Tip
Obiect
Domeniu

1
Numeric
discret
2
[1, 2, 4, 8]

2
Numeric
continuu
4.53
[2, 10]

3
Nominal
red
[red, yellow, blue, green]

Numeric
de tip
interval
[2, 30]
[2, 30]

 Atribute numerice
Acestea pot fi:
a) discrete caz in care sunt definite prin valori distincte. De exemplu atributul xij poate
lua una din valorile [1, 2, 4, 8]

66

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
Ca si masuri de similaritate / disimilaritate pentru aceasta categorie de atribute se
procedeaz la calculul unei distane clasice definite de:
Distanta Minkowski
Aceasta prezint forma generala:

d (i, j) = q (| x x | q + | x x | q +...+ | x x |q )
i1
j1
i2
j2
ip
jp
Care se particularizeaz dup cum urmeaz:

If q = 1, d definete distanta Manhattan

d (i, j) =| x x | + | x x | +...+ | x x |
i1 j1
i2
j2
ip
jp

If q = 2, d defineste distana Euclidian

d (i, j ) = (| x x | 2 + | x x | 2 + ... + | x x | 2 )
i1
j1
i2
j2
ip
jp
Proprieti:

d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) d(i,k) + d(k,j)

b) Continue, caz in care atributele ce caracterizeaz un obiect pot lua valori in domenii
diverse si orice valoare in domeniul in cauza. De exemplu atributul xij poate lua orice
valoare in domeniul [2, 10]. Pentru a asigura punerea in acord a diverse domenii se
procedeaz la normalizarea acestora. Operaia consta in modificarea valorii acestor
atribute in doua etape

(1) Se calculeaz pentru setul de atribute media si dispersia. Operaia se


efectueaz pentru ntregul set de obiecte, pentru fiecare atribut in parte.

s f = 1n (| x1 f m f | + | x2 f m f | +...+ | xnf m f |)
67

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means

unde:

m f = 1n (x1 f + x2 f

+ ... +

xnf )

Avem n obiecte, calculul fiind efectuat pentru atributul f.


(2) Se normalizeaz atributul f din obiectul i de forma:

zif =

xif m f
sf

Se nlocuiete xif cu valoarea zif


Atribute nominale
Atributele nominale sunt variabile care pot lua un set de valori alfabetice de exemplu:
red, yellow, blue, green. Pentru a calcula distana ntre dou obiecte care conin astfel de
variabile se recurge la o simpl operaie de potrivire, care poate fi exprimat prin relaia:


d (i, j) = p pm
unde:
m este numrul de atribute care sunt identice in cele doua obiecte (se potrivesc)
p numrul total de atribute
De exemplu:

Nume
Gen
Febra
Tuse
Test-1
Test-2
M
Da
Nu
P
N
Jack
F
Da
Nu
P
N
Mary
M
Da
Da
N
N
Jim
Distantele intre obiectele din setul specificat sunt de forma:
75
d ( jack , mary ) =
= 0.28
7
75
d ( jack , jim) =
= 0.28
7
73
d ( jim, mary ) =
= 0.57
7

68

Test-3
N
P
N

Test-4
N
N
N

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means


Atribute numerice de tip interval


Acestea pot fi discrete sau continue. Pentru a trata unitar o astfel de situaie se
procedeaz astfel:

f este o variabila numerica


se nlocuiete atributul xif prin domeniul in care acesta ia valori

rif {1,..., M f }

se procedeaz la maparea valorii atributului numeric in intervalul [0, 1]


nlocuind atributul f din obiectul i prin

zif =

rif 1
M f 1

se calculeaz disimilaritatea utiliznd metode pentru variabile numerice

Variabile mixte:
O baza de date (set de obiecte) poate conine toate tipurile de variabile, care se
regsesc in fiecare din obiectele prezente. n aceast situaie, pentru a calcula distana dintre
obiectele i si j se recurge la o relaie de ponderare care s combine efectele prezenei
diferitelor tipuri de atribute de forma


pf = 1 ij( f )dij( f )
d (i, j) =
pf = 1 ij( f )
Unde daca:
f este o variabila nominala :
dij(f) = 0 if xif = xjf , sau dij(f) = 1 in caz contrar

f este o variabila numerica (continua sau discreta) :


Se mapeaza variabila xif in intervalul [0, 1] nlocuind atributul prin

zif

r 1
M 1

rif {1,..., M f }

if

Unde:

f
unde
Se calculeaz distanta dij(f) utiliznd noua valoare zif in contextual relaiilor pentru
variabile numerice.

ij(f) reprezint un factor de poderare prin care se stabilete importana fiecrui atribut
f, din setul de p atribute ce definesc un obiect. Dac toate atributele au aceeai
importan valoare pentru este 1.

69

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means

5.4. Tehnici de cluster analisys


In prezent domeniul cluster analisys face apel la un set de tehnici de detectare a grupurilor
de obiecte prezente intr-un set de date. Aceste tehnici sunt:

Algoritmi de partiionare: Se construiesc si se propun diverse partiii de obiecte


care se evalueaz dup un set de criterii.
Algoritmi ierarhici: Se creeaz o decompoziie ierarhic a unui set de date (sau
obiecte) utiliznd un set de criterii impuse de utilizator.
Algoritmi probabilistici: Sunt bazai pe calculul funciilor de densitate
probabilistice
Algoritmi structurali: Se bazeaz pe analiza structurii obiectelor prezente in setul
de date
Algoritmi de tip model: Se propune un model pentru fiecare din clusteri care se
perfecioneaz

5.4.1. Algoritmi de partiionare. Concepte de baza in cluster analisys..


Aceste tehnici construiesc o partiionare iniiala si apoi folosesc o tehnica iterativ de
relocare ncercnd sa mbunteasc partiionarea prin mutarea obiectelor dintr-un grup in
altul. Iteraia este terminata in momentul in care algoritmul reuete sa clasifice data in k de
obiecte, dndu-se o baza de date de n obiecte; fiecare partiie reprezint un cluster i k<=n,
deci se clasific data n k grupuri care satisfac urmtoarele condiii:
- Fiecare grup trebuie s conin cel puin un obiect
- Fiecare obiect trebuie s aparin unui singur grup
Criteriul general pentru o bun partiionare const n faptul ca obiectele din acelai cluster
sunt apropiate sau asemntoare unele cu altele, n timp ce obiectele din clusteri diferite
sunt distante sau foarte diferite. Exist de asemenea multe alte criterii pentru analiza
calitii partiiilor. Tehnicile de clusterizare bazate pe partiionare necesit enumerarea
tuturor partiionrilor posibile pentru obinerea optimului global dar n aplicaii se adopt
metodele populare euristice.

Metoda de partiionare: Fiind data o baza de date D din n obiecte se cere


construirea unei partiii format dintr-un numr de k clusteri
Sunt prezente un numr de dou metode:

Metode euristice: algoritmi k-means si k-medoids algorithms


k-means (MacQueen67): Fiecare grup este reprezentat de centrul cluster-ului
k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw87):
Fiecare cluster este reprezentat de unul din obiectele din cluster

70

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means

Tehnicile K-Means : tehnici bazate pe Centroid


Acestea primesc ca parametrul de intrare, k, i partiioneaz un set de n obiecte n k
clusteri astfel nct, la final similaritatea din interiorul clusterilor este ridicat iar similaritatea
dintre clusteri este sczut [17]. Similaritatea clusterilor este msurat n raport cu valoarea
medie a obiectelor dintr-un cluster, care poate fi vzut ca centru de greutate al clusterului.
Modul de funcionare al acestui algoritm este urmtorul:

Algoritmul K-Means

1.
2.

3.
4.

Fiind dat k, algoritmul k-means implementeaz partiionarea setului de date (obiecte)


in 4 pai:
Partiioneaz obiectele in k subseturi nevide
Calculeaz centrul de greutate a fiecrui cluster din prezenta partiie. Centrul de
greutate este un obiect generic ce caracterizeaz toate obiectele din clusterul pe care l
reprezint.
Atribuie fiecare obiect din setul de date la clusterul care prezint cel mai apropiat
centru de greutate
Se reia pasul 2, stop cnd nu mai este nimic de atribuit.

Exemplu

71

DATA MINING

CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means

Comentarii
Avantaje
Relativ eficient: O(tkn), unde n sunt obiecte, k reprezint clusteri, si t este
numrul de iteraii. Normal, k, t << n.
Se termin adesea intr-un optim local. Optimul global poate fi gsit utiliznd
tehnici ca: deterministic annealing si genetic algoritm
Dezavantaje
Aplicabil numai cnd se poate construi un centru de greutate al cluster-ului.
Pentru cazul atributelor nominale apar dificulti datorita imposibilitii definiri
atributelor nominale pentru obiectul ce reprezint centrul clasei.
Se impune cunoaterea in avans a lui k
Nu poate funciona corect, atunci cnd apar zgomote definite prin obiecte care
sunt foarte dispersate
Introduce erori, ca urmare a faptului ca toate clusterele detectate sunt convexe.
Nu poate crea clusteri concave.

72

S-ar putea să vă placă și