Documente Academic
Documente Profesional
Documente Cultură
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
5. Gruparea
5.1. Concepte de baz n cluster analysis.
Gruparea (Cluster analysis) reprezint o tehnic de mprire a unui set de date pentru
care nu exista nici o clas pre definita intr-un set de clase - grupuri. Fiecare dintre aceste
clase este definita de un model prototip care poate fi un obiect abstract sau cel mai
reprezentativ obiect al clasei. Deci spre deosebire de clasificare unde se atribuie un element
la un set de clase cunoscut, de data aceasta se procedeaz la gsirea claselor care sunt
prezente intr-un set de date (obiecte). n contextul acestui scop, tehnicile de grupare opereaz
prin gsirea similaritilor dintre date, n conformitate cu caracteristicile prezente in datele
analizate. Grupurile sunt numite clusteri (clusters). Civa autori au privit gruparea ca un tip
special de clasificare.
Multe definiii au fost propuse pentru grupare i anume:
Distana dintre punctele aparinnd unei grupri este mai mic dect distana dintre
un punct din interiorul gruprii i altul din afara gruprii.
Avnd:
baz de date de tupluri D = {t1 , t 2 ,..., t n } i
o valoare ntreag k,
Exemplu
Pentru a ilustra utilitatea tehnicii de grupare, vom presupune ca Acme Credit Card
Company intenioneaz sa lanseze o noua asigurare de via. Pentru a lua o decizie corect se
recurge la informaiile din promoia precedent. Materialul promoional va fi trimis ca si
63
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
component a cartelei de credit, acelora care au cartela de credit cu o balan pozitiv. Se vor
utiliza tehnicile de data mining pentru a trimite propunerile de asigurare acelor persoane care
nu au soldul cartelei de credit pozitiv dar care sunt interesai de avantajul promoiei. Scopul
este de a gsi un profil individual a celor care pot obine o asigurare de via.
Baza de date pentru persoanele care au cartela de credit
Income
Magazine
Watch
Promotion
Life
Insurance
Promotion
Credit
Card
Insurance
Range
($)
4050K
3040K
4050K
3040K
5060K
2030K
3040K
2030K
3040K
3040K
4050K
2030K
5060K
4050K
2030K
Promotion
Sex
Yes
Yes
No
Yes
Yes
No
Yes
No
Yes
Yes
No
No
Yes
No
No
No
Yes
No
Yes
No
No
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
No
Yes
No
Yes
Yes
No
Yes
No
No
Yes
Yes
Yes
Yes
No
Yes
No
No
No
Yes
No
No
Yes
No
No
No
No
No
No
No
Yes
Male
Female
Male
Male
Female
Female
Male
Male
Male
Female
Female
Male
Female
Male
Female
Age
45
40
42
43
38
55
35
27
43
41
43
29
39
55
19
Cluster 2
64
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
Utiliznd obiectele din acest cluster se poate gsi o machet (printr-o regul de asociere) ce
va defini profilul celor care au cumprat o asigurare de via. Regula este urmtoarea:
IF Sex = Female & 43 >= Age >= 35 & Credit Card Insurance = No
THEN Class = 3
65
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
Setul de date in contextual acestui mod de reprezentare, supuse operaiei de detectare
a grupurilor se vor putea reprezenta matricial in doua moduri:
x
11
...
x
i1
...
xn1
... x
1f
... ...
...
x
if
... ...
... x
nf
d(2,1)
d(3,1) d (3,2) 0
:
:
:
... x
1p
... ...
... x
ip
... ...
... x
np
Observaie
Matricea de disimilaritate pstreaz o colecie de relaii pentru toate perechile de obiectele,
unde d(i, j) reprezint diferena sau disimilaritatea dintre obiectele i i j. n general d(i; j) este
un numr pozitiv care tinde la zero cnd obiectele i i j sunt foarte similare, i devine mai
mare cu ct obiectele i i j difer.
1
Numeric
discret
2
[1, 2, 4, 8]
2
Numeric
continuu
4.53
[2, 10]
3
Nominal
red
[red, yellow, blue, green]
Numeric
de tip
interval
[2, 30]
[2, 30]
Atribute numerice
Acestea pot fi:
a) discrete caz in care sunt definite prin valori distincte. De exemplu atributul xij poate
lua una din valorile [1, 2, 4, 8]
66
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
Ca si masuri de similaritate / disimilaritate pentru aceasta categorie de atribute se
procedeaz la calculul unei distane clasice definite de:
Distanta Minkowski
Aceasta prezint forma generala:
d (i, j) = q (| x x | q + | x x | q +...+ | x x |q )
i1
j1
i2
j2
ip
jp
Care se particularizeaz dup cum urmeaz:
d (i, j) =| x x | + | x x | +...+ | x x |
i1 j1
i2
j2
ip
jp
d (i, j ) = (| x x | 2 + | x x | 2 + ... + | x x | 2 )
i1
j1
i2
j2
ip
jp
Proprieti:
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) d(i,k) + d(k,j)
b) Continue, caz in care atributele ce caracterizeaz un obiect pot lua valori in domenii
diverse si orice valoare in domeniul in cauza. De exemplu atributul xij poate lua orice
valoare in domeniul [2, 10]. Pentru a asigura punerea in acord a diverse domenii se
procedeaz la normalizarea acestora. Operaia consta in modificarea valorii acestor
atribute in doua etape
s f = 1n (| x1 f m f | + | x2 f m f | +...+ | xnf m f |)
67
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
unde:
m f = 1n (x1 f + x2 f
+ ... +
xnf )
zif =
xif m f
sf
d (i, j) = p pm
unde:
m este numrul de atribute care sunt identice in cele doua obiecte (se potrivesc)
p numrul total de atribute
De exemplu:
Nume
Gen
Febra
Tuse
Test-1
Test-2
M
Da
Nu
P
N
Jack
F
Da
Nu
P
N
Mary
M
Da
Da
N
N
Jim
Distantele intre obiectele din setul specificat sunt de forma:
75
d ( jack , mary ) =
= 0.28
7
75
d ( jack , jim) =
= 0.28
7
73
d ( jim, mary ) =
= 0.57
7
68
Test-3
N
P
N
Test-4
N
N
N
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
rif {1,..., M f }
zif =
rif 1
M f 1
Variabile mixte:
O baza de date (set de obiecte) poate conine toate tipurile de variabile, care se
regsesc in fiecare din obiectele prezente. n aceast situaie, pentru a calcula distana dintre
obiectele i si j se recurge la o relaie de ponderare care s combine efectele prezenei
diferitelor tipuri de atribute de forma
pf = 1 ij( f )dij( f )
d (i, j) =
pf = 1 ij( f )
Unde daca:
f este o variabila nominala :
dij(f) = 0 if xif = xjf , sau dij(f) = 1 in caz contrar
zif
r 1
M 1
rif {1,..., M f }
if
Unde:
f
unde
Se calculeaz distanta dij(f) utiliznd noua valoare zif in contextual relaiilor pentru
variabile numerice.
ij(f) reprezint un factor de poderare prin care se stabilete importana fiecrui atribut
f, din setul de p atribute ce definesc un obiect. Dac toate atributele au aceeai
importan valoare pentru este 1.
69
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
70
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
Algoritmul K-Means
1.
2.
3.
4.
Exemplu
71
DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
Comentarii
Avantaje
Relativ eficient: O(tkn), unde n sunt obiecte, k reprezint clusteri, si t este
numrul de iteraii. Normal, k, t << n.
Se termin adesea intr-un optim local. Optimul global poate fi gsit utiliznd
tehnici ca: deterministic annealing si genetic algoritm
Dezavantaje
Aplicabil numai cnd se poate construi un centru de greutate al cluster-ului.
Pentru cazul atributelor nominale apar dificulti datorita imposibilitii definiri
atributelor nominale pentru obiectul ce reprezint centrul clasei.
Se impune cunoaterea in avans a lui k
Nu poate funciona corect, atunci cnd apar zgomote definite prin obiecte care
sunt foarte dispersate
Introduce erori, ca urmare a faptului ca toate clusterele detectate sunt convexe.
Nu poate crea clusteri concave.
72