Grupare DM Cap 5a

DATA MINING
CLUSTER ANALYSIS.
Masuri de Similaritate/Disimilaritate. Algoritmul K-Means
5. Gruparea
5.1. Concepte de baz n cluster analysis.
Gruparea (Cluster analysis) reprezint o tehnic de mprire a unui set de date pentru
care nu exista nici o clas pre definita intr-un set de clase - grupuri. Fiecare dintre aceste
clase este definita de un model prototip care poate fi un obiect abstract sau cel mai
reprezentativ obiect al clasei. Deci spre deosebire de clasificare unde se atribuie un element
la un set de clase cunoscut, de data aceasta se procedeaz la gsirea claselor care sunt
prezente intr-un set de date (obiecte). n contextul acestui scop, tehnicile de grupare opereaz
prin gsirea similaritilor dintre date, n conformitate cu caracteristicile prezente in datele
analizate. Grupurile sunt numite clusteri (clusters). Civa autori au privit gruparea ca un tip
special de clasificare.
Multe definiii au fost propuse pentru grupare i anume:
Set de elemente asemntoare (similare) cu elementele din interiorul aceluiai

cluster. Elementele din diferite grupri nu sunt asemntoare.
Distana dintre punctele aparinnd unei grupri este mai mic dect distana dintre
un punct din interiorul gruprii i altul din afara gruprii.
Ca si tehnic grupare reprezint o clasificare nesupervizata deoarece nu exista seturi

predefinite de clase
Problema gruprii din punct de vedere teoretic poate fi definit astfel:
Avnd:
baz de date de tupluri D = {t1 , t 2 ,..., t n } i
o valoare ntreag k,
problema gruprii este definirea unei mapri

f : D {1,..., k} ,
unde fiecare tuplu ti este asignat unui grup (cluster) Kj, 1 j k .
Un grup Kj, conine acele tupluri care au fost mapate n el;
adic K j = t i f (t i ) = K j ,1 i n i ti D.
Exemplu
Pentru a ilustra utilitatea tehnicii de grupare, vom presupune ca Acme Credit Card
Company intenioneaz sa lanseze o noua asigurare de via. Pentru a lua o decizie corect se
recurge la informaiile din promoia precedent. Materialul promoional va fi trimis ca si
63
DATA MINING
CLUSTER ANALYSIS.
component a cartelei de credit, acelora care au cartela de credit cu o balan pozitiv. Se vor
utiliza tehnicile de data mining pentru a trimite propunerile de asigurare acelor persoane care
nu au soldul cartelei de credit pozitiv dar care sunt interesai de avantajul promoiei. Scopul
este de a gsi un profil individual a celor care pot obine o asigurare de via.
Baza de date pentru persoanele care au cartela de credit
Income
Magazine
Watch
Promotion
Life
Insurance
Promotion
Credit
Card
Insurance
Range
($)
4050K
3040K
4050K
3040K
5060K
2030K
3040K
2030K
3040K
3040K
4050K
2030K
5060K
4050K
2030K
Promotion
Sex
Yes
Yes
No
Yes
Yes
No
Yes
No
Yes
Yes
No
No
Yes
No
No
No
Yes
No
Yes
No
No
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
No
Yes
No
Yes
Yes
No
Yes
No
No
Yes
Yes
Yes
Yes
No
Yes
No
No
No
Yes
No
No
Yes
No
No
No
No
No
No
No
Yes
Male
Female
Male
Male
Female
Female
Male
Male
Male
Female
Female
Male
Female
Male
Female
Age
45
40
42
43
38
55
35
27
43
41
43
29
39
55
19
In urma partiionrii setului de obiecte au rezultat un numr de 3 clusteri. Dintre cele

3 partiionri se alege cluster-ul 3 in care sunt prezente cele mai multe persoane care au o
asigurare de via.
Cluster 1
Cluster 2
64
DATA MINING
CLUSTER ANALYSIS.
Utiliznd obiectele din acest cluster se poate gsi o machet (printr-o regul de asociere) ce
va defini profilul celor care au cumprat o asigurare de via. Regula este urmtoarea:
IF Sex = Female & 43 >= Age >= 35 & Credit Card Insurance = No
THEN Class = 3
Rule Accuracy: 100.00%

Rule Coverage: 66.67%
5.2. Msuri de calitate a gruprilor

Calitatea unei operaii de grupare va depinde att de masurile de similaritate
disimilaritate utilizate, ct si de metoda care implementeaz aceste masuri de calitate.
Calitatea unei grupri este de asemenea msurat prin posibilitatea de descoperi una sau mai
multe machetele care caracterizeaz global fiecare din gruprile detectate.
Se utilizeaz dou noiuni
Masuri de similaritate a cror rol este de a stabili apartenena unui element la o
grupare
Masuri de disimilaritate a cror rol este de stabili un criteriu de neapartenen a
unui element la o grupare
Similaritate si disimilaritate intre obiecte

Distantele sunt utilizate in mod normal pentru a msura similaritatea sau
disimilaritatea intre doua seturi de obiecte. Astfel d(i, j) va defini distana ntre dou obiecte i
respectiv j.
Fiecare dintre aceste obiecte va fi caracterizat de un set de atribute.
De exemplu
i = (xi1, xi2, , xip) si
j = (xj1, xj2, , xjp)
sunt doua p-dimensional obiecte
65
DATA MINING
CLUSTER ANALYSIS.
Setul de date in contextual acestui mod de reprezentare, supuse operaiei de detectare
a grupurilor se vor putea reprezenta matricial in doua moduri:
x
11
...
x
i1
...
xn1
... x
1f
... ...
...
x
if
... ...
... x
nf
d(2,1)
d(3,1) d (3,2) 0
:
:
:
d ( n,1) d (n,2) ... ... 0
... x
1p
... ...
... x
ip
... ...
... x
np
(1) Matrice de obiecte

- n obiecte fiecare are
- p atribute
(2) Matrice de disimilaritate

- d(i j) reprezint distana dintre obiectul i si j
Observaie
Matricea de disimilaritate pstreaz o colecie de relaii pentru toate perechile de obiectele,
unde d(i, j) reprezint diferena sau disimilaritatea dintre obiectele i i j. n general d(i; j) este
un numr pozitiv care tinde la zero cnd obiectele i i j sunt foarte similare, i devine mai
mare cu ct obiectele i i j difer.
5.3. Tipuri de date (atribute) in clustering analysis

Exist mai multe tipuri de atribute care pot apare in descrierea unui obiect. Acestea vor
trebui tratate unitar in contextul pstrrii semnificaiei pe care o prezint. Tipurile de atribute
care pot apare sunt
Atribute numerice:
Atribute nominale
Atribute de tip interval:
Atribute mixte
De exemplu
Atribute
Tip
Obiect
Domeniu
1
Numeric
discret
2
[1, 2, 4, 8]
2
Numeric
continuu
4.53
[2, 10]
3
Nominal
red
[red, yellow, blue, green]
Numeric
de tip
interval
[2, 30]
[2, 30]
Atribute numerice
Acestea pot fi:
a) discrete caz in care sunt definite prin valori distincte. De exemplu atributul xij poate
lua una din valorile [1, 2, 4, 8]
66
DATA MINING
CLUSTER ANALYSIS.
Ca si masuri de similaritate / disimilaritate pentru aceasta categorie de atribute se
procedeaz la calculul unei distane clasice definite de:
Distanta Minkowski
Aceasta prezint forma generala:
d (i, j) = q (| x x | q + | x x | q +...+ | x x |q )
i1
j1
i2
j2
ip
jp
Care se particularizeaz dup cum urmeaz:
If q = 1, d definete distanta Manhattan
d (i, j) =| x x | + | x x | +...+ | x x |
i1 j1
i2
j2
ip
jp
If q = 2, d defineste distana Euclidian
d (i, j ) = (| x x | 2 + | x x | 2 + ... + | x x | 2 )
i1
j1
i2
j2
ip
jp
Proprieti:
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) d(i,k) + d(k,j)
b) Continue, caz in care atributele ce caracterizeaz un obiect pot lua valori in domenii
diverse si orice valoare in domeniul in cauza. De exemplu atributul xij poate lua orice
valoare in domeniul [2, 10]. Pentru a asigura punerea in acord a diverse domenii se
procedeaz la normalizarea acestora. Operaia consta in modificarea valorii acestor
atribute in doua etape
(1) Se calculeaz pentru setul de atribute media si dispersia. Operaia se

efectueaz pentru ntregul set de obiecte, pentru fiecare atribut in parte.
s f = 1n (| x1 f m f | + | x2 f m f | +...+ | xnf m f |)
67
DATA MINING
CLUSTER ANALYSIS.
unde:
m f = 1n (x1 f + x2 f
+ ... +
xnf )
Avem n obiecte, calculul fiind efectuat pentru atributul f.

(2) Se normalizeaz atributul f din obiectul i de forma:
zif =
xif m f
sf
Se nlocuiete xif cu valoarea zif

Atribute nominale
Atributele nominale sunt variabile care pot lua un set de valori alfabetice de exemplu:
red, yellow, blue, green. Pentru a calcula distana ntre dou obiecte care conin astfel de
variabile se recurge la o simpl operaie de potrivire, care poate fi exprimat prin relaia:
d (i, j) = p pm
unde:
m este numrul de atribute care sunt identice in cele doua obiecte (se potrivesc)
p numrul total de atribute
De exemplu:
Nume
Gen
Febra
Tuse
Test-1
Test-2
M
Da
Nu
P
N
Jack
F
Da
Nu
P
N
Mary
M
Da
Da
N
N
Jim
Distantele intre obiectele din setul specificat sunt de forma:
75
d ( jack , mary ) =
= 0.28
7
75
d ( jack , jim) =
= 0.28
7
73
d ( jim, mary ) =
= 0.57
7
68
Test-3
N
P
N
Test-4
N
N
N
DATA MINING
CLUSTER ANALYSIS.
Atribute numerice de tip interval

Acestea pot fi discrete sau continue. Pentru a trata unitar o astfel de situaie se
procedeaz astfel:
f este o variabila numerica

se nlocuiete atributul xif prin domeniul in care acesta ia valori
rif {1,..., M f }
se procedeaz la maparea valorii atributului numeric in intervalul [0, 1]

nlocuind atributul f din obiectul i prin
zif =
rif 1
M f 1
se calculeaz disimilaritatea utiliznd metode pentru variabile numerice
Variabile mixte:
O baza de date (set de obiecte) poate conine toate tipurile de variabile, care se
regsesc in fiecare din obiectele prezente. n aceast situaie, pentru a calcula distana dintre
obiectele i si j se recurge la o relaie de ponderare care s combine efectele prezenei
diferitelor tipuri de atribute de forma
pf = 1 ij( f )dij( f )
d (i, j) =
pf = 1 ij( f )
Unde daca:
f este o variabila nominala :
dij(f) = 0 if xif = xjf , sau dij(f) = 1 in caz contrar
f este o variabila numerica (continua sau discreta) :

Se mapeaza variabila xif in intervalul [0, 1] nlocuind atributul prin
zif
r 1
M 1
rif {1,..., M f }
if
Unde:
f
unde
Se calculeaz distanta dij(f) utiliznd noua valoare zif in contextual relaiilor pentru
variabile numerice.
ij(f) reprezint un factor de poderare prin care se stabilete importana fiecrui atribut
f, din setul de p atribute ce definesc un obiect. Dac toate atributele au aceeai
importan valoare pentru este 1.
69
DATA MINING
CLUSTER ANALYSIS.
5.4. Tehnici de cluster analisys

In prezent domeniul cluster analisys face apel la un set de tehnici de detectare a grupurilor
de obiecte prezente intr-un set de date. Aceste tehnici sunt:
Algoritmi de partiionare: Se construiesc si se propun diverse partiii de obiecte

care se evalueaz dup un set de criterii.
Algoritmi ierarhici: Se creeaz o decompoziie ierarhic a unui set de date (sau
obiecte) utiliznd un set de criterii impuse de utilizator.
Algoritmi probabilistici: Sunt bazai pe calculul funciilor de densitate
probabilistice
Algoritmi structurali: Se bazeaz pe analiza structurii obiectelor prezente in setul
de date
Algoritmi de tip model: Se propune un model pentru fiecare din clusteri care se
perfecioneaz
5.4.1. Algoritmi de partiionare. Concepte de baza in cluster analisys..

Aceste tehnici construiesc o partiionare iniiala si apoi folosesc o tehnica iterativ de
relocare ncercnd sa mbunteasc partiionarea prin mutarea obiectelor dintr-un grup in
altul. Iteraia este terminata in momentul in care algoritmul reuete sa clasifice data in k de
obiecte, dndu-se o baza de date de n obiecte; fiecare partiie reprezint un cluster i k<=n,
deci se clasific data n k grupuri care satisfac urmtoarele condiii:
- Fiecare grup trebuie s conin cel puin un obiect
- Fiecare obiect trebuie s aparin unui singur grup
Criteriul general pentru o bun partiionare const n faptul ca obiectele din acelai cluster
sunt apropiate sau asemntoare unele cu altele, n timp ce obiectele din clusteri diferite
sunt distante sau foarte diferite. Exist de asemenea multe alte criterii pentru analiza
calitii partiiilor. Tehnicile de clusterizare bazate pe partiionare necesit enumerarea
tuturor partiionrilor posibile pentru obinerea optimului global dar n aplicaii se adopt
metodele populare euristice.
Metoda de partiionare: Fiind data o baza de date D din n obiecte se cere

construirea unei partiii format dintr-un numr de k clusteri
Sunt prezente un numr de dou metode:
Metode euristice: algoritmi k-means si k-medoids algorithms

k-means (MacQueen67): Fiecare grup este reprezentat de centrul cluster-ului
k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw87):
Fiecare cluster este reprezentat de unul din obiectele din cluster
70
DATA MINING
CLUSTER ANALYSIS.
Tehnicile K-Means : tehnici bazate pe Centroid

Acestea primesc ca parametrul de intrare, k, i partiioneaz un set de n obiecte n k
clusteri astfel nct, la final similaritatea din interiorul clusterilor este ridicat iar similaritatea
dintre clusteri este sczut [17]. Similaritatea clusterilor este msurat n raport cu valoarea
medie a obiectelor dintr-un cluster, care poate fi vzut ca centru de greutate al clusterului.
Modul de funcionare al acestui algoritm este urmtorul:
Algoritmul K-Means
1.
2.
3.
4.
Fiind dat k, algoritmul k-means implementeaz partiionarea setului de date (obiecte)

in 4 pai:
Partiioneaz obiectele in k subseturi nevide
Calculeaz centrul de greutate a fiecrui cluster din prezenta partiie. Centrul de
greutate este un obiect generic ce caracterizeaz toate obiectele din clusterul pe care l
reprezint.
Atribuie fiecare obiect din setul de date la clusterul care prezint cel mai apropiat
centru de greutate
Se reia pasul 2, stop cnd nu mai este nimic de atribuit.
Exemplu
71
DATA MINING
CLUSTER ANALYSIS.
Comentarii
Avantaje
Relativ eficient: O(tkn), unde n sunt obiecte, k reprezint clusteri, si t este
numrul de iteraii. Normal, k, t << n.
Se termin adesea intr-un optim local. Optimul global poate fi gsit utiliznd
tehnici ca: deterministic annealing si genetic algoritm
Dezavantaje
Aplicabil numai cnd se poate construi un centru de greutate al cluster-ului.
Pentru cazul atributelor nominale apar dificulti datorita imposibilitii definiri
atributelor nominale pentru obiectul ce reprezint centrul clasei.
Se impune cunoaterea in avans a lui k
Nu poate funciona corect, atunci cnd apar zgomote definite prin obiecte care
sunt foarte dispersate
Introduce erori, ca urmare a faptului ca toate clusterele detectate sunt convexe.
Nu poate crea clusteri concave.
72

Grupare DM Cap 5a

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Grupare DM Cap 5a

Încărcat de

Drepturi de autor:

Formate disponibile

DATA MINING

Set de elemente asemntoare (similare) cu elementele din interiorul aceluiai

Ca si tehnic grupare reprezint o clasificare nesupervizata deoarece nu exista seturi

problema gruprii este definirea unei mapri

In urma partiionrii setului de obiecte au rezultat un numr de 3 clusteri. Dintre cele

Rule Accuracy: 100.00%

5.2. Msuri de calitate a gruprilor

Similaritate si disimilaritate intre obiecte

d ( n,1) d (n,2) ... ... 0

(1) Matrice de obiecte

(2) Matrice de disimilaritate

5.3. Tipuri de date (atribute) in clustering analysis

If q = 1, d definete distanta Manhattan

If q = 2, d defineste distana Euclidian

(1) Se calculeaz pentru setul de atribute media si dispersia. Operaia se

Avem n obiecte, calculul fiind efectuat pentru atributul f.

Se nlocuiete xif cu valoarea zif

Atribute numerice de tip interval

f este o variabila numerica

se procedeaz la maparea valorii atributului numeric in intervalul [0, 1]

se calculeaz disimilaritatea utiliznd metode pentru variabile numerice

f este o variabila numerica (continua sau discreta) :

5.4. Tehnici de cluster analisys

Algoritmi de partiionare: Se construiesc si se propun diverse partiii de obiecte

5.4.1. Algoritmi de partiionare. Concepte de baza in cluster analisys..

Metoda de partiionare: Fiind data o baza de date D din n obiecte se cere

Metode euristice: algoritmi k-means si k-medoids algorithms

Tehnicile K-Means : tehnici bazate pe Centroid

Fiind dat k, algoritmul k-means implementeaz partiionarea setului de date (obiecte)

S-ar putea să vă placă și