Documente Academic
Documente Profesional
Documente Cultură
=
= =
j
n
j
i j i
g j d p I
1
2
k 1, i ) , ( , unde p
j
este ponderea
individului j;
- ineria intraclase este:
=
=
k
i
i W
I I
1
i
, unde I
i
este ponderea clasei i;
- ineria interclase este
=
=
k
i
i i B
g g d I
1
2
) , ( , unde g este centrul de greutate al
ntregului nor de puncte;
- ineria total a norului de puncte: I = I
W
+ I
B
.
Pentru a obine n medie clase omogene, un criteriu de clasificare ar consta n cutarea
acelei partiii n k clase, pentru care ineria intraclase este minim iar cea interclase este
maxim. Acest criteriu presupune cunoaterea apriori a numrului de clase. Compararea a
dou partiii cu numr de clase diferit, nu este posibil, deoarece cea mai bun partiie n k
clase va avea o inerie intraclase superioar oricrei partiii de k+1 clase, iar la limit, cea mai
bun partiie este cea trivial, n care fiecare individ formeaz o clas (n acest caz I
W
= 0
pentru c fiecare individ este propriul su centru de greutate).
Un algoritm foarte des folosit pentru clasificarea neierarhic este metoda centrelor
mobile (a lui Forgy) care presupune parcurgerea urmtoarelor etape:
Se aleg k puncte distincte din mulimea X, notate cu c
1
, c
2
, ..., c
k
i se mparte
mulimea X n k clase astfel:
{ } 1,k i i l , 1,n l c x d c x d X x X
l i c
i
= = = < e = , ), , ( ) , (
n cazul n care ) , ( ) , (
2 1
i i
c x d c x d = , punctul x este repartizat aleator uneia dintre
clasele pentru care s-a obinut egalitatea.
Se determin centele de greutate ale partiiei { }
k i
c
i
X
, 1 =
, notate cu { }
k i i
g
, 1 =
;
Pentru aceast partiie se determin ineria intraclase. n cazul n care aceasta nu se
micoreaz semnificativ comparativ cu ineria partiiei obinute n iteraia anterioar (se d c
un prag sub care ameliorarea ineriei intraclase este considerat nesemnificativ), sau n cazul
n care numrul de iteraii a depit un prag admis N algoritmul se oprete, iar clasele obinute
sunt partiia { }
k i
c
i
X
, 1 =
. n caz contrar, algoritmul se reia, considernd punctele c
1
, c
2
, ..., c
k
,
centrele de greutate
{ }
k i i
g
, 1 =
.
Acest algoritm se demonstreaz c este convergent ntr-un numr finit de pai.
4
Mai
mult chiar, s-a observat c el converge rapid, acesta fiind unul din avantajele majore ale
metodei.
Un alt avantaj al metodei este faptul c la fiecare pas este necesar calculul a n k
distane, dintre cei n indivizi i cele k centre de greutate, nefiind necesar memorarea
tabelului cu cele n(n-1)/2 distane dintre cei n indivizi.
Printre dezavantajele majore ale metodei sunt i urmtoarele: trebuie cunoscut apriori
numrul de clase; soluia final depinde de alegerea iniial a punctelor; datele trebuie s fie
msurate pe o scal numeric.
Pentru nlturarea acestor dezavantaje, algoritmul centrelor mobile a fost adaptat
acestor situaii. Spre exemplu, n cazul n care datele sunt cardinale, n locul distenei
euclidiene se pot folosi diverse msuri de disimilaritate, cea mai utilizat fiind distana _
2
.
5
Pentru a nltura dependena metodei centrelor mobile de alegerea punctelor iniiale,
Diday a propus utilizarea n locul centrelor de greutate, pentru descrierea claselor, a unor nori
de puncte (o ax principal, un nor n jurul centrului de greutate etc.).
6
4
E. Forgy - Cluster analysis of multivariate data: Eciency vs. interpretability of classi cations. Biometrics,
21(3):768, 1965
5
Zhexue Huang and colab.- An Interactive Approach to Building Classification Models by Clustering and
Cluster Validation. IDEAL 2000: 23-28
6
E. Diday, J. Lemaire, J. Pouget, F. Testu - Elements danalyse de donnes, Dunod, Paris, 1983