P. 1
Analiza Cluster

Analiza Cluster

|Views: 45|Likes:
Published by tancuta

More info:

Published by: tancuta on Dec 10, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

12/10/2011

pdf

text

original

Statistică multivariată

Lucrarea nr. 12 — Clasificare - SPSS
A. Noţiuni teoretice
Clasificare
Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în
clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel
care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip
de raţionament este formalizat şi în metodele automate.
Există, în esenţă, două tipuri de clasificare automată:
1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la
un grup pornind de la reguli de clasificare derivate din observaţii
clasificate în prealabil. Se poate ca schema de clasificare existentă să fie
subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele
esenţiale ale schemei şi le transformă în reguli practice.
2. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza
similarităţii lor, nu este cunoscută o grupare prealabilă.
Clasificare predictivă
Considerăm cazul a două populaţii multivariate, Π
1
şi Π
2
, fiecare caracterizată
de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili
populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor
considerate).
Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π
1
şi din Π
2
),
o regulă de clasificare revine la a partiţiona S în A
1
şi A
2
, astfel încât pentru o
observaţie u se poate dezvolta o procedură care decide

dacă u ∈ A
1
, atunci u ∈ Π
1

dacă u ∈ A
2
, atunci u ∈ Π
2
Clasificare predictivă - Fisher
Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre
cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate
au, respectiv, mediile µ
1
, µ
2
şi dispersia comună σ
2
.
Este evident (intuitiv) că o observaţie u va fi clasată în Π
1
dacă u este mai
apropiată de µ
1
şi în Π
2
daca este mai apropiată de µ
2
.
In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme
observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine
atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele
două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în
cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca
rezultat şi funcţiile de clasificare:
Fiecare subpopulaţie, Π
i
, are asociată o funcţie de clasificare f
i
astfel încât
observaţia u este clasată în populaţia Π
j
determinată prin
) ( max ) ( u u
i
i
j
f f =

Definim centrul unei clase (sau centroidul clasei) în mod uzual, ca punctul
având drept componente mediile aritmetice ale componentelor corespunzătoare din
punctele clasei. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o
observaţie (valorile celor m variabile determină un punct în spaţiul R
m
) şi punctele
centrale, centroizii claselor. Distanţele se pot calcula ca distanţe euclidiene, dar, din
păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor:
variabile măsurate pe scale diferite, de ordine de mărime diferite, pot afecta foarte
mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie
cu ponderi mai mici decât cele cu variabilitate mică.
Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi, cea
mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m
variabile, adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis
între punctele x = (x
1
, …, x
m
)′ şi y = (y
1
, …, y
m
) ′, este definită prin
y) (x Σ ) y (x y x,
1
Σ
− ′ − =

) ( d
şi, corespunzător, se defineşte norma unui vector prin
x Σ x' x x
1 −
Σ
Σ
= = ) 0 , ( d
.
Clasificare predictivă – k vecini
Considerăm situaţia clasificării propriu-zise, adică sunt cunoscute n obiecte
prin atributele lor, inclusiv apartenenţa la clasele π
1
, π
2
, …, π
k
, şi se doreşte clasarea
unei noi observaţii.
Un algoritm suficient de des utilizat este acela denumit al celor k vecini
(k - nearest neighbours).
1. Se determină k obiecte cele mai apropiate de noua observaţie.
2. Aceste k obiecte stabilesc clasa noului obiect prin
• Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai
mulţi dintre cei k vecini (care dispun fiecare de un vot întreg).
• Vot invers proporţional distanţei – similar votului majoritar, dar fiecare
dintre cei k vecini apropiaţi dispune de o fracţiune de vot, egală cu
inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai
mult la decizie).
Clasificare descriptivă
In analiza multivariată, clasificarea descriptivă (cluster analysis) se referă la
metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor în care se
utilizează analiza factorială.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii, obiecte,
coloanele sunt variabile, atribute). In plus,
• datele sunt omogene în sensul că are sens calculul distanţelor dintre
elemente
• există suficient de multe date încât simpla inspecţie vizuală sau
prelucrările statistice elementare nu oferă o imagine satisfăcătoare a
structurii datelor
• tabloul de date este amorf: nu există o structurare a priori (dependenţe
funcţionale, relaţii, clasificări cunoscute).
De remarcat că ultima caracteristică este cea care ne depărtează de descrierea
predictivă (unde se presupunea existenţa unei structurări necesare în etapa de
training).
Drept rezultat al clasificării descriptive se obţin grupurile de elemente, clasele
identificate. Deoarece se pot aplica pe aceleaşi structuri de date, metodele clasificării
descriptive sunt complementare metodelor analizei factoriale. De regulă, atunci când
se utilizează împreună, analiza factorială este efectuată mai întâi, clasele evidenţiate
de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptivă.
Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca
urmare a unei suite de operaţii efectuate recursiv sau repetitiv; matematica implicată
este relativ elementară.
Numim clasă (grup, cluster) o mulţime de obiecte (elemente) similare între
ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările
grafice reflectă aceste interpretări)
• Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi
depărtate de punctele din alte clase, sau
• Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate
mare (relativ) de puncte, clusterele fiind separate între ele de regiuni cu o
densitate scăzută (relativ) de puncte.
Rezultă că problema esenţială în determinarea (identificarea) clusterelor este
cea a specificării proximităţii (apropierii, similarităţii) şi cum se determină aceasta.
Este evident că proximitatea este o noţiune dependentă de problema reală cercetată.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
• Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin
atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p.
Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).
• Matricea de proximitate. Elementele d(i,j) reprezintă proximităţile dintre
obiectele i şi j. Proximitatea poate fi
o similaritate (asemănare), cum ar fi coeficientul de corelaţie, sau
o disociere (depărtare, diferenţiere), cum ar fi distanţa euclidiană.
Atunci când atributele sunt de tipuri diferite (atât discrete, cât şi continue), se
poate calcula proximitatea dintre obiectele i şi j prin
] 1 , 0 [ ) , (
1
) (
1
) ( ) (
∈ =


=
=
f
i
f
ij
p
f
f
ij
f
ij
d
j i d
δ
δ

unde
) ( f
ij
δ este ponderea variabilei f
¦
¹
¦
´
¦
= = =
rest in 1
binara , asimetrica este si 0 0
lipsa sau pentru 0
) (
f x x
x x
jf if
jf if
f
ij
δ

Menţionăm că
) ( f
ij
d este contribuţia variabilei f la d(i,j) şi anume:
- dacă f este binară sau nominală, atunci
¹
´
¦ =
=
altfel 1
pentru 0
) ( jf if f
ij
x x
d

(Hamming)
- dacă f este continuă, atunci (normalizare prin amplitudine)
hf
h
hf
h
jf if
f
ij
x x
x x
d
min max
) (


=

- dacă f este ordinală, se atribuie rangul r
if
, se calculează
1 max
1


=
hf
h
if
if
r
r
z
şi se
consideră că f este continuă, având valorile z
if
.

Există mai multe tipuri de algoritmi de clasificare:
- Algoritmi ascendenţi (de agregare, de sinteză) – clasele sunt construite
prin agregarea succesivă a elementelor, se obţine astfel o ierarhie de
partiţii, de clase.
- Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată
succesiv în submulţimi de obiecte din ce în ce mai omogene; se poate
obţine şi aici o ierarhie a partiţiilor.
- Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase)
care se modifică pentru a maximiza omogenitatea fiecărei clase.
Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical
cluster analysis).
Clasificare descriptivă - agregare
Algoritmul fundamental de clasificare ascendentă ierarhică este:
1. Etapa 0 – există cele n elemente care se clasifică;
2. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi
se produce, prin agregarea lor, un nou element;
3. Etapa 2 – există acum n-1 elemente care se clasifică;
4. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se
clasifică are un singur element.
Clasificare descriptivă - divizare
Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă:
1. Se pleacă de la mulţimea totală a elementelor
2. La fiecare pas următor, cea mai “mare” (cea mai eterogenă) grupare este
divizată în două subgrupări.
3. Algoritmul se opreşte atunci când toate grupurile constituite au câte un
singur element.
Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului,
definit ca distanţa maximă dintre două elemente din grup. Evident că se pot utiliza şi
alte metode în acest scop.
Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis):
1. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte
obiecte (cea mai mare disociere). Este obiectul care iniţiază un nou cluster,
S (splinter group).
2. Pentru fiecare obiect i din afara grupului S
a. se calculează
) , ( ) , ( j i d j i d D
j j
i
media media
S S ∈ ∉
− =

b. Se determină un obiect h cu D
h
= max D
i
.
c. Dacă D
h
este pozitiv, atunci obiectul h se adaugă grupului splinter
(este mai apropiat, în medie, de elementele din S).
d. Se repetă a) – c) până ce D
h
este negativ. Mulţimea iniţială este
acum divizată în două clustere.
3. Se selectează clusterul cu cel mai mare diametru. Acesta este divizat prin
paşii 1 – 2.
4. Se repetă 3) până când toate grupurile constituite au un singur element.
Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent,
în care pe axa verticală sunt obiectele, pe axa orizontală se trec diametrele clusterelor.

Clasificare descriptivă - partiţionare
Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se
poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge, prin
migrarea obiectelor între clase, la o partiţie care îndeplineşte un criteriu de optim.
Partiţia finală constituie structura de clustere căutată. De reţinut, totuşi, faptul că nu
există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte.
Metodele de partiţionare sunt utile atunci când există un mare număr de
obiecte, caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte
produc o dendrogramă de neînţeles).
Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care
minimizează suma pătratelor erorilor (apare la distanţa Ward). Eroarea este distanţa
de la un obiect la centrul clusterului său.
Un algoritm general de partiţionare este:
1. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele
clusterelor.
2. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu
centrul cel mai apropiat.
3. Se calculează noile centre ale clusterelor.
4. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se
îmbunătăţeşte criteriul ales.
5. Se ajustează numărul de clustere prin reunirea sau divizarea unor
clustere sau prin eliminarea clusterelor aberante (cu un număr mic de
elemente).
6. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se
îmbunătăţeşte funcţia criteriu.
Elementele importante ale algoritmului sunt comentate în continuare.
Partiţia iniţială
O partiţie iniţială se poate obţine selectând k obiecte, considerându-le centre şi
grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel
mai apropiat). Nu se recalculează centrele după fiecare clasificare a unui element.
Centroizii fiecărui cluster astfel format constituie centrele pentru pasul
următor.
Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o
analiză prealabilă (clasificare ascendentă, analiză în componente principale etc.).
Clusterele iniţiale pot fi date de o clasificare ascendentă, de exemplu. De reţinut,
totuşi, că partiţii iniţiale diferite conduc la clustere finale diferite.
Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor
conduc la atingerea unui optim local, cel puţin dacă grupurile nu sunt bine
diferenţiate. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale
diferite.
• Dacă se ajunge la o aceeaşi partiţie, atunci se măreşte încrederea că s-a
atins un optim global.
• In caz că nu, se pot analiza subgrupurile stabile (elemente care sunt
mereu împreună), care pot oferi informaţii despre numărul de clustere.
Actualizarea partiţiei
Există mai multe moduri de abordare a pasului 2 din metoda generală:
• Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat.
o Centrele se recalculează după fiecare atribuire, sau
o Centrele se recalculează după ce au fost procesate toate obiectele.
• Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu.
Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Se
încearcă astfel evitarea unui optim local.
Ajustarea partiţiei
Se pot defini condiţii pentru reducerea, sau extinderea numărului de clustere.
Se încearcă astfel atingerea unui număr “natural” de clustere, apropiat de gruparea
reală, neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor
sau din alte cauze exterioare.
Algoritmul cel mai cunoscut este, în acest sens, ISODATA (Ball & Hall,
Jensen):
• Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau
dacă distanţa dintre centrele lor este mică (sub un prag fixat).
• Un cluster este divizat dacă dispersia elementelor (după atributul cel mai
dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de
elemente (de exemplu, de două ori mai multe decât numărul minim).
Este de remarcat că existenţa valorilor aberante poate denatura procesul de
clusterizare. Din acest motiv, anumiţi autori recomandă excluderea obiectelor
aberante (şi chiar a celor din clusterele cu puţine elemente).
Convergenţa
Deşi nu se garantează atingerea unui optim global, algoritmul se opreşte atunci
când funcţia criteriu nu mai poate fi îmbunătăţită, sau – în anumite variante – când
partiţia nu se modifică în două iteraţii succesive.
Demonstraţii matematice ale convergenţei au fost bazate
• fie pe formularea problemei ca o problemă de programare matematică,
• fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa
interclase şi se micşorează varianţa intraclase, ceea ce – dată fiind
finitudinea mulţimii de obiecte – produce oprirea procesului.
Clasificare descriptivă – metode fuzzy
In afară de metodele deterministe, au fost dezvoltate şi metode de clasificare
fuzzy. Intr-o metodă fuzzy se obţin, pentru fiecare obiect, probabilităţile ca obiectul să
aparţină la fiecare dintre clustere.
De exemplu, o metodă fuzzy, similară metodei de partiţionare, este metoda
celor c medii (fuzzy c-means), bazată pe minimizarea funcţiei obiectiv
∑∑
= =
=
n
i
c
j
j i
m
ij m
c x d u J
1 1
2
) , (

unde
n - numărul de obiecte, c – numărul de clustere,
m ∈ R , m > 1 este parametru (uzual este 2),
c
j
, j = 1…c sunt centrele clusterelor, d este o distanţă de similaritate, u
ij
este
gradul de apartenenţă al lui i la clusterul j.
Rezultatul este conţinut în matricea de apartenenţă (u
ij
) care oferă
probabilităţile apartenenţei elementelor la clase.
Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv)
prin actualizarea la fiecare pas a matricei de apartenenţă (u
ij
) şi a centrelor clusterelor
(c
j
)

=

|
|
.
|

\
|
=
c
l
m
l i
j i
ij
c x d
c x d
u
1
1
1
2
2
) , (
) , (
1


=
=
=
n
i
m
ij
n
i
i
m
ij
j
u
x u
c
1
1
Procesul se opreşte atunci când matricea de apartenenţă se stabilizează:
ε < −
+ ) ( ) 1 (
,
max
k
ij
k
ij
j i
u u

unde ε ∈ (0, 1) are semnificaţia uzuală în procese iterative similare.
Distanţe între obiecte
În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre
obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distanţe
modifică grupările care se constituie.
Metoda celui mai apropiat vecin (nearest neighbor method)
Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale
grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite)
( ) ) , ( min ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

În imaginea următoare se exemplifică, prin numerotarea 1 … 6 ordinea de
atribuire a elementelor respective la grupurile figurate în extremităţi. Astfel, un lanţ de
obiecte apropiate două câte două este atribuit, de regulă, la un singur grup, ceea ce nu
produce o grupare acceptabilă.

Metoda celui mai depărtat vecin (farthest neighbor method)
Această metodă utilizează calcularea distanţei dintre două grupuri drept
distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai
depărtate elemente din clase diferite)
( ) ) , ( max ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. În
imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor
corespunzătoare la cele două grupuri extreme. Gruparea obţinută corespunde mai bine
şi grupării intuitive (efectuată de un operator uman).

Metoda legăturii medii
Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente
ale grupurilor
( )
∑ ∑
∈ ∈
=
1 2
) , (
1
,
2 1
2 1
π π
π π
x y
y x d
n n
d

Metoda distanţei centrelor (average group linkage)
Se consideră, ca distanţă dintre două grupuri π
1
şi π
2
, distanţa dintre centrele
grupurilor
( ) ) , ( ,
2 1
2 1 π π
π π G G d = d

unde centrele G
π1
şi G
π2
au drept componente mediile aritmetice ale componentelor
elementelor din cele două grupuri, respectiv.
De remarcat că centrul unui grup este dinamic, fiecare nou element putând
produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar
acel element.
Metoda distanţei Ward (Ward's linkage)
Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după
contopirea grupurilor într-unul singur. Metoda Ward selectează grupările care
minimizează creşterea sumei de pătrate a erorilor.
( ) ( ) ) ( ) ( ) ( ,
) (
2 1 2 1 2 1
2
π π π π π π
π
π
π
SP SP SP
x x SP
x
+ − ∪ =
− =


d

Dendrograma
Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma).
Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii
elementelor clasificate. Componentele partiţiei sunt clasele căutate.
În figura alăturată este prezentată o dendogramă. Pe axa orizontală sunt
elementele iniţiale (ordinea este cea care permite desenarea arborelui). Pe axa
verticală sunt distanţele dintre obiecte, de exemplu, între obiectele 4 şi 6 este o
distanţă egală cu 4.


Calitatea clasificării
Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori
(numărul de clase în special), evaluarea calităţii partiţiei obţinute este o etapă foarte
importantă. Evaluarea trebuie să ia în considerare atât faptul că, poate, mulţimea
iniţială nu are o structură bine determinată de clase, cât şi faptul că diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
• Vizualizarea partiţiei (dendrograme, profiluri, proiecţii).
• Indicatori de calitate
o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare
(agglomerative coefficient – AC) care oferă indicatori (medii)
globali.
o Indici de siluetă (Silhouette) care se pot defini atât global, cât şi
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculează d(i) ca fiind
raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare)
la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii
totale de obiecte (clusterul iniţial). Atunci

= ) (
1
i d
n
DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendentă: Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre
disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi
diametrul mulţimii totale de obiecte (clusterul final).
| |

− = ) ( 1
1
i d
n
AC

AC tinde să crească o dată cu numărul de obiecte.
Silueta se calculează (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a
unui cluster, silueta medie globală. Acest indice vrea să reprezinte cât de bine este
separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster
– distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa inter-
clustere).
Prin calculul siluetei se poate decide asupra validităţii unui cluster, ca şi
asupra numărului corect de clustere.
Notând cu S (i) silueta obiectului i, formula de calcul este
} , max{
) (
i i
i i
b a
a b
i S

=

unde a
i
– disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster;
b
i
– disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al
doilea candidat pentru includerea obiectului i).
Dacă obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional,
cu putere de comparare. Interpretarea este
• Dacă S (i) este apropiat de 1, atunci obiectul este bine clasificat (este
asociat cu clusterul adecvat).
• Dacă S (i) este aproape nul, atunci obiectul poate fi clasificat şi în
următorul cluster apropiat (obiectul este situat similar în raport cu ambele
clustere)
• Dacă S (i) este apropiat de –1, atunci obiectul este clasificat eronat (el este
separat faţă de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obţinută ca media siluetelor
elementelor din cluster.
Intreaga structură de clustere este caracterizată de silueta medie globală,
obţinută ca media siluetelor S(i) după toate obiectele i. Dacă structura conţine un
număr k de clustere, se notează silueta medie globală cu S
k
. Silueta medie globală se
poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege
acel k pentru care S
k
este maxim.
Se introduce coeficientul siluetă prin
k
k
S SC max =

Este propusă (Rousseeuw - 1987) următoarea interpretare a coeficientului
siluetă după valoarea sa:
• 0.71 - 1.00 s-a determinat o structură puternică (bine definită) de
clustere;
• 0.51 - 0.70 s-a determinat o structură acceptabilă
• 0.26 - 0.50 structura determinată este slabă, poate fi artificială
• ≤ 0.25 structura determinată este artificială.

B. Instrumente SPSS
Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze –
Classify. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda
generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. De
menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de
calcule, el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor
este importantă. Pentru considerarea altor distanţe se va apela procedura Hierarchical
Cluster.
K-Means Cluster
Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de
clase este cunoscut) şi apoi se repetă etapele:
• atribuirea fiecărui caz la centrul cel mai apropiat,
• actualizarea centrelor ca valori medii ale elementelor aparţinând clasei
respective.
Ca interpretare se poate considera că centrul unei clase finale reflectă
caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru.
Prin Analize – Classify – K-Means Cluster se deschide dialogul

În lista Variables se vor trece variabilele în funcţie de care se face clasificarea.
Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label
Cases by. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a
numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind
diagramele proiecţiilor pe planele factoriale. Ca metodă se poate alege
• Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin
recalcularea centrelor după fiecare iteraţie. Dacă se doreşte utilizarea rezultatelor
şi pentru clasificarea altor cazurii, informaţiile se vor salva într-un fişier prin
selectarea opţiunii Write final as din grupul Cluster Centers.
• Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un
fişier centrele claselor, calculate în prealabil şi salvate. În acest caz se va selecta,
din zona Cluster Centers, Read initial from şi se va preciza File, fişierul salvat
într-o prelucrare anterioară.
Prin acţionarea butonului Iterate din dialogul principal, buton permis doar
pentru metoda Iterate and classify, se deschide dialogul sinonim.
În Maximum Iterations se fixează limita numărului de
iteraţii, cel mult 999. Valoarea dată în Convergence
Criterion reprezintă o proporţie p din distanţa minimă dintre
centrele iniţiale, deci poate fi între 0 şi 1. Procesul iterativ se
opreşte dacă niciun centru recalculat nu este deplasat cu mai
mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei.
Prin selectarea opţiunii Use running means se cere
recalcularea centrelor la fiecare clasare a unui caz şi nu după
clasarea tuturor cazurilor.
Acţionarea butonului Save din dialogul principal
deschide dialogul prin care se poate cere salvarea unor
informaţii ca noi variabile.
Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele
finale. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul
clasei la care aparţine.
Prin dialogul Options, afişat la acţionarea butonului Options din dialogul
principal, se pot preciza statisticile calculate şi modul de tratare a datelor lipsă.
În grupul Statistics:
• Initial cluster centers – prima estimare a centrelor,
obţinută prin alegerea unui număr de cazuri egal cu
numărul de clustere.
• ANOVA table – se afişează tabelul ANOVA pentru
fiecare variabilă, considerând clusterele drept
factor. Valorile F mari vor arăta variabilele care
contribuie cel mai mult la structura clusterelor.
• Cluster information for each case – afişează asignările finale la clase, distanţa la
centrul clasei ca şi distanţele euclidiene dintre centrele finale.
Rezultatele SPSS în cazul K-Means Cluster
Ieşirea depinde de opţiunile selectate în dialogurile procedurii, tabelele listate
în cazul (aproape) complet sunt prezentate în continuare. S-a realizat o clasificare
ilustrativă utilizând fişierul SPSS de test Employee Data.
Centrele iniţiale ale claselor sunt alese aleatoriu, atâtea câte clustere sunt
indicate în dialogul principal. Se prezintă coordonatele centrelor în spaţiul
variabilelor.

Modificările survenite în timpul procesului iterativ sunt sistematizate în
tabloul următor, prezentându-se modificările apărute în coordonatele centrelor.

Centrele claselor finale sunt afişate într-un tabel similar celui care arată
centrele iniţiale:

O verificare mai mult orientativă asupra separării clusterelor după fiecare
variabilă considerată este conţinută în tabelul ANOVA:

Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a
clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor
clusterelor. Se poate însă interpreta comparativ valoarea statisticii F în sensul că
variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată.
Un tabel final arată câte elemente sunt clasificate în fiecare cluster.

Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul
clasei sunt create ca noi variabile cu denumiri implicite, după modelul

Informaţiile salvate pot fi utilizate, în afara scopului propus de a cunoaşte
unde aparţine fiecare observaţie, şi pentru ilustrarea clasificării prin diagrama de
forma următoare, în care se poate observa modul de diferenţiere a claselor după
diverse variabile (comanda a fost Graph - Scatter - Simple Scatter şi s-a precizat
noua variabilă Cluster Number în Set Markers by).

Hierarchical Cluster
Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi
reuneşte clustere până când se obţine un singur cluster. Se pot selecta mai multe
distanţe, se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului
optim de clustere.
Comanda este Analyze – Classify – Hierarchical Cluster care produce
afişarea dialogului principal.

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opţiunii
selectate în grupul Cluster. Variabilele reprezentând caracteristicile după care are loc
clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă
de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice.
Grupul Display controlează ce se afişează, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate în continuare.
Statistics
Agglomeration schedule – se afişează
combinaţiile din fiecare iteraţie, distanţe etc.
Proximity matrix – se afişează distanţele sau
similarităţile dintre elemente. Cluster Membership –
produce afişarea apartenenţei la clustere în una sau
mai multe iteraţii.
Plots
Diagramele de aglomerare sunt disponibile în
formatul
• Dendrogram (dendrograma explicată in curs,
orientată spre vizualizarea clusterelor) sau
• Icicle (similară diagramei steag, orientată spre
vizualizarea cazurilor).
Orientarea diagramei poate fi verticală sau
orizontală. În reprezentarea dendrogramei, distanţele
dintre elementele care se unesc sunt transformate pe o
scală 0 – 25, cu păstrarea raportului distanţelor.
Method
În lista Cluster Method se poate alege una dintre metodele explicate în curs ca
metode de agregare, de calculare a distanţelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai depărtat vecin
(furthest neighbor), distanţa faţă de centru
(centroid clustering), Ward etc.
În grupul Measure se poate specifica
distanţa sau similaritatea utilizată în grupare
potrivit tipului de date:
• Interval – pentru datele continue sunt
disponibile distanţele: euclidiană, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaţia Pearson, Chebychev
(diferenţa absolută maximă dintre valorile
elementelor), block (suma diferenţelor
absolute dintre componente, distanţa Manhattan), Minkowski (rădăcina de ordin p
din suma diferenţelor absolute la puterea p), Customized (similară cu distanţa
Minkowski, dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de
coordonate)
• Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere
χ
2
şi φ
2
(a se vedea secţiunea privind asocierea datelor nominale).
• Binary – pentru datele dihotomice există o mulţime de distanţe propuse, bazate pe
tabelul de frecvenţe încrucişate a celor două variabile. Se pot preciza valorile
interpretate ca 0 sau 1.
În grupurile Transform Values şi Transform Measures se pot selecta metode
de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen
măsurate.
Save
Se poate salva, sau nu, ca variabile noi,
apartenenţa la clustere. Selectarea opţiunii Single
solution şi precizarea numărului de clustere
considerat ca soluţie finală va salva apartenenţa la
acel stadiu.
Dacă se selectează Range of solutions, se va
salva apartenenţa la fiecare stadiu dintre cele
menţionate.
C. Lucrarea practică
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conţine consumul de proteine în 25 de ţări europene. Datele se referă la anul 1973.
Sunt măsurate următoarele variabile: Country - numele ţării, RdMeat - carne roşie,
WhMeat - carne albă, Eggs - ouă, Milk - lapte, Fish - peşte, Cereal - cereale,
Starch - grăsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot
fi grupate cele 25 de ţări
b) să se realizeze o clasificare a celor 25 de ţări; să se studieze concordanţa cu
situaţia observată la punctul a).
2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
– numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul
de muncitori din minerit, Man – procentajul de muncitori din industria
prelucrătoare, PS – procentajul de muncitori din industria energetică, Con –
procentajul de muncitori din construcţii, SI – procentajul de muncitori din
servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de
muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi
comunicaţii.
a) să se aplice un algoritm de clasificare ierarhică
b) să se aplice algoritmul k-means pentru k = 4; să se compare cu rezultatul
clasificării realizate la a).

cea mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m variabile. Aceste k obiecte stabilesc clasa noului obiect prin • Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai mulţi dintre cei k vecini (care dispun fiecare de un vot întreg). coloanele sunt variabile. adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis între punctele x = (x1. • datele sunt omogene în sensul că are sens calculul distanţelor dintre elemente • există suficient de multe date încât simpla inspecţie vizuală sau prelucrările statistice elementare nu oferă o imagine satisfăcătoare a structurii datelor • tabloul de date este amorf: nu există o structurare a priori (dependenţe funcţionale. se defineşte norma unui vector prin x = d Σ (x. πk. Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii. adică sunt cunoscute n obiecte prin atributele lor. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o observaţie (valorile celor m variabile determină un punct în spaţiul R m) şi punctele centrale. In plus. de ordine de mărime diferite. • Vot invers proporţional distanţei – similar votului majoritar. pot afecta foarte mult distanţele euclidiene. dar. şi se doreşte clasarea unei noi observaţii. Σ Clasificare predictivă – k vecini Considerăm situaţia clasificării propriu-zise. Clasificare descriptivă In analiza multivariată. y ) = (x − y)′Σ −1 (x − y) şi. …. ca punctul având drept componente mediile aritmetice ale componentelor corespunzătoare din punctele clasei. Componentele cu variabilitate mare ar trebui să contribuie cu ponderi mai mici decât cele cu variabilitate mică. …. π2. . Se determină k obiecte cele mai apropiate de noua observaţie.nearest neighbours). este definită prin d Σ (x. 2. clasificări cunoscute).0) = x' Σ −1x . obiecte. egală cu inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie). ym) ′. Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi. Cazurile de aplicare ale acestor metode sunt similare celor în care se utilizează analiza factorială. dar fiecare dintre cei k vecini apropiaţi dispune de o fracţiune de vot. Distanţele se pot calcula ca distanţe euclidiene. clasificarea descriptivă (cluster analysis) se referă la metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte similare. relaţii. …. Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k . 1. centroizii claselor. atribute). inclusiv apartenenţa la clasele π1. corespunzător.Definim centrul unei clase (sau centroidul clasei) în mod uzual. xm)′ şi y = (y1. din păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor: variabile măsurate pe scale diferite.

analiza factorială este efectuată mai întâi. cluster) o mulţime de obiecte (elemente) similare între ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările grafice reflectă aceste interpretări) • Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi depărtate de punctele din alte clase. metodele clasificării descriptive sunt complementare metodelor analizei factoriale. j ) = ∑δ f =1 f p (f) ij ( d ij f ) ∑ δ ij( f ) i =1 ∈ [0. De regulă. binara 1 in rest  Menţionăm că d ij( f ) este contribuţia variabilei f la d(i.De remarcat că ultima caracteristică este cea care ne depărtează de descrierea predictivă (unde se presupunea existenţa unei structurări necesare în etapa de training). cum ar fi coeficientul de corelaţie. cât şi continue). clasele identificate. se poate calcula proximitatea dintre obiectele i şi j prin d (i. atunci când se utilizează împreună.j) şi anume: dacă f este binară sau nominală. Deoarece se pot aplica pe aceleaşi structuri de date. similarităţii) şi cum se determină aceasta. Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca urmare a unei suite de operaţii efectuate recursiv sau repetitiv. Proximitatea poate fi o similaritate (asemănare). atunci (normalizare prin amplitudine) ( d ij f ) = xif − x jf max xhf − min xhf h h . matematica implicată este relativ elementară. Este cazul obiectelor care sunt prezente prin atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p. atunci dij( f ) = 0 pentru xif = x jf  1 altfel (Hamming) dacă f este continuă. ierarhizate. Este evident că proximitatea este o noţiune dependentă de problema reală cercetată. Liniile sunt obiecte (pattern-uri). Atunci când atributele sunt de tipuri diferite (atât discrete. localizate de clasificarea descriptivă. Structurile uzuale de date privind obiectele supuse analizei cluster sunt: • Matricea de pattern-uri. sau o disociere (depărtare. • Matricea de proximitate. clusterele fiind separate între ele de regiuni cu o densitate scăzută (relativ) de puncte. coloanele sunt atribute (variabile). clasele evidenţiate de aceasta fiind precizate. cum ar fi distanţa euclidiană. Rezultă că problema esenţială în determinarea (identificarea) clusterelor este cea a specificării proximităţii (apropierii. Numim clasă (grup. diferenţiere). Elementele d(i. sau • Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate mare (relativ) de puncte.j) reprezintă proximităţile dintre obiectele i şi j. Drept rezultat al clasificării descriptive se obţin grupurile de elemente.1] unde δ (f) ij este ponderea variabilei f δ (f) ij pentru xif sau x jf lipsa 0  = 0 xif = x jf = 0 si f este asimetrica.

se poate obţine şi aici o ierarhie a partiţiilor. S (splinter group). j ) j∉S j∈S b. rif − 1 şi se max rhf − 1 h Există mai multe tipuri de algoritmi de clasificare: . prin agregarea lor. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se clasifică are un singur element. se calculează Di = media d (i. Dacă Dh este pozitiv. Evident că se pot utiliza şi alte metode în acest scop. Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului. .- dacă f este ordinală. Mulţimea iniţială este acum divizată în două clustere. 2. se calculează zif = consideră că f este continuă. Se pleacă de la mulţimea totală a elementelor 2. se obţine astfel o ierarhie de partiţii. având valorile zif. de clase. Este obiectul care iniţiază un nou cluster.divizare Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă: 1. Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical cluster analysis). d. se atribuie rangul rif. în medie.Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată succesiv în submulţimi de obiecte din ce în ce mai omogene. c.Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase) care se modifică pentru a maximiza omogenitatea fiecărei clase. Algoritmul se opreşte atunci când toate grupurile constituite au câte un singur element.agregare Algoritmul fundamental de clasificare ascendentă ierarhică este: 1. Se determină un obiect h cu Dh = max Di. atunci obiectul h se adaugă grupului splinter (este mai apropiat. 3. .Algoritmi ascendenţi (de agregare. Se repetă a) – c) până ce Dh este negativ. Pentru fiecare obiect i din afara grupului S a. un nou element. Clasificare descriptivă . de sinteză) – clasele sunt construite prin agregarea succesivă a elementelor. Etapa 2 – există acum n-1 elemente care se clasifică. 4. cea mai “mare” (cea mai eterogenă) grupare este divizată în două subgrupări. Etapa 0 – există cele n elemente care se clasifică. de elementele din S). 2. Clasificare descriptivă . Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi se produce. . j ) − media d (i. definit ca distanţa maximă dintre două elemente din grup. Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis): 1. 3. La fiecare pas următor. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte obiecte (cea mai mare disociere).

4. Centroizii fiecărui cluster astfel format constituie centrele pentru pasul următor. 5. De reţinut. la o partiţie care îndeplineşte un criteriu de optim. Elementele importante ale algoritmului sunt comentate în continuare. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se îmbunătăţeşte criteriul ales. 4. 6. Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent. Clasificare descriptivă . Partiţia iniţială O partiţie iniţială se poate obţine selectând k obiecte. Partiţia finală constituie structura de clustere căutată. caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte produc o dendrogramă de neînţeles). Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu centrul cel mai apropiat. Se repetă 3) până când toate grupurile constituite au un singur element. Un algoritm general de partiţionare este: 1. totuşi. considerându-le centre şi grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). faptul că nu există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte. pe axa orizontală se trec diametrele clusterelor. 3. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se îmbunătăţeşte funcţia criteriu. Metodele de partiţionare sunt utile atunci când există un mare număr de obiecte. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele clusterelor. Acesta este divizat prin paşii 1 – 2. prin migrarea obiectelor între clase. Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care minimizează suma pătratelor erorilor (apare la distanţa Ward).3. . în care pe axa verticală sunt obiectele. Eroarea este distanţa de la un obiect la centrul clusterului său. 2. Nu se recalculează centrele după fiecare clasificare a unui element. Se selectează clusterul cu cel mai mare diametru. Se ajustează numărul de clustere prin reunirea sau divizarea unor clustere sau prin eliminarea clusterelor aberante (cu un număr mic de elemente). Se calculează noile centre ale clusterelor.partiţionare Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge.

sau o Centrele se recalculează după ce au fost procesate toate obiectele. Actualizarea partiţiei Există mai multe moduri de abordare a pasului 2 din metoda generală: • Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat. atunci se măreşte încrederea că s-a atins un optim global. apropiat de gruparea reală. ISODATA (Ball & Hall. Intr-o metodă fuzzy se obţin. Demonstraţii matematice ale convergenţei au fost bazate • fie pe formularea problemei ca o problemă de programare matematică. Clasificare descriptivă – metode fuzzy In afară de metodele deterministe. analiză în componente principale etc. că partiţii iniţiale diferite conduc la clustere finale diferite. totuşi. cel puţin dacă grupurile nu sunt bine diferenţiate. Jensen): • Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau dacă distanţa dintre centrele lor este mică (sub un prag fixat). de două ori mai multe decât numărul minim).). Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor conduc la atingerea unui optim local. sau extinderea numărului de clustere. sau – în anumite variante – când partiţia nu se modifică în două iteraţii succesive. Din acest motiv. algoritmul se opreşte atunci când funcţia criteriu nu mai poate fi îmbunătăţită. ceea ce – dată fiind finitudinea mulţimii de obiecte – produce oprirea procesului. Ajustarea partiţiei Se pot defini condiţii pentru reducerea. . Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. care pot oferi informaţii despre numărul de clustere. Convergenţa Deşi nu se garantează atingerea unui optim global. o Centrele se recalculează după fiecare atribuire. Algoritmul cel mai cunoscut este. în acest sens. pentru fiecare obiect. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale diferite. Clusterele iniţiale pot fi date de o clasificare ascendentă. • Dacă se ajunge la o aceeaşi partiţie. de exemplu. probabilităţile ca obiectul să aparţină la fiecare dintre clustere. Se încearcă astfel atingerea unui număr “natural” de clustere. se pot analiza subgrupurile stabile (elemente care sunt mereu împreună). Este de remarcat că existenţa valorilor aberante poate denatura procesul de clusterizare. anumiţi autori recomandă excluderea obiectelor aberante (şi chiar a celor din clusterele cu puţine elemente). De reţinut. • In caz că nu. • Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu. • Un cluster este divizat dacă dispersia elementelor (după atributul cel mai dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de elemente (de exemplu. neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor sau din alte cauze exterioare. • fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa interclase şi se micşorează varianţa intraclase. au fost dezvoltate şi metode de clasificare fuzzy. Se încearcă astfel evitarea unui optim local.Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o analiză prealabilă (clasificare ascendentă.

j unde ε ∈ (0. Distanţe între obiecte În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre obiecte (elemente sau grupuri deja constituite). c )  m −1 ∑  d 2 ( xi . c j )    l =1  i l  cj = m ∑ uij xi i =1 n m ∑ uij i =1 n Procesul se opreşte atunci când matricea de apartenenţă se stabilizează: ( ( max uijk +1) − uijk ) < ε i. similară metodei de partiţionare. c – numărul de clustere. Astfel. . Alegerea unei anumite distanţe modifică grupările care se constituie. la un singur grup. y∈π 2 În imaginea următoare se exemplifică. cj. prin numerotarea 1 … 6 ordinea de atribuire a elementelor respective la grupurile figurate în extremităţi.De exemplu. bazată pe minimizarea funcţiei obiectiv m J m = ∑∑ uij d 2 ( xi . Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv) prin actualizarea la fiecare pas a matricei de apartenenţă (uij) şi a centrelor clusterelor (cj) 1 uij = 1 c  d 2 ( x . d este o distanţă de similaritate. π 2 ) = min d ( x. m > 1 este parametru (uzual este 2). ceea ce nu produce o grupare acceptabilă. m ∈ R . 1) are semnificaţia uzuală în procese iterative similare. Rezultatul este conţinut în matricea de apartenenţă (uij) care oferă probabilităţile apartenenţei elementelor la clase. y ) x∈π 1 . c j ) i =1 j =1 n c unde n . o metodă fuzzy. uij este gradul de apartenenţă al lui i la clusterul j. un lanţ de obiecte apropiate două câte două este atribuit. de regulă. Metoda celui mai apropiat vecin (nearest neighbor method) Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite) d(π1. este metoda celor c medii (fuzzy c-means). j = 1…c sunt centrele clusterelor.numărul de obiecte.

y ) n1n2 x∈π 1 y∈π 2 Metoda distanţei centrelor (average group linkage) Se consideră. y∈π 2 Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. fiecare nou element putând produce deplasarea lui. π 2 ) = SP(π1 ∪ π 2 ) − (SP(π1 ) + SP(π 2 ) ) x∈π ∑ x − xπ 2 . În imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor corespunzătoare la cele două grupuri extreme. distanţa dintre centrele grupurilor d(π 1.Metoda celui mai depărtat vecin (farthest neighbor method) Această metodă utilizează calcularea distanţei dintre două grupuri drept distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai depărtate elemente din clase diferite) d(π1. y ) x∈π 1 . ca distanţă dintre două grupuri π1 şi π2. De remarcat că centrul unui grup este dinamic. Metoda Ward selectează grupările care minimizează creşterea sumei de pătrate a erorilor. π 2 ) = d (Gπ 1 . SP(π ) = d(π1. respectiv. Metoda distanţei Ward (Ward's linkage) Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după contopirea grupurilor într-unul singur. Centrul unui grup format dintr-un singur element este chiar acel element. π 2 ) = ∑ ∑ d ( x. Gruparea obţinută corespunde mai bine şi grupării intuitive (efectuată de un operator uman). π 2 ) = max d ( x. Gπ 2 ) unde centrele Gπ1 şi Gπ2 au drept componente mediile aritmetice ale componentelor elementelor din cele două grupuri. Metoda legăturii medii Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente ale grupurilor 1 d(π1.

proiecţii). • Indicatori de calitate o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare (agglomerative coefficient – AC) care oferă indicatori (medii) globali.Dendrograma Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma). între obiectele 4 şi 6 este o distanţă egală cu 4. cât şi local pentru fiecare cluster. se calculează d(i) ca fiind raportul dintre disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi diametrul mulţimii totale de obiecte (clusterul final). Pe axa verticală sunt distanţele dintre obiecte. Calitatea clasificării Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori (numărul de clase în special). o Indici de siluetă (Silhouette) care se pot defini atât global. se calculează d(i) ca fiind raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare) la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii totale de obiecte (clusterul iniţial). poate. Atunci 1 DC = ∑ d (i ) n Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendentă: Pentru fiecare obiect i. Procedurile uzuale de evaluare: • Vizualizarea partiţiei (dendrograme. Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii elementelor clasificate. Divisive Coefficient (DC): Pentru fiecare obiect i. Pe axa orizontală sunt elementele iniţiale (ordinea este cea care permite desenarea arborelui). cât şi faptul că diferite metode conduc la clase diferite. În figura alăturată este prezentată o dendogramă. mulţimea iniţială nu are o structură bine determinată de clase. Evaluarea trebuie să ia în considerare atât faptul că. de exemplu. 1 AC = ∑ [1 − d (i )] n . profiluri. Componentele partiţiei sunt clasele căutate. evaluarea calităţii partiţiei obţinute este o etapă foarte importantă.

Se introduce coeficientul siluetă prin SC = max Sk k Este propusă (Rousseeuw . B. cu putere de comparare. atunci obiectul este bine clasificat (este asociat cu clusterul adecvat). formula de calcul este bi − ai S (i ) = max{ai . poate fi artificială • ≤ 0. ca şi asupra numărului corect de clustere. bi } unde ai – disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster.1. obţinută ca media siluetelor S(i) după toate obiectele i. Intreaga structură de clustere este caracterizată de silueta medie globală. silueta medie globală. • Dacă S (i) este aproape nul. silueta medie a unui cluster. Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional. Notând cu S (i) silueta obiectului i. Silueta medie globală se poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege acel k pentru care Sk este maxim. Interpretarea este • Dacă S (i) este apropiat de 1. • 0.25 structura determinată este artificială. Acest indice vrea să reprezinte cât de bine este separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster – distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa interclustere). Instrumente SPSS Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze – Classify. Dacă structura conţine un număr k de clustere. atunci obiectul este clasificat eronat (el este separat faţă de celelalte clustere).00 clustere. Silueta se calculează (Rousseeuw.26 . obţinută ca media siluetelor elementelor din cluster. De menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de . Prin calculul siluetei se poate decide asupra validităţii unui cluster.70 s-a determinat o structură acceptabilă • 0. atunci obiectul poate fi clasificat şi în următorul cluster apropiat (obiectul este situat similar în raport cu ambele clustere) • Dacă S (i) este apropiat de –1. 1987) ca silueta unui obiect.51 . se notează silueta medie globală cu Sk. Dacă obiectul i este singurul element al unui cluster.0. bi – disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i).AC tinde să crească o dată cu numărul de obiecte.0.71 .1987) următoarea interpretare a coeficientului siluetă după valoarea sa: s-a determinat o structură puternică (bine definită) de • 0. atunci S (i) = 0. Fiecare cluster este caracterizat de silueta medie. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică.50 structura determinată este slabă.

cel mult 999. Prin acţionarea butonului Iterate din dialogul principal. Pentru considerarea altor distanţe se va apela procedura Hierarchical Cluster. Procesul iterativ se opreşte dacă niciun centru recalculat nu este deplasat cu mai mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei. În Maximum Iterations se fixează limita numărului de iteraţii. O ghicire a numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind diagramele proiecţiilor pe planele factoriale. din zona Cluster Centers. Ca metodă se poate alege • Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin recalcularea centrelor după fiecare iteraţie. fişierul salvat într-o prelucrare anterioară. Numărul de clustere se poate fixa în Number of Clusters. În acest caz se va selecta. Ca interpretare se poate considera că centrul unei clase finale reflectă caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru. el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor este importantă. se deschide dialogul sinonim.calcule. Prin selectarea opţiunii Use running means se cere recalcularea centrelor la fiecare clasare a unui caz şi nu după clasarea tuturor cazurilor. buton permis doar pentru metoda Iterate and classify. informaţiile se vor salva într-un fişier prin selectarea opţiunii Write final as din grupul Cluster Centers. • Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un fişier centrele claselor. Prin Analize – Classify – K-Means Cluster se deschide dialogul În lista Variables se vor trece variabilele în funcţie de care se face clasificarea. Valoarea dată în Convergence Criterion reprezintă o proporţie p din distanţa minimă dintre centrele iniţiale. deci poate fi între 0 şi 1. calculate în prealabil şi salvate. Acţionarea butonului Save din dialogul principal deschide dialogul prin care se poate cere salvarea unor . Read initial from şi se va preciza File. Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label Cases by. • actualizarea centrelor ca valori medii ale elementelor aparţinând clasei respective. Dacă se doreşte utilizarea rezultatelor şi pentru clasificarea altor cazurii. K-Means Cluster Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de clase este cunoscut) şi apoi se repetă etapele: • atribuirea fiecărui caz la centrul cel mai apropiat.

obţinută prin alegerea unui număr de cazuri egal cu numărul de clustere. Centrele claselor finale sunt afişate într-un tabel similar celui care arată centrele iniţiale: O verificare mai mult orientativă asupra separării clusterelor după fiecare variabilă considerată este conţinută în tabelul ANOVA: Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a clusterelor. tabelele listate în cazul (aproape) complet sunt prezentate în continuare. Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele finale. atâtea câte clustere sunt indicate în dialogul principal. În grupul Statistics: • Initial cluster centers – prima estimare a centrelor. • ANOVA table – se afişează tabelul ANOVA pentru fiecare variabilă. S-a realizat o clasificare ilustrativă utilizând fişierul SPSS de test Employee Data. Rezultatele SPSS în cazul K-Means Cluster Ieşirea depinde de opţiunile selectate în dialogurile procedurii. Modificările survenite în timpul procesului iterativ sunt sistematizate în tabloul următor. considerând clusterele drept factor. Prin dialogul Options. Valorile F mari vor arăta variabilele care contribuie cel mai mult la structura clusterelor. • Cluster information for each case – afişează asignările finale la clase. Centrele iniţiale ale claselor sunt alese aleatoriu. prezentându-se modificările apărute în coordonatele centrelor.informaţii ca noi variabile. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul clasei la care aparţine. distanţa la centrul clasei ca şi distanţele euclidiene dintre centrele finale. afişat la acţionarea butonului Options din dialogul principal. se pot preciza statisticile calculate şi modul de tratare a datelor lipsă. Se prezintă coordonatele centrelor în spaţiul variabilelor. toate testele F duc la respingerea ipotezei de egalitate a mediilor .

Se pot selecta mai multe distanţe. se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului optim de clustere.Simple Scatter şi s-a precizat noua variabilă Cluster Number în Set Markers by). . în care se poate observa modul de diferenţiere a claselor după diverse variabile (comanda a fost Graph . în afara scopului propus de a cunoaşte unde aparţine fiecare observaţie. şi pentru ilustrarea clasificării prin diagrama de forma următoare. Hierarchical Cluster Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi reuneşte clustere până când se obţine un singur cluster.Scatter .clusterelor. Comanda este Analyze – Classify – Hierarchical Cluster care produce afişarea dialogului principal. Un tabel final arată câte elemente sunt clasificate în fiecare cluster. Se poate însă interpreta comparativ valoarea statisticii F în sensul că variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată. Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul clasei sunt create ca noi variabile cu denumiri implicite. după modelul Informaţiile salvate pot fi utilizate.

Plots. deci accesibilitatea la butoanele Statistics. Customized (similară cu distanţa Minkowski. Variabilele reprezentând caracteristicile după care are loc clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice. sau pentru variabile. În grupul Measure se poate specifica distanţa sau similaritatea utilizată în grupare potrivit tipului de date: • Interval – pentru datele continue sunt disponibile distanţele: euclidiană. distanţa Manhattan). corelaţia Pearson. Grupul Display controlează ce se afişează. orientată spre vizualizarea clusterelor) sau • Icicle (similară diagramei steag. cosinus (cosinusul unghiului dintre vectorii punctelor). orientată spre vizualizarea cazurilor). dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de coordonate) • Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere χ2 şi φ2 (a se vedea secţiunea privind asocierea datelor nominale). Statistics Agglomeration schedule – se afişează combinaţiile din fiecare iteraţie. cel mai depărtat vecin (furthest neighbor). Plots Diagramele de aglomerare sunt disponibile în formatul • Dendrogram (dendrograma explicată in curs. Method În lista Cluster Method se poate alege una dintre metodele explicate în curs ca metode de agregare. Minkowski (rădăcina de ordin p din suma diferenţelor absolute la puterea p). block (suma diferenţelor absolute dintre componente. Chebychev (diferenţa absolută maximă dintre valorile elementelor). În reprezentarea dendrogramei. Orientarea diagramei poate fi verticală sau orizontală.Analiza se poate efectua pentru cazuri. Ward etc. distanţe etc. distanţele dintre elementele care se unesc sunt transformate pe o scală 0 – 25. distanţa faţă de centru (centroid clustering). Cluster Membership – produce afişarea apartenenţei la clustere în una sau mai multe iteraţii. Dialogurile secundare sunt explicate în continuare. potrivit opţiunii selectate în grupul Cluster. de calculare a distanţelor dintre clustere: cel mai apropiat vecin (nearest neighbor). Proximity matrix – se afişează distanţele sau similarităţile dintre elemente. cu păstrarea raportului distanţelor. .

Sunt măsurate următoarele variabile: Country .ouă. TC – procentajul de muncitori din transporturi şi comunicaţii. se va salva apartenenţa la fiecare stadiu dintre cele menţionate. SPS – procentajul de muncitori din servicii sociale. să se compare cu rezultatul clasificării realizate la a). a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot fi grupate cele 25 de ţări b) să se realizeze o clasificare a celor 25 de ţări.cereale. SI – procentajul de muncitori din servicii. PS – procentajul de muncitori din industria energetică. www.carne albă.ro/~val/statistica/EuropeanProtein. .txt. Reamintim variabilele: Country – numele ţării. RdMeat . Agr – procentajul de muncitori din agrucultură.ro/~val/statistica/EuropeanJobs. Starch .carne roşie. Selectarea opţiunii Single solution şi precizarea numărului de clustere considerat ca soluţie finală va salva apartenenţa la acel stadiu. să se studieze concordanţa cu situaţia observată la punctul a). • Save Se poate salva.numele ţării. Datele se referă la anul 1973.oleaginoase. Min – procentajul de muncitori din minerit. Lucrarea practică 1) Setul de date aflat la adresa www.fructe.infoiasi. Dacă se selectează Range of solutions. Eggs . sau nu.lapte. În grupurile Transform Values şi Transform Measures se pot selecta metode de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen măsurate. ca variabile noi. Con – procentajul de muncitori din construcţii. bazate pe tabelul de frecvenţe încrucişate a celor două variabile. Man – procentajul de muncitori din industria prelucrătoare. Fin – procentajul de muncitori din finanţe. Fish . a) să se aplice un algoritm de clasificare ierarhică b) să se aplice algoritmul k-means pentru k = 4.grăsimi. Milk .infoiasi. vegetale. Nuts . C.Binary – pentru datele dihotomice există o mulţime de distanţe propuse. WhMeat . Se pot preciza valorile interpretate ca 0 sau 1.peşte. Fr&Veg . Cereal . apartenenţa la clustere. 2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11.txt conţine consumul de proteine în 25 de ţări europene.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->