Statistică multivariată

Lucrarea nr. 12 — Clasificare - SPSS
A. Noţiuni teoretice
Clasificare
Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în
clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel
care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip
de raţionament este formalizat şi în metodele automate.
Există, în esenţă, două tipuri de clasificare automată:
1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la
un grup pornind de la reguli de clasificare derivate din observaţii
clasificate în prealabil. Se poate ca schema de clasificare existentă să fie
subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele
esenţiale ale schemei şi le transformă în reguli practice.
2. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza
similarităţii lor, nu este cunoscută o grupare prealabilă.
Clasificare predictivă
Considerăm cazul a două populaţii multivariate, Π
1
şi Π
2
, fiecare caracterizată
de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili
populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor
considerate).
Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π
1
şi din Π
2
),
o regulă de clasificare revine la a partiţiona S în A
1
şi A
2
, astfel încât pentru o
observaţie u se poate dezvolta o procedură care decide

dacă u ∈ A
1
, atunci u ∈ Π
1

dacă u ∈ A
2
, atunci u ∈ Π
2
Clasificare predictivă - Fisher
Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre
cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate
au, respectiv, mediile µ
1
, µ
2
şi dispersia comună σ
2
.
Este evident (intuitiv) că o observaţie u va fi clasată în Π
1
dacă u este mai
apropiată de µ
1
şi în Π
2
daca este mai apropiată de µ
2
.
In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme
observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine
atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele
două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în
cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca
rezultat şi funcţiile de clasificare:
Fiecare subpopulaţie, Π
i
, are asociată o funcţie de clasificare f
i
astfel încât
observaţia u este clasată în populaţia Π
j
determinată prin
) ( max ) ( u u
i
i
j
f f =

Definim centrul unei clase (sau centroidul clasei) în mod uzual, ca punctul
având drept componente mediile aritmetice ale componentelor corespunzătoare din
punctele clasei. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o
observaţie (valorile celor m variabile determină un punct în spaţiul R
m
) şi punctele
centrale, centroizii claselor. Distanţele se pot calcula ca distanţe euclidiene, dar, din
păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor:
variabile măsurate pe scale diferite, de ordine de mărime diferite, pot afecta foarte
mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie
cu ponderi mai mici decât cele cu variabilitate mică.
Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi, cea
mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m
variabile, adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis
între punctele x = (x
1
, …, x
m
)′ şi y = (y
1
, …, y
m
) ′, este definită prin
y) (x Σ ) y (x y x,
1
Σ
− ′ − =

) ( d
şi, corespunzător, se defineşte norma unui vector prin
x Σ x' x x
1 −
Σ
Σ
= = ) 0 , ( d
.
Clasificare predictivă – k vecini
Considerăm situaţia clasificării propriu-zise, adică sunt cunoscute n obiecte
prin atributele lor, inclusiv apartenenţa la clasele π
1
, π
2
, …, π
k
, şi se doreşte clasarea
unei noi observaţii.
Un algoritm suficient de des utilizat este acela denumit al celor k vecini
(k - nearest neighbours).
1. Se determină k obiecte cele mai apropiate de noua observaţie.
2. Aceste k obiecte stabilesc clasa noului obiect prin
• Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai
mulţi dintre cei k vecini (care dispun fiecare de un vot întreg).
• Vot invers proporţional distanţei – similar votului majoritar, dar fiecare
dintre cei k vecini apropiaţi dispune de o fracţiune de vot, egală cu
inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai
mult la decizie).
Clasificare descriptivă
In analiza multivariată, clasificarea descriptivă (cluster analysis) se referă la
metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor în care se
utilizează analiza factorială.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii, obiecte,
coloanele sunt variabile, atribute). In plus,
• datele sunt omogene în sensul că are sens calculul distanţelor dintre
elemente
• există suficient de multe date încât simpla inspecţie vizuală sau
prelucrările statistice elementare nu oferă o imagine satisfăcătoare a
structurii datelor
• tabloul de date este amorf: nu există o structurare a priori (dependenţe
funcţionale, relaţii, clasificări cunoscute).
De remarcat că ultima caracteristică este cea care ne depărtează de descrierea
predictivă (unde se presupunea existenţa unei structurări necesare în etapa de
training).
Drept rezultat al clasificării descriptive se obţin grupurile de elemente, clasele
identificate. Deoarece se pot aplica pe aceleaşi structuri de date, metodele clasificării
descriptive sunt complementare metodelor analizei factoriale. De regulă, atunci când
se utilizează împreună, analiza factorială este efectuată mai întâi, clasele evidenţiate
de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptivă.
Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca
urmare a unei suite de operaţii efectuate recursiv sau repetitiv; matematica implicată
este relativ elementară.
Numim clasă (grup, cluster) o mulţime de obiecte (elemente) similare între
ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările
grafice reflectă aceste interpretări)
• Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi
depărtate de punctele din alte clase, sau
• Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate
mare (relativ) de puncte, clusterele fiind separate între ele de regiuni cu o
densitate scăzută (relativ) de puncte.
Rezultă că problema esenţială în determinarea (identificarea) clusterelor este
cea a specificării proximităţii (apropierii, similarităţii) şi cum se determină aceasta.
Este evident că proximitatea este o noţiune dependentă de problema reală cercetată.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
• Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin
atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p.
Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).
• Matricea de proximitate. Elementele d(i,j) reprezintă proximităţile dintre
obiectele i şi j. Proximitatea poate fi
o similaritate (asemănare), cum ar fi coeficientul de corelaţie, sau
o disociere (depărtare, diferenţiere), cum ar fi distanţa euclidiană.
Atunci când atributele sunt de tipuri diferite (atât discrete, cât şi continue), se
poate calcula proximitatea dintre obiectele i şi j prin
] 1 , 0 [ ) , (
1
) (
1
) ( ) (
∈ =


=
=
f
i
f
ij
p
f
f
ij
f
ij
d
j i d
δ
δ

unde
) ( f
ij
δ este ponderea variabilei f
¦
¹
¦
´
¦
= = =
rest in 1
binara , asimetrica este si 0 0
lipsa sau pentru 0
) (
f x x
x x
jf if
jf if
f
ij
δ

Menţionăm că
) ( f
ij
d este contribuţia variabilei f la d(i,j) şi anume:
- dacă f este binară sau nominală, atunci
¹
´
¦ =
=
altfel 1
pentru 0
) ( jf if f
ij
x x
d

(Hamming)
- dacă f este continuă, atunci (normalizare prin amplitudine)
hf
h
hf
h
jf if
f
ij
x x
x x
d
min max
) (


=

- dacă f este ordinală, se atribuie rangul r
if
, se calculează
1 max
1


=
hf
h
if
if
r
r
z
şi se
consideră că f este continuă, având valorile z
if
.

Există mai multe tipuri de algoritmi de clasificare:
- Algoritmi ascendenţi (de agregare, de sinteză) – clasele sunt construite
prin agregarea succesivă a elementelor, se obţine astfel o ierarhie de
partiţii, de clase.
- Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată
succesiv în submulţimi de obiecte din ce în ce mai omogene; se poate
obţine şi aici o ierarhie a partiţiilor.
- Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase)
care se modifică pentru a maximiza omogenitatea fiecărei clase.
Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical
cluster analysis).
Clasificare descriptivă - agregare
Algoritmul fundamental de clasificare ascendentă ierarhică este:
1. Etapa 0 – există cele n elemente care se clasifică;
2. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi
se produce, prin agregarea lor, un nou element;
3. Etapa 2 – există acum n-1 elemente care se clasifică;
4. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se
clasifică are un singur element.
Clasificare descriptivă - divizare
Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă:
1. Se pleacă de la mulţimea totală a elementelor
2. La fiecare pas următor, cea mai “mare” (cea mai eterogenă) grupare este
divizată în două subgrupări.
3. Algoritmul se opreşte atunci când toate grupurile constituite au câte un
singur element.
Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului,
definit ca distanţa maximă dintre două elemente din grup. Evident că se pot utiliza şi
alte metode în acest scop.
Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis):
1. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte
obiecte (cea mai mare disociere). Este obiectul care iniţiază un nou cluster,
S (splinter group).
2. Pentru fiecare obiect i din afara grupului S
a. se calculează
) , ( ) , ( j i d j i d D
j j
i
media media
S S ∈ ∉
− =

b. Se determină un obiect h cu D
h
= max D
i
.
c. Dacă D
h
este pozitiv, atunci obiectul h se adaugă grupului splinter
(este mai apropiat, în medie, de elementele din S).
d. Se repetă a) – c) până ce D
h
este negativ. Mulţimea iniţială este
acum divizată în două clustere.
3. Se selectează clusterul cu cel mai mare diametru. Acesta este divizat prin
paşii 1 – 2.
4. Se repetă 3) până când toate grupurile constituite au un singur element.
Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent,
în care pe axa verticală sunt obiectele, pe axa orizontală se trec diametrele clusterelor.

Clasificare descriptivă - partiţionare
Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se
poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge, prin
migrarea obiectelor între clase, la o partiţie care îndeplineşte un criteriu de optim.
Partiţia finală constituie structura de clustere căutată. De reţinut, totuşi, faptul că nu
există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte.
Metodele de partiţionare sunt utile atunci când există un mare număr de
obiecte, caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte
produc o dendrogramă de neînţeles).
Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care
minimizează suma pătratelor erorilor (apare la distanţa Ward). Eroarea este distanţa
de la un obiect la centrul clusterului său.
Un algoritm general de partiţionare este:
1. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele
clusterelor.
2. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu
centrul cel mai apropiat.
3. Se calculează noile centre ale clusterelor.
4. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se
îmbunătăţeşte criteriul ales.
5. Se ajustează numărul de clustere prin reunirea sau divizarea unor
clustere sau prin eliminarea clusterelor aberante (cu un număr mic de
elemente).
6. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se
îmbunătăţeşte funcţia criteriu.
Elementele importante ale algoritmului sunt comentate în continuare.
Partiţia iniţială
O partiţie iniţială se poate obţine selectând k obiecte, considerându-le centre şi
grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel
mai apropiat). Nu se recalculează centrele după fiecare clasificare a unui element.
Centroizii fiecărui cluster astfel format constituie centrele pentru pasul
următor.
Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o
analiză prealabilă (clasificare ascendentă, analiză în componente principale etc.).
Clusterele iniţiale pot fi date de o clasificare ascendentă, de exemplu. De reţinut,
totuşi, că partiţii iniţiale diferite conduc la clustere finale diferite.
Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor
conduc la atingerea unui optim local, cel puţin dacă grupurile nu sunt bine
diferenţiate. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale
diferite.
• Dacă se ajunge la o aceeaşi partiţie, atunci se măreşte încrederea că s-a
atins un optim global.
• In caz că nu, se pot analiza subgrupurile stabile (elemente care sunt
mereu împreună), care pot oferi informaţii despre numărul de clustere.
Actualizarea partiţiei
Există mai multe moduri de abordare a pasului 2 din metoda generală:
• Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat.
o Centrele se recalculează după fiecare atribuire, sau
o Centrele se recalculează după ce au fost procesate toate obiectele.
• Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu.
Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Se
încearcă astfel evitarea unui optim local.
Ajustarea partiţiei
Se pot defini condiţii pentru reducerea, sau extinderea numărului de clustere.
Se încearcă astfel atingerea unui număr “natural” de clustere, apropiat de gruparea
reală, neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor
sau din alte cauze exterioare.
Algoritmul cel mai cunoscut este, în acest sens, ISODATA (Ball & Hall,
Jensen):
• Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau
dacă distanţa dintre centrele lor este mică (sub un prag fixat).
• Un cluster este divizat dacă dispersia elementelor (după atributul cel mai
dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de
elemente (de exemplu, de două ori mai multe decât numărul minim).
Este de remarcat că existenţa valorilor aberante poate denatura procesul de
clusterizare. Din acest motiv, anumiţi autori recomandă excluderea obiectelor
aberante (şi chiar a celor din clusterele cu puţine elemente).
Convergenţa
Deşi nu se garantează atingerea unui optim global, algoritmul se opreşte atunci
când funcţia criteriu nu mai poate fi îmbunătăţită, sau – în anumite variante – când
partiţia nu se modifică în două iteraţii succesive.
Demonstraţii matematice ale convergenţei au fost bazate
• fie pe formularea problemei ca o problemă de programare matematică,
• fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa
interclase şi se micşorează varianţa intraclase, ceea ce – dată fiind
finitudinea mulţimii de obiecte – produce oprirea procesului.
Clasificare descriptivă – metode fuzzy
In afară de metodele deterministe, au fost dezvoltate şi metode de clasificare
fuzzy. Intr-o metodă fuzzy se obţin, pentru fiecare obiect, probabilităţile ca obiectul să
aparţină la fiecare dintre clustere.
De exemplu, o metodă fuzzy, similară metodei de partiţionare, este metoda
celor c medii (fuzzy c-means), bazată pe minimizarea funcţiei obiectiv
∑∑
= =
=
n
i
c
j
j i
m
ij m
c x d u J
1 1
2
) , (

unde
n - numărul de obiecte, c – numărul de clustere,
m ∈ R , m > 1 este parametru (uzual este 2),
c
j
, j = 1…c sunt centrele clusterelor, d este o distanţă de similaritate, u
ij
este
gradul de apartenenţă al lui i la clusterul j.
Rezultatul este conţinut în matricea de apartenenţă (u
ij
) care oferă
probabilităţile apartenenţei elementelor la clase.
Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv)
prin actualizarea la fiecare pas a matricei de apartenenţă (u
ij
) şi a centrelor clusterelor
(c
j
)

=

|
|
.
|

\
|
=
c
l
m
l i
j i
ij
c x d
c x d
u
1
1
1
2
2
) , (
) , (
1


=
=
=
n
i
m
ij
n
i
i
m
ij
j
u
x u
c
1
1
Procesul se opreşte atunci când matricea de apartenenţă se stabilizează:
ε < −
+ ) ( ) 1 (
,
max
k
ij
k
ij
j i
u u

unde ε ∈ (0, 1) are semnificaţia uzuală în procese iterative similare.
Distanţe între obiecte
În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre
obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distanţe
modifică grupările care se constituie.
Metoda celui mai apropiat vecin (nearest neighbor method)
Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale
grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite)
( ) ) , ( min ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

În imaginea următoare se exemplifică, prin numerotarea 1 … 6 ordinea de
atribuire a elementelor respective la grupurile figurate în extremităţi. Astfel, un lanţ de
obiecte apropiate două câte două este atribuit, de regulă, la un singur grup, ceea ce nu
produce o grupare acceptabilă.

Metoda celui mai depărtat vecin (farthest neighbor method)
Această metodă utilizează calcularea distanţei dintre două grupuri drept
distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai
depărtate elemente din clase diferite)
( ) ) , ( max ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. În
imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor
corespunzătoare la cele două grupuri extreme. Gruparea obţinută corespunde mai bine
şi grupării intuitive (efectuată de un operator uman).

Metoda legăturii medii
Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente
ale grupurilor
( )
∑ ∑
∈ ∈
=
1 2
) , (
1
,
2 1
2 1
π π
π π
x y
y x d
n n
d

Metoda distanţei centrelor (average group linkage)
Se consideră, ca distanţă dintre două grupuri π
1
şi π
2
, distanţa dintre centrele
grupurilor
( ) ) , ( ,
2 1
2 1 π π
π π G G d = d

unde centrele G
π1
şi G
π2
au drept componente mediile aritmetice ale componentelor
elementelor din cele două grupuri, respectiv.
De remarcat că centrul unui grup este dinamic, fiecare nou element putând
produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar
acel element.
Metoda distanţei Ward (Ward's linkage)
Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după
contopirea grupurilor într-unul singur. Metoda Ward selectează grupările care
minimizează creşterea sumei de pătrate a erorilor.
( ) ( ) ) ( ) ( ) ( ,
) (
2 1 2 1 2 1
2
π π π π π π
π
π
π
SP SP SP
x x SP
x
+ − ∪ =
− =


d

Dendrograma
Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma).
Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii
elementelor clasificate. Componentele partiţiei sunt clasele căutate.
În figura alăturată este prezentată o dendogramă. Pe axa orizontală sunt
elementele iniţiale (ordinea este cea care permite desenarea arborelui). Pe axa
verticală sunt distanţele dintre obiecte, de exemplu, între obiectele 4 şi 6 este o
distanţă egală cu 4.


Calitatea clasificării
Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori
(numărul de clase în special), evaluarea calităţii partiţiei obţinute este o etapă foarte
importantă. Evaluarea trebuie să ia în considerare atât faptul că, poate, mulţimea
iniţială nu are o structură bine determinată de clase, cât şi faptul că diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
• Vizualizarea partiţiei (dendrograme, profiluri, proiecţii).
• Indicatori de calitate
o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare
(agglomerative coefficient – AC) care oferă indicatori (medii)
globali.
o Indici de siluetă (Silhouette) care se pot defini atât global, cât şi
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculează d(i) ca fiind
raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare)
la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii
totale de obiecte (clusterul iniţial). Atunci

= ) (
1
i d
n
DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendentă: Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre
disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi
diametrul mulţimii totale de obiecte (clusterul final).
| |

− = ) ( 1
1
i d
n
AC

AC tinde să crească o dată cu numărul de obiecte.
Silueta se calculează (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a
unui cluster, silueta medie globală. Acest indice vrea să reprezinte cât de bine este
separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster
– distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa inter-
clustere).
Prin calculul siluetei se poate decide asupra validităţii unui cluster, ca şi
asupra numărului corect de clustere.
Notând cu S (i) silueta obiectului i, formula de calcul este
} , max{
) (
i i
i i
b a
a b
i S

=

unde a
i
– disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster;
b
i
– disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al
doilea candidat pentru includerea obiectului i).
Dacă obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional,
cu putere de comparare. Interpretarea este
• Dacă S (i) este apropiat de 1, atunci obiectul este bine clasificat (este
asociat cu clusterul adecvat).
• Dacă S (i) este aproape nul, atunci obiectul poate fi clasificat şi în
următorul cluster apropiat (obiectul este situat similar în raport cu ambele
clustere)
• Dacă S (i) este apropiat de –1, atunci obiectul este clasificat eronat (el este
separat faţă de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obţinută ca media siluetelor
elementelor din cluster.
Intreaga structură de clustere este caracterizată de silueta medie globală,
obţinută ca media siluetelor S(i) după toate obiectele i. Dacă structura conţine un
număr k de clustere, se notează silueta medie globală cu S
k
. Silueta medie globală se
poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege
acel k pentru care S
k
este maxim.
Se introduce coeficientul siluetă prin
k
k
S SC max =

Este propusă (Rousseeuw - 1987) următoarea interpretare a coeficientului
siluetă după valoarea sa:
• 0.71 - 1.00 s-a determinat o structură puternică (bine definită) de
clustere;
• 0.51 - 0.70 s-a determinat o structură acceptabilă
• 0.26 - 0.50 structura determinată este slabă, poate fi artificială
• ≤ 0.25 structura determinată este artificială.

B. Instrumente SPSS
Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze –
Classify. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda
generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. De
menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de
calcule, el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor
este importantă. Pentru considerarea altor distanţe se va apela procedura Hierarchical
Cluster.
K-Means Cluster
Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de
clase este cunoscut) şi apoi se repetă etapele:
• atribuirea fiecărui caz la centrul cel mai apropiat,
• actualizarea centrelor ca valori medii ale elementelor aparţinând clasei
respective.
Ca interpretare se poate considera că centrul unei clase finale reflectă
caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru.
Prin Analize – Classify – K-Means Cluster se deschide dialogul

În lista Variables se vor trece variabilele în funcţie de care se face clasificarea.
Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label
Cases by. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a
numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind
diagramele proiecţiilor pe planele factoriale. Ca metodă se poate alege
• Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin
recalcularea centrelor după fiecare iteraţie. Dacă se doreşte utilizarea rezultatelor
şi pentru clasificarea altor cazurii, informaţiile se vor salva într-un fişier prin
selectarea opţiunii Write final as din grupul Cluster Centers.
• Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un
fişier centrele claselor, calculate în prealabil şi salvate. În acest caz se va selecta,
din zona Cluster Centers, Read initial from şi se va preciza File, fişierul salvat
într-o prelucrare anterioară.
Prin acţionarea butonului Iterate din dialogul principal, buton permis doar
pentru metoda Iterate and classify, se deschide dialogul sinonim.
În Maximum Iterations se fixează limita numărului de
iteraţii, cel mult 999. Valoarea dată în Convergence
Criterion reprezintă o proporţie p din distanţa minimă dintre
centrele iniţiale, deci poate fi între 0 şi 1. Procesul iterativ se
opreşte dacă niciun centru recalculat nu este deplasat cu mai
mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei.
Prin selectarea opţiunii Use running means se cere
recalcularea centrelor la fiecare clasare a unui caz şi nu după
clasarea tuturor cazurilor.
Acţionarea butonului Save din dialogul principal
deschide dialogul prin care se poate cere salvarea unor
informaţii ca noi variabile.
Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele
finale. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul
clasei la care aparţine.
Prin dialogul Options, afişat la acţionarea butonului Options din dialogul
principal, se pot preciza statisticile calculate şi modul de tratare a datelor lipsă.
În grupul Statistics:
• Initial cluster centers – prima estimare a centrelor,
obţinută prin alegerea unui număr de cazuri egal cu
numărul de clustere.
• ANOVA table – se afişează tabelul ANOVA pentru
fiecare variabilă, considerând clusterele drept
factor. Valorile F mari vor arăta variabilele care
contribuie cel mai mult la structura clusterelor.
• Cluster information for each case – afişează asignările finale la clase, distanţa la
centrul clasei ca şi distanţele euclidiene dintre centrele finale.
Rezultatele SPSS în cazul K-Means Cluster
Ieşirea depinde de opţiunile selectate în dialogurile procedurii, tabelele listate
în cazul (aproape) complet sunt prezentate în continuare. S-a realizat o clasificare
ilustrativă utilizând fişierul SPSS de test Employee Data.
Centrele iniţiale ale claselor sunt alese aleatoriu, atâtea câte clustere sunt
indicate în dialogul principal. Se prezintă coordonatele centrelor în spaţiul
variabilelor.

Modificările survenite în timpul procesului iterativ sunt sistematizate în
tabloul următor, prezentându-se modificările apărute în coordonatele centrelor.

Centrele claselor finale sunt afişate într-un tabel similar celui care arată
centrele iniţiale:

O verificare mai mult orientativă asupra separării clusterelor după fiecare
variabilă considerată este conţinută în tabelul ANOVA:

Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a
clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor
clusterelor. Se poate însă interpreta comparativ valoarea statisticii F în sensul că
variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată.
Un tabel final arată câte elemente sunt clasificate în fiecare cluster.

Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul
clasei sunt create ca noi variabile cu denumiri implicite, după modelul

Informaţiile salvate pot fi utilizate, în afara scopului propus de a cunoaşte
unde aparţine fiecare observaţie, şi pentru ilustrarea clasificării prin diagrama de
forma următoare, în care se poate observa modul de diferenţiere a claselor după
diverse variabile (comanda a fost Graph - Scatter - Simple Scatter şi s-a precizat
noua variabilă Cluster Number în Set Markers by).

Hierarchical Cluster
Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi
reuneşte clustere până când se obţine un singur cluster. Se pot selecta mai multe
distanţe, se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului
optim de clustere.
Comanda este Analyze – Classify – Hierarchical Cluster care produce
afişarea dialogului principal.

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opţiunii
selectate în grupul Cluster. Variabilele reprezentând caracteristicile după care are loc
clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă
de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice.
Grupul Display controlează ce se afişează, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate în continuare.
Statistics
Agglomeration schedule – se afişează
combinaţiile din fiecare iteraţie, distanţe etc.
Proximity matrix – se afişează distanţele sau
similarităţile dintre elemente. Cluster Membership –
produce afişarea apartenenţei la clustere în una sau
mai multe iteraţii.
Plots
Diagramele de aglomerare sunt disponibile în
formatul
• Dendrogram (dendrograma explicată in curs,
orientată spre vizualizarea clusterelor) sau
• Icicle (similară diagramei steag, orientată spre
vizualizarea cazurilor).
Orientarea diagramei poate fi verticală sau
orizontală. În reprezentarea dendrogramei, distanţele
dintre elementele care se unesc sunt transformate pe o
scală 0 – 25, cu păstrarea raportului distanţelor.
Method
În lista Cluster Method se poate alege una dintre metodele explicate în curs ca
metode de agregare, de calculare a distanţelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai depărtat vecin
(furthest neighbor), distanţa faţă de centru
(centroid clustering), Ward etc.
În grupul Measure se poate specifica
distanţa sau similaritatea utilizată în grupare
potrivit tipului de date:
• Interval – pentru datele continue sunt
disponibile distanţele: euclidiană, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaţia Pearson, Chebychev
(diferenţa absolută maximă dintre valorile
elementelor), block (suma diferenţelor
absolute dintre componente, distanţa Manhattan), Minkowski (rădăcina de ordin p
din suma diferenţelor absolute la puterea p), Customized (similară cu distanţa
Minkowski, dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de
coordonate)
• Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere
χ
2
şi φ
2
(a se vedea secţiunea privind asocierea datelor nominale).
• Binary – pentru datele dihotomice există o mulţime de distanţe propuse, bazate pe
tabelul de frecvenţe încrucişate a celor două variabile. Se pot preciza valorile
interpretate ca 0 sau 1.
În grupurile Transform Values şi Transform Measures se pot selecta metode
de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen
măsurate.
Save
Se poate salva, sau nu, ca variabile noi,
apartenenţa la clustere. Selectarea opţiunii Single
solution şi precizarea numărului de clustere
considerat ca soluţie finală va salva apartenenţa la
acel stadiu.
Dacă se selectează Range of solutions, se va
salva apartenenţa la fiecare stadiu dintre cele
menţionate.
C. Lucrarea practică
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conţine consumul de proteine în 25 de ţări europene. Datele se referă la anul 1973.
Sunt măsurate următoarele variabile: Country - numele ţării, RdMeat - carne roşie,
WhMeat - carne albă, Eggs - ouă, Milk - lapte, Fish - peşte, Cereal - cereale,
Starch - grăsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot
fi grupate cele 25 de ţări
b) să se realizeze o clasificare a celor 25 de ţări; să se studieze concordanţa cu
situaţia observată la punctul a).
2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
– numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul
de muncitori din minerit, Man – procentajul de muncitori din industria
prelucrătoare, PS – procentajul de muncitori din industria energetică, Con –
procentajul de muncitori din construcţii, SI – procentajul de muncitori din
servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de
muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi
comunicaţii.
a) să se aplice un algoritm de clasificare ierarhică
b) să se aplice algoritmul k-means pentru k = 4; să se compare cu rezultatul
clasificării realizate la a).

Clasificare descriptivă In analiza multivariată. obiecte. inclusiv apartenenţa la clasele π1. relaţii. • datele sunt omogene în sensul că are sens calculul distanţelor dintre elemente • există suficient de multe date încât simpla inspecţie vizuală sau prelucrările statistice elementare nu oferă o imagine satisfăcătoare a structurii datelor • tabloul de date este amorf: nu există o structurare a priori (dependenţe funcţionale. Aceste k obiecte stabilesc clasa noului obiect prin • Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai mulţi dintre cei k vecini (care dispun fiecare de un vot întreg). se defineşte norma unui vector prin x = d Σ (x. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o observaţie (valorile celor m variabile determină un punct în spaţiul R m) şi punctele centrale. cea mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m variabile. clasificarea descriptivă (cluster analysis) se referă la metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte similare. este definită prin d Σ (x. Componentele cu variabilitate mare ar trebui să contribuie cu ponderi mai mici decât cele cu variabilitate mică. din păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor: variabile măsurate pe scale diferite. y ) = (x − y)′Σ −1 (x − y) şi. coloanele sunt variabile. xm)′ şi y = (y1. Distanţele se pot calcula ca distanţe euclidiene. dar. atribute). centroizii claselor. …. • Vot invers proporţional distanţei – similar votului majoritar. …. adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis între punctele x = (x1.0) = x' Σ −1x . Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii. π2.Definim centrul unei clase (sau centroidul clasei) în mod uzual. clasificări cunoscute). Se determină k obiecte cele mai apropiate de noua observaţie. dar fiecare dintre cei k vecini apropiaţi dispune de o fracţiune de vot. In plus. 1.nearest neighbours). …. de ordine de mărime diferite. pot afecta foarte mult distanţele euclidiene. ca punctul având drept componente mediile aritmetice ale componentelor corespunzătoare din punctele clasei. Σ Clasificare predictivă – k vecini Considerăm situaţia clasificării propriu-zise. şi se doreşte clasarea unei noi observaţii. Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k . ym) ′. πk. Cazurile de aplicare ale acestor metode sunt similare celor în care se utilizează analiza factorială. . adică sunt cunoscute n obiecte prin atributele lor. egală cu inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie). Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi. 2. corespunzător.

Rezultă că problema esenţială în determinarea (identificarea) clusterelor este cea a specificării proximităţii (apropierii. Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca urmare a unei suite de operaţii efectuate recursiv sau repetitiv. cluster) o mulţime de obiecte (elemente) similare între ele şi nesimilare obiectelor din alte clase. cât şi continue). Este evident că proximitatea este o noţiune dependentă de problema reală cercetată. localizate de clasificarea descriptivă. Atunci când atributele sunt de tipuri diferite (atât discrete. Deoarece se pot aplica pe aceleaşi structuri de date. Elementele d(i. binara 1 in rest  Menţionăm că d ij( f ) este contribuţia variabilei f la d(i. • Matricea de proximitate. Structurile uzuale de date privind obiectele supuse analizei cluster sunt: • Matricea de pattern-uri. atunci (normalizare prin amplitudine) ( d ij f ) = xif − x jf max xhf − min xhf h h . diferenţiere).j) şi anume: dacă f este binară sau nominală. analiza factorială este efectuată mai întâi. clusterele fiind separate între ele de regiuni cu o densitate scăzută (relativ) de puncte.De remarcat că ultima caracteristică este cea care ne depărtează de descrierea predictivă (unde se presupunea existenţa unei structurări necesare în etapa de training). matematica implicată este relativ elementară. Este cazul obiectelor care sunt prezente prin atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p. sau • Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate mare (relativ) de puncte. metodele clasificării descriptive sunt complementare metodelor analizei factoriale. De regulă. clasele evidenţiate de aceasta fiind precizate. cum ar fi coeficientul de corelaţie.j) reprezintă proximităţile dintre obiectele i şi j. Drept rezultat al clasificării descriptive se obţin grupurile de elemente. coloanele sunt atribute (variabile). se poate calcula proximitatea dintre obiectele i şi j prin d (i. cum ar fi distanţa euclidiană. Numim clasă (grup. Liniile sunt obiecte (pattern-uri).1] unde δ (f) ij este ponderea variabilei f δ (f) ij pentru xif sau x jf lipsa 0  = 0 xif = x jf = 0 si f este asimetrica. j ) = ∑δ f =1 f p (f) ij ( d ij f ) ∑ δ ij( f ) i =1 ∈ [0. similarităţii) şi cum se determină aceasta. sau o disociere (depărtare. Proximitatea poate fi o similaritate (asemănare). Un cluster poate fi gândit (reprezentările grafice reflectă aceste interpretări) • Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi depărtate de punctele din alte clase. atunci când se utilizează împreună. atunci dij( f ) = 0 pentru xif = x jf  1 altfel (Hamming) dacă f este continuă. ierarhizate. clasele identificate.

2. Etapa 0 – există cele n elemente care se clasifică. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se clasifică are un singur element. rif − 1 şi se max rhf − 1 h Există mai multe tipuri de algoritmi de clasificare: .agregare Algoritmul fundamental de clasificare ascendentă ierarhică este: 1. Pentru fiecare obiect i din afara grupului S a. în medie. se poate obţine şi aici o ierarhie a partiţiilor. Se repetă a) – c) până ce Dh este negativ.Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase) care se modifică pentru a maximiza omogenitatea fiecărei clase. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi se produce. . 2. Clasificare descriptivă .- dacă f este ordinală. de elementele din S). Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical cluster analysis). Se pleacă de la mulţimea totală a elementelor 2.Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată succesiv în submulţimi de obiecte din ce în ce mai omogene. Se determină un obiect h cu Dh = max Di. c. prin agregarea lor. . Algoritmul se opreşte atunci când toate grupurile constituite au câte un singur element. Mulţimea iniţială este acum divizată în două clustere. Este obiectul care iniţiază un nou cluster. cea mai “mare” (cea mai eterogenă) grupare este divizată în două subgrupări. Dacă Dh este pozitiv. Clasificare descriptivă . 4. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte obiecte (cea mai mare disociere). j ) j∉S j∈S b. Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis): 1. Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului. 3. atunci obiectul h se adaugă grupului splinter (este mai apropiat. La fiecare pas următor. Evident că se pot utiliza şi alte metode în acest scop. 3. d. se obţine astfel o ierarhie de partiţii. se atribuie rangul rif. un nou element. de sinteză) – clasele sunt construite prin agregarea succesivă a elementelor.divizare Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă: 1. definit ca distanţa maximă dintre două elemente din grup. se calculează zif = consideră că f este continuă.Algoritmi ascendenţi (de agregare. S (splinter group). de clase. având valorile zif. j ) − media d (i. Etapa 2 – există acum n-1 elemente care se clasifică. . se calculează Di = media d (i.

5. totuşi. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele clusterelor. pe axa orizontală se trec diametrele clusterelor. 4. Se ajustează numărul de clustere prin reunirea sau divizarea unor clustere sau prin eliminarea clusterelor aberante (cu un număr mic de elemente). Metodele de partiţionare sunt utile atunci când există un mare număr de obiecte. 2. Un algoritm general de partiţionare este: 1. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu centrul cel mai apropiat. Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent. Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care minimizează suma pătratelor erorilor (apare la distanţa Ward). Centroizii fiecărui cluster astfel format constituie centrele pentru pasul următor. 6.3. 4. Partiţia finală constituie structura de clustere căutată. Acesta este divizat prin paşii 1 – 2. în care pe axa verticală sunt obiectele. Nu se recalculează centrele după fiecare clasificare a unui element. .partiţionare Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge. Se selectează clusterul cu cel mai mare diametru. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se îmbunătăţeşte funcţia criteriu. prin migrarea obiectelor între clase. faptul că nu există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte. la o partiţie care îndeplineşte un criteriu de optim. De reţinut. caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte produc o dendrogramă de neînţeles). Partiţia iniţială O partiţie iniţială se poate obţine selectând k obiecte. Eroarea este distanţa de la un obiect la centrul clusterului său. considerându-le centre şi grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). 3. Clasificare descriptivă . Se repetă 3) până când toate grupurile constituite au un singur element. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se îmbunătăţeşte criteriul ales. Se calculează noile centre ale clusterelor. Elementele importante ale algoritmului sunt comentate în continuare.

Intr-o metodă fuzzy se obţin. Se încearcă astfel atingerea unui număr “natural” de clustere. Demonstraţii matematice ale convergenţei au fost bazate • fie pe formularea problemei ca o problemă de programare matematică. Clasificare descriptivă – metode fuzzy In afară de metodele deterministe. Convergenţa Deşi nu se garantează atingerea unui optim global. analiză în componente principale etc. • Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu. apropiat de gruparea reală. că partiţii iniţiale diferite conduc la clustere finale diferite. • fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa interclase şi se micşorează varianţa intraclase. probabilităţile ca obiectul să aparţină la fiecare dintre clustere. anumiţi autori recomandă excluderea obiectelor aberante (şi chiar a celor din clusterele cu puţine elemente). Se încearcă astfel evitarea unui optim local. de două ori mai multe decât numărul minim). ceea ce – dată fiind finitudinea mulţimii de obiecte – produce oprirea procesului. pentru fiecare obiect. Clusterele iniţiale pot fi date de o clasificare ascendentă. se pot analiza subgrupurile stabile (elemente care sunt mereu împreună). sau o Centrele se recalculează după ce au fost procesate toate obiectele. algoritmul se opreşte atunci când funcţia criteriu nu mai poate fi îmbunătăţită.Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o analiză prealabilă (clasificare ascendentă. Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Actualizarea partiţiei Există mai multe moduri de abordare a pasului 2 din metoda generală: • Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat.). au fost dezvoltate şi metode de clasificare fuzzy. • Un cluster este divizat dacă dispersia elementelor (după atributul cel mai dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de elemente (de exemplu. Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor conduc la atingerea unui optim local. Din acest motiv. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale diferite. totuşi. • Dacă se ajunge la o aceeaşi partiţie. atunci se măreşte încrederea că s-a atins un optim global. • In caz că nu. Jensen): • Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau dacă distanţa dintre centrele lor este mică (sub un prag fixat). Algoritmul cel mai cunoscut este. . în acest sens. o Centrele se recalculează după fiecare atribuire. De reţinut. care pot oferi informaţii despre numărul de clustere. cel puţin dacă grupurile nu sunt bine diferenţiate. Este de remarcat că existenţa valorilor aberante poate denatura procesul de clusterizare. de exemplu. ISODATA (Ball & Hall. Ajustarea partiţiei Se pot defini condiţii pentru reducerea. neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor sau din alte cauze exterioare. sau – în anumite variante – când partiţia nu se modifică în două iteraţii succesive. sau extinderea numărului de clustere.

c j ) i =1 j =1 n c unde n . c j )    l =1  i l  cj = m ∑ uij xi i =1 n m ∑ uij i =1 n Procesul se opreşte atunci când matricea de apartenenţă se stabilizează: ( ( max uijk +1) − uijk ) < ε i. este metoda celor c medii (fuzzy c-means). o metodă fuzzy. Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv) prin actualizarea la fiecare pas a matricei de apartenenţă (uij) şi a centrelor clusterelor (cj) 1 uij = 1 c  d 2 ( x . uij este gradul de apartenenţă al lui i la clusterul j. m ∈ R .numărul de obiecte. . m > 1 este parametru (uzual este 2). Distanţe între obiecte În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre obiecte (elemente sau grupuri deja constituite). j = 1…c sunt centrele clusterelor. c )  m −1 ∑  d 2 ( xi . Rezultatul este conţinut în matricea de apartenenţă (uij) care oferă probabilităţile apartenenţei elementelor la clase. d este o distanţă de similaritate. Metoda celui mai apropiat vecin (nearest neighbor method) Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite) d(π1. c – numărul de clustere. bazată pe minimizarea funcţiei obiectiv m J m = ∑∑ uij d 2 ( xi . ceea ce nu produce o grupare acceptabilă. j unde ε ∈ (0. Alegerea unei anumite distanţe modifică grupările care se constituie. π 2 ) = min d ( x. y∈π 2 În imaginea următoare se exemplifică.De exemplu. cj. un lanţ de obiecte apropiate două câte două este atribuit. prin numerotarea 1 … 6 ordinea de atribuire a elementelor respective la grupurile figurate în extremităţi. y ) x∈π 1 . 1) are semnificaţia uzuală în procese iterative similare. de regulă. Astfel. similară metodei de partiţionare. la un singur grup.

Metoda distanţei Ward (Ward's linkage) Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după contopirea grupurilor într-unul singur. y ) n1n2 x∈π 1 y∈π 2 Metoda distanţei centrelor (average group linkage) Se consideră. π 2 ) = max d ( x. y ) x∈π 1 . În imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor corespunzătoare la cele două grupuri extreme. Gπ 2 ) unde centrele Gπ1 şi Gπ2 au drept componente mediile aritmetice ale componentelor elementelor din cele două grupuri. Centrul unui grup format dintr-un singur element este chiar acel element. Gruparea obţinută corespunde mai bine şi grupării intuitive (efectuată de un operator uman). fiecare nou element putând produce deplasarea lui. π 2 ) = ∑ ∑ d ( x. ca distanţă dintre două grupuri π1 şi π2. π 2 ) = SP(π1 ∪ π 2 ) − (SP(π1 ) + SP(π 2 ) ) x∈π ∑ x − xπ 2 . De remarcat că centrul unui grup este dinamic. SP(π ) = d(π1. respectiv. π 2 ) = d (Gπ 1 .Metoda celui mai depărtat vecin (farthest neighbor method) Această metodă utilizează calcularea distanţei dintre două grupuri drept distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai depărtate elemente din clase diferite) d(π1. y∈π 2 Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. distanţa dintre centrele grupurilor d(π 1. Metoda legăturii medii Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente ale grupurilor 1 d(π1. Metoda Ward selectează grupările care minimizează creşterea sumei de pătrate a erorilor.

poate. de exemplu. Calitatea clasificării Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori (numărul de clase în special). Componentele partiţiei sunt clasele căutate.Dendrograma Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma). Procedurile uzuale de evaluare: • Vizualizarea partiţiei (dendrograme. profiluri. În figura alăturată este prezentată o dendogramă. Divisive Coefficient (DC): Pentru fiecare obiect i. o Indici de siluetă (Silhouette) care se pot defini atât global. Pe axa verticală sunt distanţele dintre obiecte. mulţimea iniţială nu are o structură bine determinată de clase. Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii elementelor clasificate. Evaluarea trebuie să ia în considerare atât faptul că. cât şi local pentru fiecare cluster. cât şi faptul că diferite metode conduc la clase diferite. Pe axa orizontală sunt elementele iniţiale (ordinea este cea care permite desenarea arborelui). între obiectele 4 şi 6 este o distanţă egală cu 4. se calculează d(i) ca fiind raportul dintre disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi diametrul mulţimii totale de obiecte (clusterul final). 1 AC = ∑ [1 − d (i )] n . evaluarea calităţii partiţiei obţinute este o etapă foarte importantă. Atunci 1 DC = ∑ d (i ) n Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendentă: Pentru fiecare obiect i. se calculează d(i) ca fiind raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare) la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii totale de obiecte (clusterul iniţial). • Indicatori de calitate o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare (agglomerative coefficient – AC) care oferă indicatori (medii) globali. proiecţii).

Dacă obiectul i este singurul element al unui cluster. poate fi artificială • ≤ 0. ca şi asupra numărului corect de clustere.1987) următoarea interpretare a coeficientului siluetă după valoarea sa: s-a determinat o structură puternică (bine definită) de • 0.1. atunci obiectul este bine clasificat (este asociat cu clusterul adecvat).AC tinde să crească o dată cu numărul de obiecte. • Dacă S (i) este aproape nul. bi – disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i). atunci obiectul este clasificat eronat (el este separat faţă de celelalte clustere). Dacă structura conţine un număr k de clustere. atunci S (i) = 0. bi } unde ai – disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster. • 0. obţinută ca media siluetelor S(i) după toate obiectele i. Notând cu S (i) silueta obiectului i. Instrumente SPSS Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze – Classify. B. se notează silueta medie globală cu Sk. cu putere de comparare.0. De menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de .50 structura determinată este slabă.70 s-a determinat o structură acceptabilă • 0. Prin calculul siluetei se poate decide asupra validităţii unui cluster.00 clustere. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. silueta medie a unui cluster. formula de calcul este bi − ai S (i ) = max{ai . silueta medie globală. Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional. 1987) ca silueta unui obiect.25 structura determinată este artificială.51 . Acest indice vrea să reprezinte cât de bine este separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster – distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa interclustere).26 . obţinută ca media siluetelor elementelor din cluster. atunci obiectul poate fi clasificat şi în următorul cluster apropiat (obiectul este situat similar în raport cu ambele clustere) • Dacă S (i) este apropiat de –1.0. Silueta se calculează (Rousseeuw. Silueta medie globală se poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege acel k pentru care Sk este maxim. Se introduce coeficientul siluetă prin SC = max Sk k Este propusă (Rousseeuw . Intreaga structură de clustere este caracterizată de silueta medie globală. Interpretarea este • Dacă S (i) este apropiat de 1.71 . Fiecare cluster este caracterizat de silueta medie.

• Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un fişier centrele claselor. Acţionarea butonului Save din dialogul principal deschide dialogul prin care se poate cere salvarea unor . • actualizarea centrelor ca valori medii ale elementelor aparţinând clasei respective. Prin selectarea opţiunii Use running means se cere recalcularea centrelor la fiecare clasare a unui caz şi nu după clasarea tuturor cazurilor.calcule. În acest caz se va selecta. Valoarea dată în Convergence Criterion reprezintă o proporţie p din distanţa minimă dintre centrele iniţiale. se deschide dialogul sinonim. Ca interpretare se poate considera că centrul unei clase finale reflectă caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru. deci poate fi între 0 şi 1. Ca metodă se poate alege • Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin recalcularea centrelor după fiecare iteraţie. În Maximum Iterations se fixează limita numărului de iteraţii. K-Means Cluster Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de clase este cunoscut) şi apoi se repetă etapele: • atribuirea fiecărui caz la centrul cel mai apropiat. fişierul salvat într-o prelucrare anterioară. Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label Cases by. cel mult 999. Procesul iterativ se opreşte dacă niciun centru recalculat nu este deplasat cu mai mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei. din zona Cluster Centers. Read initial from şi se va preciza File. el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor este importantă. Dacă se doreşte utilizarea rezultatelor şi pentru clasificarea altor cazurii. informaţiile se vor salva într-un fişier prin selectarea opţiunii Write final as din grupul Cluster Centers. Pentru considerarea altor distanţe se va apela procedura Hierarchical Cluster. Prin acţionarea butonului Iterate din dialogul principal. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind diagramele proiecţiilor pe planele factoriale. calculate în prealabil şi salvate. buton permis doar pentru metoda Iterate and classify. Prin Analize – Classify – K-Means Cluster se deschide dialogul În lista Variables se vor trece variabilele în funcţie de care se face clasificarea.

prezentându-se modificările apărute în coordonatele centrelor. tabelele listate în cazul (aproape) complet sunt prezentate în continuare. Se prezintă coordonatele centrelor în spaţiul variabilelor. considerând clusterele drept factor. distanţa la centrul clasei ca şi distanţele euclidiene dintre centrele finale. Centrele iniţiale ale claselor sunt alese aleatoriu. • ANOVA table – se afişează tabelul ANOVA pentru fiecare variabilă. atâtea câte clustere sunt indicate în dialogul principal. Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele finale. • Cluster information for each case – afişează asignările finale la clase. Centrele claselor finale sunt afişate într-un tabel similar celui care arată centrele iniţiale: O verificare mai mult orientativă asupra separării clusterelor după fiecare variabilă considerată este conţinută în tabelul ANOVA: Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a clusterelor. În grupul Statistics: • Initial cluster centers – prima estimare a centrelor. se pot preciza statisticile calculate şi modul de tratare a datelor lipsă. Valorile F mari vor arăta variabilele care contribuie cel mai mult la structura clusterelor. Modificările survenite în timpul procesului iterativ sunt sistematizate în tabloul următor. Rezultatele SPSS în cazul K-Means Cluster Ieşirea depinde de opţiunile selectate în dialogurile procedurii. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul clasei la care aparţine. S-a realizat o clasificare ilustrativă utilizând fişierul SPSS de test Employee Data.informaţii ca noi variabile. afişat la acţionarea butonului Options din dialogul principal. obţinută prin alegerea unui număr de cazuri egal cu numărul de clustere. toate testele F duc la respingerea ipotezei de egalitate a mediilor . Prin dialogul Options.

Se pot selecta mai multe distanţe. se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului optim de clustere. în care se poate observa modul de diferenţiere a claselor după diverse variabile (comanda a fost Graph . şi pentru ilustrarea clasificării prin diagrama de forma următoare. Un tabel final arată câte elemente sunt clasificate în fiecare cluster. în afara scopului propus de a cunoaşte unde aparţine fiecare observaţie. după modelul Informaţiile salvate pot fi utilizate. Se poate însă interpreta comparativ valoarea statisticii F în sensul că variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată. Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul clasei sunt create ca noi variabile cu denumiri implicite. Hierarchical Cluster Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi reuneşte clustere până când se obţine un singur cluster. Comanda este Analyze – Classify – Hierarchical Cluster care produce afişarea dialogului principal. .Scatter .Simple Scatter şi s-a precizat noua variabilă Cluster Number în Set Markers by).clusterelor.

Dialogurile secundare sunt explicate în continuare. dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de coordonate) • Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere χ2 şi φ2 (a se vedea secţiunea privind asocierea datelor nominale). distanţe etc. orientată spre vizualizarea clusterelor) sau • Icicle (similară diagramei steag. Cluster Membership – produce afişarea apartenenţei la clustere în una sau mai multe iteraţii. Proximity matrix – se afişează distanţele sau similarităţile dintre elemente. Grupul Display controlează ce se afişează. .Analiza se poate efectua pentru cazuri. În grupul Measure se poate specifica distanţa sau similaritatea utilizată în grupare potrivit tipului de date: • Interval – pentru datele continue sunt disponibile distanţele: euclidiană. cu păstrarea raportului distanţelor. potrivit opţiunii selectate în grupul Cluster. distanţa Manhattan). În reprezentarea dendrogramei. distanţa faţă de centru (centroid clustering). Ward etc. Minkowski (rădăcina de ordin p din suma diferenţelor absolute la puterea p). Customized (similară cu distanţa Minkowski. sau pentru variabile. de calculare a distanţelor dintre clustere: cel mai apropiat vecin (nearest neighbor). orientată spre vizualizarea cazurilor). Chebychev (diferenţa absolută maximă dintre valorile elementelor). deci accesibilitatea la butoanele Statistics. cosinus (cosinusul unghiului dintre vectorii punctelor). Plots. cel mai depărtat vecin (furthest neighbor). Orientarea diagramei poate fi verticală sau orizontală. Method În lista Cluster Method se poate alege una dintre metodele explicate în curs ca metode de agregare. block (suma diferenţelor absolute dintre componente. distanţele dintre elementele care se unesc sunt transformate pe o scală 0 – 25. Plots Diagramele de aglomerare sunt disponibile în formatul • Dendrogram (dendrograma explicată in curs. Statistics Agglomeration schedule – se afişează combinaţiile din fiecare iteraţie. Variabilele reprezentând caracteristicile după care are loc clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice. corelaţia Pearson.

ro/~val/statistica/EuropeanJobs.numele ţării. Fr&Veg . RdMeat . a) să se aplice un algoritm de clasificare ierarhică b) să se aplice algoritmul k-means pentru k = 4.fructe. • Save Se poate salva. Milk . Datele se referă la anul 1973. Min – procentajul de muncitori din minerit. Starch . Nuts . a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot fi grupate cele 25 de ţări b) să se realizeze o clasificare a celor 25 de ţări.txt.lapte. Fish . WhMeat .infoiasi. ca variabile noi. PS – procentajul de muncitori din industria energetică. Fin – procentajul de muncitori din finanţe.cereale. Agr – procentajul de muncitori din agrucultură.Binary – pentru datele dihotomice există o mulţime de distanţe propuse. TC – procentajul de muncitori din transporturi şi comunicaţii. Lucrarea practică 1) Setul de date aflat la adresa www. Selectarea opţiunii Single solution şi precizarea numărului de clustere considerat ca soluţie finală va salva apartenenţa la acel stadiu.oleaginoase. Eggs . bazate pe tabelul de frecvenţe încrucişate a celor două variabile.carne roşie. Cereal . să se compare cu rezultatul clasificării realizate la a). 2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11.ouă. apartenenţa la clustere.grăsimi. Con – procentajul de muncitori din construcţii. sau nu. SPS – procentajul de muncitori din servicii sociale. vegetale. În grupurile Transform Values şi Transform Measures se pot selecta metode de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen măsurate. să se studieze concordanţa cu situaţia observată la punctul a).txt conţine consumul de proteine în 25 de ţări europene. Se pot preciza valorile interpretate ca 0 sau 1. www. Reamintim variabilele: Country – numele ţării.peşte. Man – procentajul de muncitori din industria prelucrătoare. SI – procentajul de muncitori din servicii.carne albă. se va salva apartenenţa la fiecare stadiu dintre cele menţionate. Dacă se selectează Range of solutions. Sunt măsurate următoarele variabile: Country .infoiasi.ro/~val/statistica/EuropeanProtein. C. .

Sign up to vote on this title
UsefulNot useful