Statistică multivariată

Lucrarea nr. 12 — Clasificare - SPSS
A. Noţiuni teoretice
Clasificare
Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în
clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel
care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip
de raţionament este formalizat şi în metodele automate.
Există, în esenţă, două tipuri de clasificare automată:
1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la
un grup pornind de la reguli de clasificare derivate din observaţii
clasificate în prealabil. Se poate ca schema de clasificare existentă să fie
subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele
esenţiale ale schemei şi le transformă în reguli practice.
2. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza
similarităţii lor, nu este cunoscută o grupare prealabilă.
Clasificare predictivă
Considerăm cazul a două populaţii multivariate, Π
1
şi Π
2
, fiecare caracterizată
de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili
populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor
considerate).
Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π
1
şi din Π
2
),
o regulă de clasificare revine la a partiţiona S în A
1
şi A
2
, astfel încât pentru o
observaţie u se poate dezvolta o procedură care decide

dacă u ∈ A
1
, atunci u ∈ Π
1

dacă u ∈ A
2
, atunci u ∈ Π
2
Clasificare predictivă - Fisher
Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre
cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate
au, respectiv, mediile µ
1
, µ
2
şi dispersia comună σ
2
.
Este evident (intuitiv) că o observaţie u va fi clasată în Π
1
dacă u este mai
apropiată de µ
1
şi în Π
2
daca este mai apropiată de µ
2
.
In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme
observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine
atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele
două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în
cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca
rezultat şi funcţiile de clasificare:
Fiecare subpopulaţie, Π
i
, are asociată o funcţie de clasificare f
i
astfel încât
observaţia u este clasată în populaţia Π
j
determinată prin
) ( max ) ( u u
i
i
j
f f =

Definim centrul unei clase (sau centroidul clasei) în mod uzual, ca punctul
având drept componente mediile aritmetice ale componentelor corespunzătoare din
punctele clasei. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o
observaţie (valorile celor m variabile determină un punct în spaţiul R
m
) şi punctele
centrale, centroizii claselor. Distanţele se pot calcula ca distanţe euclidiene, dar, din
păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor:
variabile măsurate pe scale diferite, de ordine de mărime diferite, pot afecta foarte
mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie
cu ponderi mai mici decât cele cu variabilitate mică.
Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi, cea
mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m
variabile, adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis
între punctele x = (x
1
, …, x
m
)′ şi y = (y
1
, …, y
m
) ′, este definită prin
y) (x Σ ) y (x y x,
1
Σ
− ′ − =

) ( d
şi, corespunzător, se defineşte norma unui vector prin
x Σ x' x x
1 −
Σ
Σ
= = ) 0 , ( d
.
Clasificare predictivă – k vecini
Considerăm situaţia clasificării propriu-zise, adică sunt cunoscute n obiecte
prin atributele lor, inclusiv apartenenţa la clasele π
1
, π
2
, …, π
k
, şi se doreşte clasarea
unei noi observaţii.
Un algoritm suficient de des utilizat este acela denumit al celor k vecini
(k - nearest neighbours).
1. Se determină k obiecte cele mai apropiate de noua observaţie.
2. Aceste k obiecte stabilesc clasa noului obiect prin
• Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai
mulţi dintre cei k vecini (care dispun fiecare de un vot întreg).
• Vot invers proporţional distanţei – similar votului majoritar, dar fiecare
dintre cei k vecini apropiaţi dispune de o fracţiune de vot, egală cu
inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai
mult la decizie).
Clasificare descriptivă
In analiza multivariată, clasificarea descriptivă (cluster analysis) se referă la
metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor în care se
utilizează analiza factorială.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii, obiecte,
coloanele sunt variabile, atribute). In plus,
• datele sunt omogene în sensul că are sens calculul distanţelor dintre
elemente
• există suficient de multe date încât simpla inspecţie vizuală sau
prelucrările statistice elementare nu oferă o imagine satisfăcătoare a
structurii datelor
• tabloul de date este amorf: nu există o structurare a priori (dependenţe
funcţionale, relaţii, clasificări cunoscute).
De remarcat că ultima caracteristică este cea care ne depărtează de descrierea
predictivă (unde se presupunea existenţa unei structurări necesare în etapa de
training).
Drept rezultat al clasificării descriptive se obţin grupurile de elemente, clasele
identificate. Deoarece se pot aplica pe aceleaşi structuri de date, metodele clasificării
descriptive sunt complementare metodelor analizei factoriale. De regulă, atunci când
se utilizează împreună, analiza factorială este efectuată mai întâi, clasele evidenţiate
de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptivă.
Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca
urmare a unei suite de operaţii efectuate recursiv sau repetitiv; matematica implicată
este relativ elementară.
Numim clasă (grup, cluster) o mulţime de obiecte (elemente) similare între
ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările
grafice reflectă aceste interpretări)
• Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi
depărtate de punctele din alte clase, sau
• Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate
mare (relativ) de puncte, clusterele fiind separate între ele de regiuni cu o
densitate scăzută (relativ) de puncte.
Rezultă că problema esenţială în determinarea (identificarea) clusterelor este
cea a specificării proximităţii (apropierii, similarităţii) şi cum se determină aceasta.
Este evident că proximitatea este o noţiune dependentă de problema reală cercetată.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
• Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin
atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p.
Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).
• Matricea de proximitate. Elementele d(i,j) reprezintă proximităţile dintre
obiectele i şi j. Proximitatea poate fi
o similaritate (asemănare), cum ar fi coeficientul de corelaţie, sau
o disociere (depărtare, diferenţiere), cum ar fi distanţa euclidiană.
Atunci când atributele sunt de tipuri diferite (atât discrete, cât şi continue), se
poate calcula proximitatea dintre obiectele i şi j prin
] 1 , 0 [ ) , (
1
) (
1
) ( ) (
∈ =


=
=
f
i
f
ij
p
f
f
ij
f
ij
d
j i d
δ
δ

unde
) ( f
ij
δ este ponderea variabilei f
¦
¹
¦
´
¦
= = =
rest in 1
binara , asimetrica este si 0 0
lipsa sau pentru 0
) (
f x x
x x
jf if
jf if
f
ij
δ

Menţionăm că
) ( f
ij
d este contribuţia variabilei f la d(i,j) şi anume:
- dacă f este binară sau nominală, atunci
¹
´
¦ =
=
altfel 1
pentru 0
) ( jf if f
ij
x x
d

(Hamming)
- dacă f este continuă, atunci (normalizare prin amplitudine)
hf
h
hf
h
jf if
f
ij
x x
x x
d
min max
) (


=

- dacă f este ordinală, se atribuie rangul r
if
, se calculează
1 max
1


=
hf
h
if
if
r
r
z
şi se
consideră că f este continuă, având valorile z
if
.

Există mai multe tipuri de algoritmi de clasificare:
- Algoritmi ascendenţi (de agregare, de sinteză) – clasele sunt construite
prin agregarea succesivă a elementelor, se obţine astfel o ierarhie de
partiţii, de clase.
- Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată
succesiv în submulţimi de obiecte din ce în ce mai omogene; se poate
obţine şi aici o ierarhie a partiţiilor.
- Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase)
care se modifică pentru a maximiza omogenitatea fiecărei clase.
Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical
cluster analysis).
Clasificare descriptivă - agregare
Algoritmul fundamental de clasificare ascendentă ierarhică este:
1. Etapa 0 – există cele n elemente care se clasifică;
2. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi
se produce, prin agregarea lor, un nou element;
3. Etapa 2 – există acum n-1 elemente care se clasifică;
4. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se
clasifică are un singur element.
Clasificare descriptivă - divizare
Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă:
1. Se pleacă de la mulţimea totală a elementelor
2. La fiecare pas următor, cea mai “mare” (cea mai eterogenă) grupare este
divizată în două subgrupări.
3. Algoritmul se opreşte atunci când toate grupurile constituite au câte un
singur element.
Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului,
definit ca distanţa maximă dintre două elemente din grup. Evident că se pot utiliza şi
alte metode în acest scop.
Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis):
1. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte
obiecte (cea mai mare disociere). Este obiectul care iniţiază un nou cluster,
S (splinter group).
2. Pentru fiecare obiect i din afara grupului S
a. se calculează
) , ( ) , ( j i d j i d D
j j
i
media media
S S ∈ ∉
− =

b. Se determină un obiect h cu D
h
= max D
i
.
c. Dacă D
h
este pozitiv, atunci obiectul h se adaugă grupului splinter
(este mai apropiat, în medie, de elementele din S).
d. Se repetă a) – c) până ce D
h
este negativ. Mulţimea iniţială este
acum divizată în două clustere.
3. Se selectează clusterul cu cel mai mare diametru. Acesta este divizat prin
paşii 1 – 2.
4. Se repetă 3) până când toate grupurile constituite au un singur element.
Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent,
în care pe axa verticală sunt obiectele, pe axa orizontală se trec diametrele clusterelor.

Clasificare descriptivă - partiţionare
Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se
poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge, prin
migrarea obiectelor între clase, la o partiţie care îndeplineşte un criteriu de optim.
Partiţia finală constituie structura de clustere căutată. De reţinut, totuşi, faptul că nu
există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte.
Metodele de partiţionare sunt utile atunci când există un mare număr de
obiecte, caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte
produc o dendrogramă de neînţeles).
Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care
minimizează suma pătratelor erorilor (apare la distanţa Ward). Eroarea este distanţa
de la un obiect la centrul clusterului său.
Un algoritm general de partiţionare este:
1. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele
clusterelor.
2. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu
centrul cel mai apropiat.
3. Se calculează noile centre ale clusterelor.
4. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se
îmbunătăţeşte criteriul ales.
5. Se ajustează numărul de clustere prin reunirea sau divizarea unor
clustere sau prin eliminarea clusterelor aberante (cu un număr mic de
elemente).
6. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se
îmbunătăţeşte funcţia criteriu.
Elementele importante ale algoritmului sunt comentate în continuare.
Partiţia iniţială
O partiţie iniţială se poate obţine selectând k obiecte, considerându-le centre şi
grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel
mai apropiat). Nu se recalculează centrele după fiecare clasificare a unui element.
Centroizii fiecărui cluster astfel format constituie centrele pentru pasul
următor.
Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o
analiză prealabilă (clasificare ascendentă, analiză în componente principale etc.).
Clusterele iniţiale pot fi date de o clasificare ascendentă, de exemplu. De reţinut,
totuşi, că partiţii iniţiale diferite conduc la clustere finale diferite.
Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor
conduc la atingerea unui optim local, cel puţin dacă grupurile nu sunt bine
diferenţiate. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale
diferite.
• Dacă se ajunge la o aceeaşi partiţie, atunci se măreşte încrederea că s-a
atins un optim global.
• In caz că nu, se pot analiza subgrupurile stabile (elemente care sunt
mereu împreună), care pot oferi informaţii despre numărul de clustere.
Actualizarea partiţiei
Există mai multe moduri de abordare a pasului 2 din metoda generală:
• Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat.
o Centrele se recalculează după fiecare atribuire, sau
o Centrele se recalculează după ce au fost procesate toate obiectele.
• Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu.
Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Se
încearcă astfel evitarea unui optim local.
Ajustarea partiţiei
Se pot defini condiţii pentru reducerea, sau extinderea numărului de clustere.
Se încearcă astfel atingerea unui număr “natural” de clustere, apropiat de gruparea
reală, neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor
sau din alte cauze exterioare.
Algoritmul cel mai cunoscut este, în acest sens, ISODATA (Ball & Hall,
Jensen):
• Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau
dacă distanţa dintre centrele lor este mică (sub un prag fixat).
• Un cluster este divizat dacă dispersia elementelor (după atributul cel mai
dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de
elemente (de exemplu, de două ori mai multe decât numărul minim).
Este de remarcat că existenţa valorilor aberante poate denatura procesul de
clusterizare. Din acest motiv, anumiţi autori recomandă excluderea obiectelor
aberante (şi chiar a celor din clusterele cu puţine elemente).
Convergenţa
Deşi nu se garantează atingerea unui optim global, algoritmul se opreşte atunci
când funcţia criteriu nu mai poate fi îmbunătăţită, sau – în anumite variante – când
partiţia nu se modifică în două iteraţii succesive.
Demonstraţii matematice ale convergenţei au fost bazate
• fie pe formularea problemei ca o problemă de programare matematică,
• fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa
interclase şi se micşorează varianţa intraclase, ceea ce – dată fiind
finitudinea mulţimii de obiecte – produce oprirea procesului.
Clasificare descriptivă – metode fuzzy
In afară de metodele deterministe, au fost dezvoltate şi metode de clasificare
fuzzy. Intr-o metodă fuzzy se obţin, pentru fiecare obiect, probabilităţile ca obiectul să
aparţină la fiecare dintre clustere.
De exemplu, o metodă fuzzy, similară metodei de partiţionare, este metoda
celor c medii (fuzzy c-means), bazată pe minimizarea funcţiei obiectiv
∑∑
= =
=
n
i
c
j
j i
m
ij m
c x d u J
1 1
2
) , (

unde
n - numărul de obiecte, c – numărul de clustere,
m ∈ R , m > 1 este parametru (uzual este 2),
c
j
, j = 1…c sunt centrele clusterelor, d este o distanţă de similaritate, u
ij
este
gradul de apartenenţă al lui i la clusterul j.
Rezultatul este conţinut în matricea de apartenenţă (u
ij
) care oferă
probabilităţile apartenenţei elementelor la clase.
Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv)
prin actualizarea la fiecare pas a matricei de apartenenţă (u
ij
) şi a centrelor clusterelor
(c
j
)

=

|
|
.
|

\
|
=
c
l
m
l i
j i
ij
c x d
c x d
u
1
1
1
2
2
) , (
) , (
1


=
=
=
n
i
m
ij
n
i
i
m
ij
j
u
x u
c
1
1
Procesul se opreşte atunci când matricea de apartenenţă se stabilizează:
ε < −
+ ) ( ) 1 (
,
max
k
ij
k
ij
j i
u u

unde ε ∈ (0, 1) are semnificaţia uzuală în procese iterative similare.
Distanţe între obiecte
În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre
obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distanţe
modifică grupările care se constituie.
Metoda celui mai apropiat vecin (nearest neighbor method)
Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale
grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite)
( ) ) , ( min ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

În imaginea următoare se exemplifică, prin numerotarea 1 … 6 ordinea de
atribuire a elementelor respective la grupurile figurate în extremităţi. Astfel, un lanţ de
obiecte apropiate două câte două este atribuit, de regulă, la un singur grup, ceea ce nu
produce o grupare acceptabilă.

Metoda celui mai depărtat vecin (farthest neighbor method)
Această metodă utilizează calcularea distanţei dintre două grupuri drept
distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai
depărtate elemente din clase diferite)
( ) ) , ( max ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. În
imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor
corespunzătoare la cele două grupuri extreme. Gruparea obţinută corespunde mai bine
şi grupării intuitive (efectuată de un operator uman).

Metoda legăturii medii
Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente
ale grupurilor
( )
∑ ∑
∈ ∈
=
1 2
) , (
1
,
2 1
2 1
π π
π π
x y
y x d
n n
d

Metoda distanţei centrelor (average group linkage)
Se consideră, ca distanţă dintre două grupuri π
1
şi π
2
, distanţa dintre centrele
grupurilor
( ) ) , ( ,
2 1
2 1 π π
π π G G d = d

unde centrele G
π1
şi G
π2
au drept componente mediile aritmetice ale componentelor
elementelor din cele două grupuri, respectiv.
De remarcat că centrul unui grup este dinamic, fiecare nou element putând
produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar
acel element.
Metoda distanţei Ward (Ward's linkage)
Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după
contopirea grupurilor într-unul singur. Metoda Ward selectează grupările care
minimizează creşterea sumei de pătrate a erorilor.
( ) ( ) ) ( ) ( ) ( ,
) (
2 1 2 1 2 1
2
π π π π π π
π
π
π
SP SP SP
x x SP
x
+ − ∪ =
− =


d

Dendrograma
Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma).
Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii
elementelor clasificate. Componentele partiţiei sunt clasele căutate.
În figura alăturată este prezentată o dendogramă. Pe axa orizontală sunt
elementele iniţiale (ordinea este cea care permite desenarea arborelui). Pe axa
verticală sunt distanţele dintre obiecte, de exemplu, între obiectele 4 şi 6 este o
distanţă egală cu 4.


Calitatea clasificării
Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori
(numărul de clase în special), evaluarea calităţii partiţiei obţinute este o etapă foarte
importantă. Evaluarea trebuie să ia în considerare atât faptul că, poate, mulţimea
iniţială nu are o structură bine determinată de clase, cât şi faptul că diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
• Vizualizarea partiţiei (dendrograme, profiluri, proiecţii).
• Indicatori de calitate
o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare
(agglomerative coefficient – AC) care oferă indicatori (medii)
globali.
o Indici de siluetă (Silhouette) care se pot defini atât global, cât şi
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculează d(i) ca fiind
raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare)
la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii
totale de obiecte (clusterul iniţial). Atunci

= ) (
1
i d
n
DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendentă: Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre
disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi
diametrul mulţimii totale de obiecte (clusterul final).
| |

− = ) ( 1
1
i d
n
AC

AC tinde să crească o dată cu numărul de obiecte.
Silueta se calculează (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a
unui cluster, silueta medie globală. Acest indice vrea să reprezinte cât de bine este
separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster
– distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa inter-
clustere).
Prin calculul siluetei se poate decide asupra validităţii unui cluster, ca şi
asupra numărului corect de clustere.
Notând cu S (i) silueta obiectului i, formula de calcul este
} , max{
) (
i i
i i
b a
a b
i S

=

unde a
i
– disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster;
b
i
– disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al
doilea candidat pentru includerea obiectului i).
Dacă obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional,
cu putere de comparare. Interpretarea este
• Dacă S (i) este apropiat de 1, atunci obiectul este bine clasificat (este
asociat cu clusterul adecvat).
• Dacă S (i) este aproape nul, atunci obiectul poate fi clasificat şi în
următorul cluster apropiat (obiectul este situat similar în raport cu ambele
clustere)
• Dacă S (i) este apropiat de –1, atunci obiectul este clasificat eronat (el este
separat faţă de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obţinută ca media siluetelor
elementelor din cluster.
Intreaga structură de clustere este caracterizată de silueta medie globală,
obţinută ca media siluetelor S(i) după toate obiectele i. Dacă structura conţine un
număr k de clustere, se notează silueta medie globală cu S
k
. Silueta medie globală se
poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege
acel k pentru care S
k
este maxim.
Se introduce coeficientul siluetă prin
k
k
S SC max =

Este propusă (Rousseeuw - 1987) următoarea interpretare a coeficientului
siluetă după valoarea sa:
• 0.71 - 1.00 s-a determinat o structură puternică (bine definită) de
clustere;
• 0.51 - 0.70 s-a determinat o structură acceptabilă
• 0.26 - 0.50 structura determinată este slabă, poate fi artificială
• ≤ 0.25 structura determinată este artificială.

B. Instrumente SPSS
Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze –
Classify. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda
generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. De
menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de
calcule, el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor
este importantă. Pentru considerarea altor distanţe se va apela procedura Hierarchical
Cluster.
K-Means Cluster
Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de
clase este cunoscut) şi apoi se repetă etapele:
• atribuirea fiecărui caz la centrul cel mai apropiat,
• actualizarea centrelor ca valori medii ale elementelor aparţinând clasei
respective.
Ca interpretare se poate considera că centrul unei clase finale reflectă
caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru.
Prin Analize – Classify – K-Means Cluster se deschide dialogul

În lista Variables se vor trece variabilele în funcţie de care se face clasificarea.
Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label
Cases by. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a
numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind
diagramele proiecţiilor pe planele factoriale. Ca metodă se poate alege
• Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin
recalcularea centrelor după fiecare iteraţie. Dacă se doreşte utilizarea rezultatelor
şi pentru clasificarea altor cazurii, informaţiile se vor salva într-un fişier prin
selectarea opţiunii Write final as din grupul Cluster Centers.
• Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un
fişier centrele claselor, calculate în prealabil şi salvate. În acest caz se va selecta,
din zona Cluster Centers, Read initial from şi se va preciza File, fişierul salvat
într-o prelucrare anterioară.
Prin acţionarea butonului Iterate din dialogul principal, buton permis doar
pentru metoda Iterate and classify, se deschide dialogul sinonim.
În Maximum Iterations se fixează limita numărului de
iteraţii, cel mult 999. Valoarea dată în Convergence
Criterion reprezintă o proporţie p din distanţa minimă dintre
centrele iniţiale, deci poate fi între 0 şi 1. Procesul iterativ se
opreşte dacă niciun centru recalculat nu este deplasat cu mai
mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei.
Prin selectarea opţiunii Use running means se cere
recalcularea centrelor la fiecare clasare a unui caz şi nu după
clasarea tuturor cazurilor.
Acţionarea butonului Save din dialogul principal
deschide dialogul prin care se poate cere salvarea unor
informaţii ca noi variabile.
Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele
finale. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul
clasei la care aparţine.
Prin dialogul Options, afişat la acţionarea butonului Options din dialogul
principal, se pot preciza statisticile calculate şi modul de tratare a datelor lipsă.
În grupul Statistics:
• Initial cluster centers – prima estimare a centrelor,
obţinută prin alegerea unui număr de cazuri egal cu
numărul de clustere.
• ANOVA table – se afişează tabelul ANOVA pentru
fiecare variabilă, considerând clusterele drept
factor. Valorile F mari vor arăta variabilele care
contribuie cel mai mult la structura clusterelor.
• Cluster information for each case – afişează asignările finale la clase, distanţa la
centrul clasei ca şi distanţele euclidiene dintre centrele finale.
Rezultatele SPSS în cazul K-Means Cluster
Ieşirea depinde de opţiunile selectate în dialogurile procedurii, tabelele listate
în cazul (aproape) complet sunt prezentate în continuare. S-a realizat o clasificare
ilustrativă utilizând fişierul SPSS de test Employee Data.
Centrele iniţiale ale claselor sunt alese aleatoriu, atâtea câte clustere sunt
indicate în dialogul principal. Se prezintă coordonatele centrelor în spaţiul
variabilelor.

Modificările survenite în timpul procesului iterativ sunt sistematizate în
tabloul următor, prezentându-se modificările apărute în coordonatele centrelor.

Centrele claselor finale sunt afişate într-un tabel similar celui care arată
centrele iniţiale:

O verificare mai mult orientativă asupra separării clusterelor după fiecare
variabilă considerată este conţinută în tabelul ANOVA:

Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a
clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor
clusterelor. Se poate însă interpreta comparativ valoarea statisticii F în sensul că
variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată.
Un tabel final arată câte elemente sunt clasificate în fiecare cluster.

Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul
clasei sunt create ca noi variabile cu denumiri implicite, după modelul

Informaţiile salvate pot fi utilizate, în afara scopului propus de a cunoaşte
unde aparţine fiecare observaţie, şi pentru ilustrarea clasificării prin diagrama de
forma următoare, în care se poate observa modul de diferenţiere a claselor după
diverse variabile (comanda a fost Graph - Scatter - Simple Scatter şi s-a precizat
noua variabilă Cluster Number în Set Markers by).

Hierarchical Cluster
Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi
reuneşte clustere până când se obţine un singur cluster. Se pot selecta mai multe
distanţe, se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului
optim de clustere.
Comanda este Analyze – Classify – Hierarchical Cluster care produce
afişarea dialogului principal.

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opţiunii
selectate în grupul Cluster. Variabilele reprezentând caracteristicile după care are loc
clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă
de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice.
Grupul Display controlează ce se afişează, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate în continuare.
Statistics
Agglomeration schedule – se afişează
combinaţiile din fiecare iteraţie, distanţe etc.
Proximity matrix – se afişează distanţele sau
similarităţile dintre elemente. Cluster Membership –
produce afişarea apartenenţei la clustere în una sau
mai multe iteraţii.
Plots
Diagramele de aglomerare sunt disponibile în
formatul
• Dendrogram (dendrograma explicată in curs,
orientată spre vizualizarea clusterelor) sau
• Icicle (similară diagramei steag, orientată spre
vizualizarea cazurilor).
Orientarea diagramei poate fi verticală sau
orizontală. În reprezentarea dendrogramei, distanţele
dintre elementele care se unesc sunt transformate pe o
scală 0 – 25, cu păstrarea raportului distanţelor.
Method
În lista Cluster Method se poate alege una dintre metodele explicate în curs ca
metode de agregare, de calculare a distanţelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai depărtat vecin
(furthest neighbor), distanţa faţă de centru
(centroid clustering), Ward etc.
În grupul Measure se poate specifica
distanţa sau similaritatea utilizată în grupare
potrivit tipului de date:
• Interval – pentru datele continue sunt
disponibile distanţele: euclidiană, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaţia Pearson, Chebychev
(diferenţa absolută maximă dintre valorile
elementelor), block (suma diferenţelor
absolute dintre componente, distanţa Manhattan), Minkowski (rădăcina de ordin p
din suma diferenţelor absolute la puterea p), Customized (similară cu distanţa
Minkowski, dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de
coordonate)
• Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere
χ
2
şi φ
2
(a se vedea secţiunea privind asocierea datelor nominale).
• Binary – pentru datele dihotomice există o mulţime de distanţe propuse, bazate pe
tabelul de frecvenţe încrucişate a celor două variabile. Se pot preciza valorile
interpretate ca 0 sau 1.
În grupurile Transform Values şi Transform Measures se pot selecta metode
de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen
măsurate.
Save
Se poate salva, sau nu, ca variabile noi,
apartenenţa la clustere. Selectarea opţiunii Single
solution şi precizarea numărului de clustere
considerat ca soluţie finală va salva apartenenţa la
acel stadiu.
Dacă se selectează Range of solutions, se va
salva apartenenţa la fiecare stadiu dintre cele
menţionate.
C. Lucrarea practică
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conţine consumul de proteine în 25 de ţări europene. Datele se referă la anul 1973.
Sunt măsurate următoarele variabile: Country - numele ţării, RdMeat - carne roşie,
WhMeat - carne albă, Eggs - ouă, Milk - lapte, Fish - peşte, Cereal - cereale,
Starch - grăsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot
fi grupate cele 25 de ţări
b) să se realizeze o clasificare a celor 25 de ţări; să se studieze concordanţa cu
situaţia observată la punctul a).
2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
– numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul
de muncitori din minerit, Man – procentajul de muncitori din industria
prelucrătoare, PS – procentajul de muncitori din industria energetică, Con –
procentajul de muncitori din construcţii, SI – procentajul de muncitori din
servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de
muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi
comunicaţii.
a) să se aplice un algoritm de clasificare ierarhică
b) să se aplice algoritmul k-means pentru k = 4; să se compare cu rezultatul
clasificării realizate la a).

inclusiv apartenenţa la clasele π1. corespunzător. Σ Clasificare predictivă – k vecini Considerăm situaţia clasificării propriu-zise. …. ca punctul având drept componente mediile aritmetice ale componentelor corespunzătoare din punctele clasei. Distanţele se pot calcula ca distanţe euclidiene. adică sunt cunoscute n obiecte prin atributele lor. coloanele sunt variabile. obiecte. y ) = (x − y)′Σ −1 (x − y) şi. adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis între punctele x = (x1. pot afecta foarte mult distanţele euclidiene. din păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor: variabile măsurate pe scale diferite. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o observaţie (valorile celor m variabile determină un punct în spaţiul R m) şi punctele centrale.Definim centrul unei clase (sau centroidul clasei) în mod uzual. …. dar fiecare dintre cei k vecini apropiaţi dispune de o fracţiune de vot. dar. 1. Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii. . Se determină k obiecte cele mai apropiate de noua observaţie. πk. Cazurile de aplicare ale acestor metode sunt similare celor în care se utilizează analiza factorială. • datele sunt omogene în sensul că are sens calculul distanţelor dintre elemente • există suficient de multe date încât simpla inspecţie vizuală sau prelucrările statistice elementare nu oferă o imagine satisfăcătoare a structurii datelor • tabloul de date este amorf: nu există o structurare a priori (dependenţe funcţionale. Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k . Clasificare descriptivă In analiza multivariată. cea mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m variabile. 2. π2. şi se doreşte clasarea unei noi observaţii. Aceste k obiecte stabilesc clasa noului obiect prin • Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai mulţi dintre cei k vecini (care dispun fiecare de un vot întreg). centroizii claselor. • Vot invers proporţional distanţei – similar votului majoritar. se defineşte norma unui vector prin x = d Σ (x. ym) ′. este definită prin d Σ (x. In plus. xm)′ şi y = (y1. Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi. egală cu inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie).nearest neighbours). relaţii. clasificarea descriptivă (cluster analysis) se referă la metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte similare. ….0) = x' Σ −1x . Componentele cu variabilitate mare ar trebui să contribuie cu ponderi mai mici decât cele cu variabilitate mică. de ordine de mărime diferite. clasificări cunoscute). atribute).

cum ar fi distanţa euclidiană. Numim clasă (grup. Rezultă că problema esenţială în determinarea (identificarea) clusterelor este cea a specificării proximităţii (apropierii. Drept rezultat al clasificării descriptive se obţin grupurile de elemente. Este cazul obiectelor care sunt prezente prin atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p. j ) = ∑δ f =1 f p (f) ij ( d ij f ) ∑ δ ij( f ) i =1 ∈ [0. localizate de clasificarea descriptivă. clusterele fiind separate între ele de regiuni cu o densitate scăzută (relativ) de puncte. Atunci când atributele sunt de tipuri diferite (atât discrete. Structurile uzuale de date privind obiectele supuse analizei cluster sunt: • Matricea de pattern-uri. coloanele sunt atribute (variabile). • Matricea de proximitate. cum ar fi coeficientul de corelaţie. metodele clasificării descriptive sunt complementare metodelor analizei factoriale. diferenţiere). clasele evidenţiate de aceasta fiind precizate.De remarcat că ultima caracteristică este cea care ne depărtează de descrierea predictivă (unde se presupunea existenţa unei structurări necesare în etapa de training). Proximitatea poate fi o similaritate (asemănare). sau • Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate mare (relativ) de puncte. cluster) o mulţime de obiecte (elemente) similare între ele şi nesimilare obiectelor din alte clase. cât şi continue). binara 1 in rest  Menţionăm că d ij( f ) este contribuţia variabilei f la d(i.1] unde δ (f) ij este ponderea variabilei f δ (f) ij pentru xif sau x jf lipsa 0  = 0 xif = x jf = 0 si f este asimetrica. analiza factorială este efectuată mai întâi. Elementele d(i. atunci (normalizare prin amplitudine) ( d ij f ) = xif − x jf max xhf − min xhf h h . De regulă. similarităţii) şi cum se determină aceasta. matematica implicată este relativ elementară.j) reprezintă proximităţile dintre obiectele i şi j.j) şi anume: dacă f este binară sau nominală. atunci dij( f ) = 0 pentru xif = x jf  1 altfel (Hamming) dacă f este continuă. Liniile sunt obiecte (pattern-uri). se poate calcula proximitatea dintre obiectele i şi j prin d (i. ierarhizate. Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca urmare a unei suite de operaţii efectuate recursiv sau repetitiv. Deoarece se pot aplica pe aceleaşi structuri de date. clasele identificate. Este evident că proximitatea este o noţiune dependentă de problema reală cercetată. Un cluster poate fi gândit (reprezentările grafice reflectă aceste interpretări) • Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi depărtate de punctele din alte clase. sau o disociere (depărtare. atunci când se utilizează împreună.

divizare Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă: 1. având valorile zif. cea mai “mare” (cea mai eterogenă) grupare este divizată în două subgrupări.agregare Algoritmul fundamental de clasificare ascendentă ierarhică este: 1. Etapa 2 – există acum n-1 elemente care se clasifică. . în medie. se atribuie rangul rif. S (splinter group). se calculează zif = consideră că f este continuă. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se clasifică are un singur element. prin agregarea lor. de clase. Se pleacă de la mulţimea totală a elementelor 2. se calculează Di = media d (i.Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase) care se modifică pentru a maximiza omogenitatea fiecărei clase. 2. Evident că se pot utiliza şi alte metode în acest scop.- dacă f este ordinală. . se poate obţine şi aici o ierarhie a partiţiilor. de sinteză) – clasele sunt construite prin agregarea succesivă a elementelor. 3. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi se produce. j ) j∉S j∈S b. 3. Pentru fiecare obiect i din afara grupului S a. 2. d. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte obiecte (cea mai mare disociere). c. Se repetă a) – c) până ce Dh este negativ.Algoritmi ascendenţi (de agregare. 4. . rif − 1 şi se max rhf − 1 h Există mai multe tipuri de algoritmi de clasificare: . se obţine astfel o ierarhie de partiţii. Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului. j ) − media d (i. La fiecare pas următor. Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis): 1. Algoritmul se opreşte atunci când toate grupurile constituite au câte un singur element. Este obiectul care iniţiază un nou cluster. Se determină un obiect h cu Dh = max Di. Dacă Dh este pozitiv. Clasificare descriptivă . Clasificare descriptivă . Etapa 0 – există cele n elemente care se clasifică. atunci obiectul h se adaugă grupului splinter (este mai apropiat. un nou element.Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată succesiv în submulţimi de obiecte din ce în ce mai omogene. Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical cluster analysis). definit ca distanţa maximă dintre două elemente din grup. Mulţimea iniţială este acum divizată în două clustere. de elementele din S).

Metodele de partiţionare sunt utile atunci când există un mare număr de obiecte. Elementele importante ale algoritmului sunt comentate în continuare. în care pe axa verticală sunt obiectele. De reţinut. faptul că nu există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte. 4. Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care minimizează suma pătratelor erorilor (apare la distanţa Ward).3. 2. totuşi. considerându-le centre şi grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). Eroarea este distanţa de la un obiect la centrul clusterului său. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se îmbunătăţeşte funcţia criteriu. la o partiţie care îndeplineşte un criteriu de optim. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele clusterelor. pe axa orizontală se trec diametrele clusterelor. Partiţia iniţială O partiţie iniţială se poate obţine selectând k obiecte. Partiţia finală constituie structura de clustere căutată. prin migrarea obiectelor între clase. Se selectează clusterul cu cel mai mare diametru. Un algoritm general de partiţionare este: 1. 4. Clasificare descriptivă . Acesta este divizat prin paşii 1 – 2. 6. . Se repetă 3) până când toate grupurile constituite au un singur element. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu centrul cel mai apropiat. Centroizii fiecărui cluster astfel format constituie centrele pentru pasul următor.partiţionare Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge. Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent. Nu se recalculează centrele după fiecare clasificare a unui element. caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte produc o dendrogramă de neînţeles). Se ajustează numărul de clustere prin reunirea sau divizarea unor clustere sau prin eliminarea clusterelor aberante (cu un număr mic de elemente). Se calculează noile centre ale clusterelor. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se îmbunătăţeşte criteriul ales. 3. 5.

• fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa interclase şi se micşorează varianţa intraclase. Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor sau din alte cauze exterioare. Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor conduc la atingerea unui optim local. ISODATA (Ball & Hall. probabilităţile ca obiectul să aparţină la fiecare dintre clustere. Este de remarcat că existenţa valorilor aberante poate denatura procesul de clusterizare. ceea ce – dată fiind finitudinea mulţimii de obiecte – produce oprirea procesului. o Centrele se recalculează după fiecare atribuire. totuşi. atunci se măreşte încrederea că s-a atins un optim global. De reţinut. • Un cluster este divizat dacă dispersia elementelor (după atributul cel mai dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de elemente (de exemplu. Algoritmul cel mai cunoscut este.Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o analiză prealabilă (clasificare ascendentă. de exemplu. Intr-o metodă fuzzy se obţin. Clasificare descriptivă – metode fuzzy In afară de metodele deterministe. sau o Centrele se recalculează după ce au fost procesate toate obiectele. sau extinderea numărului de clustere. Ajustarea partiţiei Se pot defini condiţii pentru reducerea. algoritmul se opreşte atunci când funcţia criteriu nu mai poate fi îmbunătăţită. Din acest motiv. analiză în componente principale etc. Clusterele iniţiale pot fi date de o clasificare ascendentă. Se încearcă astfel evitarea unui optim local. că partiţii iniţiale diferite conduc la clustere finale diferite. se pot analiza subgrupurile stabile (elemente care sunt mereu împreună). anumiţi autori recomandă excluderea obiectelor aberante (şi chiar a celor din clusterele cu puţine elemente). Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale diferite. • Dacă se ajunge la o aceeaşi partiţie. care pot oferi informaţii despre numărul de clustere. .). • In caz că nu. de două ori mai multe decât numărul minim). Demonstraţii matematice ale convergenţei au fost bazate • fie pe formularea problemei ca o problemă de programare matematică. Jensen): • Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau dacă distanţa dintre centrele lor este mică (sub un prag fixat). sau – în anumite variante – când partiţia nu se modifică în două iteraţii succesive. apropiat de gruparea reală. • Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu. cel puţin dacă grupurile nu sunt bine diferenţiate. pentru fiecare obiect. Actualizarea partiţiei Există mai multe moduri de abordare a pasului 2 din metoda generală: • Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat. Se încearcă astfel atingerea unui număr “natural” de clustere. Convergenţa Deşi nu se garantează atingerea unui optim global. în acest sens. au fost dezvoltate şi metode de clasificare fuzzy.

c j ) i =1 j =1 n c unde n . bazată pe minimizarea funcţiei obiectiv m J m = ∑∑ uij d 2 ( xi . j unde ε ∈ (0. ceea ce nu produce o grupare acceptabilă. Rezultatul este conţinut în matricea de apartenenţă (uij) care oferă probabilităţile apartenenţei elementelor la clase. cj. c )  m −1 ∑  d 2 ( xi . la un singur grup. d este o distanţă de similaritate. π 2 ) = min d ( x. Alegerea unei anumite distanţe modifică grupările care se constituie. Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv) prin actualizarea la fiecare pas a matricei de apartenenţă (uij) şi a centrelor clusterelor (cj) 1 uij = 1 c  d 2 ( x . c j )    l =1  i l  cj = m ∑ uij xi i =1 n m ∑ uij i =1 n Procesul se opreşte atunci când matricea de apartenenţă se stabilizează: ( ( max uijk +1) − uijk ) < ε i. prin numerotarea 1 … 6 ordinea de atribuire a elementelor respective la grupurile figurate în extremităţi. este metoda celor c medii (fuzzy c-means). o metodă fuzzy. y ) x∈π 1 . .numărul de obiecte.De exemplu. Metoda celui mai apropiat vecin (nearest neighbor method) Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite) d(π1. m > 1 este parametru (uzual este 2). 1) are semnificaţia uzuală în procese iterative similare. Astfel. c – numărul de clustere. similară metodei de partiţionare. j = 1…c sunt centrele clusterelor. y∈π 2 În imaginea următoare se exemplifică. un lanţ de obiecte apropiate două câte două este atribuit. uij este gradul de apartenenţă al lui i la clusterul j. m ∈ R . de regulă. Distanţe între obiecte În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre obiecte (elemente sau grupuri deja constituite).

Metoda celui mai depărtat vecin (farthest neighbor method) Această metodă utilizează calcularea distanţei dintre două grupuri drept distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai depărtate elemente din clase diferite) d(π1. De remarcat că centrul unui grup este dinamic. Metoda legăturii medii Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente ale grupurilor 1 d(π1. π 2 ) = max d ( x. distanţa dintre centrele grupurilor d(π 1. În imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor corespunzătoare la cele două grupuri extreme. π 2 ) = SP(π1 ∪ π 2 ) − (SP(π1 ) + SP(π 2 ) ) x∈π ∑ x − xπ 2 . π 2 ) = ∑ ∑ d ( x. y∈π 2 Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. ca distanţă dintre două grupuri π1 şi π2. Metoda distanţei Ward (Ward's linkage) Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după contopirea grupurilor într-unul singur. Gruparea obţinută corespunde mai bine şi grupării intuitive (efectuată de un operator uman). y ) x∈π 1 . Gπ 2 ) unde centrele Gπ1 şi Gπ2 au drept componente mediile aritmetice ale componentelor elementelor din cele două grupuri. π 2 ) = d (Gπ 1 . respectiv. SP(π ) = d(π1. Metoda Ward selectează grupările care minimizează creşterea sumei de pătrate a erorilor. Centrul unui grup format dintr-un singur element este chiar acel element. fiecare nou element putând produce deplasarea lui. y ) n1n2 x∈π 1 y∈π 2 Metoda distanţei centrelor (average group linkage) Se consideră.

proiecţii). o Indici de siluetă (Silhouette) care se pot defini atât global. Procedurile uzuale de evaluare: • Vizualizarea partiţiei (dendrograme. Divisive Coefficient (DC): Pentru fiecare obiect i. 1 AC = ∑ [1 − d (i )] n . se calculează d(i) ca fiind raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare) la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii totale de obiecte (clusterul iniţial). Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii elementelor clasificate. În figura alăturată este prezentată o dendogramă. Atunci 1 DC = ∑ d (i ) n Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendentă: Pentru fiecare obiect i. Pe axa verticală sunt distanţele dintre obiecte.Dendrograma Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma). poate. mulţimea iniţială nu are o structură bine determinată de clase. se calculează d(i) ca fiind raportul dintre disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi diametrul mulţimii totale de obiecte (clusterul final). evaluarea calităţii partiţiei obţinute este o etapă foarte importantă. Pe axa orizontală sunt elementele iniţiale (ordinea este cea care permite desenarea arborelui). Calitatea clasificării Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori (numărul de clase în special). cât şi faptul că diferite metode conduc la clase diferite. Componentele partiţiei sunt clasele căutate. între obiectele 4 şi 6 este o distanţă egală cu 4. • Indicatori de calitate o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare (agglomerative coefficient – AC) care oferă indicatori (medii) globali. cât şi local pentru fiecare cluster. de exemplu. profiluri. Evaluarea trebuie să ia în considerare atât faptul că.

silueta medie globală. bi } unde ai – disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster.0.00 clustere. Acest indice vrea să reprezinte cât de bine este separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster – distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa interclustere).1. formula de calcul este bi − ai S (i ) = max{ai . Prin calculul siluetei se poate decide asupra validităţii unui cluster. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică.51 . • Dacă S (i) este aproape nul. bi – disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i). atunci S (i) = 0. Silueta se calculează (Rousseeuw. Fiecare cluster este caracterizat de silueta medie.50 structura determinată este slabă. Interpretarea este • Dacă S (i) este apropiat de 1. atunci obiectul poate fi clasificat şi în următorul cluster apropiat (obiectul este situat similar în raport cu ambele clustere) • Dacă S (i) este apropiat de –1. Intreaga structură de clustere este caracterizată de silueta medie globală. Se introduce coeficientul siluetă prin SC = max Sk k Este propusă (Rousseeuw .AC tinde să crească o dată cu numărul de obiecte. obţinută ca media siluetelor elementelor din cluster. Dacă structura conţine un număr k de clustere. 1987) ca silueta unui obiect. atunci obiectul este bine clasificat (este asociat cu clusterul adecvat).1987) următoarea interpretare a coeficientului siluetă după valoarea sa: s-a determinat o structură puternică (bine definită) de • 0. Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional. B.71 . ca şi asupra numărului corect de clustere. atunci obiectul este clasificat eronat (el este separat faţă de celelalte clustere). Instrumente SPSS Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze – Classify. Silueta medie globală se poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege acel k pentru care Sk este maxim. cu putere de comparare.26 . • 0. Dacă obiectul i este singurul element al unui cluster.0. Notând cu S (i) silueta obiectului i. De menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de . se notează silueta medie globală cu Sk. obţinută ca media siluetelor S(i) după toate obiectele i.70 s-a determinat o structură acceptabilă • 0. poate fi artificială • ≤ 0. silueta medie a unui cluster.25 structura determinată este artificială.

el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor este importantă. În Maximum Iterations se fixează limita numărului de iteraţii. calculate în prealabil şi salvate. • Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un fişier centrele claselor. Numărul de clustere se poate fixa în Number of Clusters. Pentru considerarea altor distanţe se va apela procedura Hierarchical Cluster. Valoarea dată în Convergence Criterion reprezintă o proporţie p din distanţa minimă dintre centrele iniţiale. Read initial from şi se va preciza File. Prin selectarea opţiunii Use running means se cere recalcularea centrelor la fiecare clasare a unui caz şi nu după clasarea tuturor cazurilor. O ghicire a numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind diagramele proiecţiilor pe planele factoriale. Ca interpretare se poate considera că centrul unei clase finale reflectă caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru. se deschide dialogul sinonim. deci poate fi între 0 şi 1. În acest caz se va selecta. Procesul iterativ se opreşte dacă niciun centru recalculat nu este deplasat cu mai mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei. buton permis doar pentru metoda Iterate and classify.calcule. Ca metodă se poate alege • Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin recalcularea centrelor după fiecare iteraţie. fişierul salvat într-o prelucrare anterioară. Prin acţionarea butonului Iterate din dialogul principal. K-Means Cluster Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de clase este cunoscut) şi apoi se repetă etapele: • atribuirea fiecărui caz la centrul cel mai apropiat. Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label Cases by. informaţiile se vor salva într-un fişier prin selectarea opţiunii Write final as din grupul Cluster Centers. Dacă se doreşte utilizarea rezultatelor şi pentru clasificarea altor cazurii. din zona Cluster Centers. cel mult 999. Prin Analize – Classify – K-Means Cluster se deschide dialogul În lista Variables se vor trece variabilele în funcţie de care se face clasificarea. Acţionarea butonului Save din dialogul principal deschide dialogul prin care se poate cere salvarea unor . • actualizarea centrelor ca valori medii ale elementelor aparţinând clasei respective.

distanţa la centrul clasei ca şi distanţele euclidiene dintre centrele finale. prezentându-se modificările apărute în coordonatele centrelor. • Cluster information for each case – afişează asignările finale la clase. Se prezintă coordonatele centrelor în spaţiul variabilelor.informaţii ca noi variabile. toate testele F duc la respingerea ipotezei de egalitate a mediilor . afişat la acţionarea butonului Options din dialogul principal. considerând clusterele drept factor. Valorile F mari vor arăta variabilele care contribuie cel mai mult la structura clusterelor. Centrele claselor finale sunt afişate într-un tabel similar celui care arată centrele iniţiale: O verificare mai mult orientativă asupra separării clusterelor după fiecare variabilă considerată este conţinută în tabelul ANOVA: Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a clusterelor. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul clasei la care aparţine. Prin dialogul Options. obţinută prin alegerea unui număr de cazuri egal cu numărul de clustere. Rezultatele SPSS în cazul K-Means Cluster Ieşirea depinde de opţiunile selectate în dialogurile procedurii. atâtea câte clustere sunt indicate în dialogul principal. Centrele iniţiale ale claselor sunt alese aleatoriu. • ANOVA table – se afişează tabelul ANOVA pentru fiecare variabilă. Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele finale. tabelele listate în cazul (aproape) complet sunt prezentate în continuare. În grupul Statistics: • Initial cluster centers – prima estimare a centrelor. se pot preciza statisticile calculate şi modul de tratare a datelor lipsă. Modificările survenite în timpul procesului iterativ sunt sistematizate în tabloul următor. S-a realizat o clasificare ilustrativă utilizând fişierul SPSS de test Employee Data.

în care se poate observa modul de diferenţiere a claselor după diverse variabile (comanda a fost Graph .Scatter . Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul clasei sunt create ca noi variabile cu denumiri implicite. în afara scopului propus de a cunoaşte unde aparţine fiecare observaţie. Un tabel final arată câte elemente sunt clasificate în fiecare cluster. după modelul Informaţiile salvate pot fi utilizate. se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului optim de clustere. şi pentru ilustrarea clasificării prin diagrama de forma următoare. .Simple Scatter şi s-a precizat noua variabilă Cluster Number în Set Markers by). Se pot selecta mai multe distanţe. Hierarchical Cluster Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi reuneşte clustere până când se obţine un singur cluster. Se poate însă interpreta comparativ valoarea statisticii F în sensul că variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată. Comanda este Analyze – Classify – Hierarchical Cluster care produce afişarea dialogului principal.clusterelor.

orientată spre vizualizarea cazurilor). Cluster Membership – produce afişarea apartenenţei la clustere în una sau mai multe iteraţii. Dialogurile secundare sunt explicate în continuare. Method În lista Cluster Method se poate alege una dintre metodele explicate în curs ca metode de agregare. Chebychev (diferenţa absolută maximă dintre valorile elementelor). În grupul Measure se poate specifica distanţa sau similaritatea utilizată în grupare potrivit tipului de date: • Interval – pentru datele continue sunt disponibile distanţele: euclidiană. Statistics Agglomeration schedule – se afişează combinaţiile din fiecare iteraţie. de calculare a distanţelor dintre clustere: cel mai apropiat vecin (nearest neighbor). cosinus (cosinusul unghiului dintre vectorii punctelor). corelaţia Pearson. Customized (similară cu distanţa Minkowski. deci accesibilitatea la butoanele Statistics. Grupul Display controlează ce se afişează. distanţa Manhattan). orientată spre vizualizarea clusterelor) sau • Icicle (similară diagramei steag. Orientarea diagramei poate fi verticală sau orizontală. block (suma diferenţelor absolute dintre componente. potrivit opţiunii selectate în grupul Cluster. Proximity matrix – se afişează distanţele sau similarităţile dintre elemente. dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de coordonate) • Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere χ2 şi φ2 (a se vedea secţiunea privind asocierea datelor nominale). distanţe etc. distanţa faţă de centru (centroid clustering). Plots Diagramele de aglomerare sunt disponibile în formatul • Dendrogram (dendrograma explicată in curs. sau pentru variabile. distanţele dintre elementele care se unesc sunt transformate pe o scală 0 – 25. Variabilele reprezentând caracteristicile după care are loc clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice. Minkowski (rădăcina de ordin p din suma diferenţelor absolute la puterea p). În reprezentarea dendrogramei. cu păstrarea raportului distanţelor. Ward etc. Plots.Analiza se poate efectua pentru cazuri. cel mai depărtat vecin (furthest neighbor). .

În grupurile Transform Values şi Transform Measures se pot selecta metode de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen măsurate. a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot fi grupate cele 25 de ţări b) să se realizeze o clasificare a celor 25 de ţări. Sunt măsurate următoarele variabile: Country . bazate pe tabelul de frecvenţe încrucişate a celor două variabile.fructe. să se compare cu rezultatul clasificării realizate la a). se va salva apartenenţa la fiecare stadiu dintre cele menţionate. Starch . Dacă se selectează Range of solutions.txt.infoiasi. apartenenţa la clustere. Milk .oleaginoase. Reamintim variabilele: Country – numele ţării.ouă. SPS – procentajul de muncitori din servicii sociale. TC – procentajul de muncitori din transporturi şi comunicaţii.ro/~val/statistica/EuropeanJobs.cereale. Fish . PS – procentajul de muncitori din industria energetică. Eggs . ca variabile noi. Man – procentajul de muncitori din industria prelucrătoare.numele ţării.grăsimi. Con – procentajul de muncitori din construcţii. vegetale. sau nu. Agr – procentajul de muncitori din agrucultură. Datele se referă la anul 1973.lapte. Nuts .carne albă. Lucrarea practică 1) Setul de date aflat la adresa www. Fin – procentajul de muncitori din finanţe. a) să se aplice un algoritm de clasificare ierarhică b) să se aplice algoritmul k-means pentru k = 4.carne roşie. C. Fr&Veg . .peşte. 2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11. www. să se studieze concordanţa cu situaţia observată la punctul a). RdMeat . SI – procentajul de muncitori din servicii. Min – procentajul de muncitori din minerit. Selectarea opţiunii Single solution şi precizarea numărului de clustere considerat ca soluţie finală va salva apartenenţa la acel stadiu. • Save Se poate salva.Binary – pentru datele dihotomice există o mulţime de distanţe propuse.txt conţine consumul de proteine în 25 de ţări europene. Cereal .infoiasi. WhMeat . Se pot preciza valorile interpretate ca 0 sau 1.ro/~val/statistica/EuropeanProtein.

Sign up to vote on this title
UsefulNot useful