Statistică multivariată

Lucrarea nr. 12 — Clasificare - SPSS
A. Noţiuni teoretice
Clasificare
Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în
clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel
care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip
de raţionament este formalizat şi în metodele automate.
Există, în esenţă, două tipuri de clasificare automată:
1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la
un grup pornind de la reguli de clasificare derivate din observaţii
clasificate în prealabil. Se poate ca schema de clasificare existentă să fie
subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele
esenţiale ale schemei şi le transformă în reguli practice.
2. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza
similarităţii lor, nu este cunoscută o grupare prealabilă.
Clasificare predictivă
Considerăm cazul a două populaţii multivariate, Π
1
şi Π
2
, fiecare caracterizată
de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili
populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor
considerate).
Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π
1
şi din Π
2
),
o regulă de clasificare revine la a partiţiona S în A
1
şi A
2
, astfel încât pentru o
observaţie u se poate dezvolta o procedură care decide

dacă u ∈ A
1
, atunci u ∈ Π
1

dacă u ∈ A
2
, atunci u ∈ Π
2
Clasificare predictivă - Fisher
Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre
cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate
au, respectiv, mediile µ
1
, µ
2
şi dispersia comună σ
2
.
Este evident (intuitiv) că o observaţie u va fi clasată în Π
1
dacă u este mai
apropiată de µ
1
şi în Π
2
daca este mai apropiată de µ
2
.
In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme
observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine
atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele
două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în
cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca
rezultat şi funcţiile de clasificare:
Fiecare subpopulaţie, Π
i
, are asociată o funcţie de clasificare f
i
astfel încât
observaţia u este clasată în populaţia Π
j
determinată prin
) ( max ) ( u u
i
i
j
f f =

Definim centrul unei clase (sau centroidul clasei) în mod uzual, ca punctul
având drept componente mediile aritmetice ale componentelor corespunzătoare din
punctele clasei. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o
observaţie (valorile celor m variabile determină un punct în spaţiul R
m
) şi punctele
centrale, centroizii claselor. Distanţele se pot calcula ca distanţe euclidiene, dar, din
păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor:
variabile măsurate pe scale diferite, de ordine de mărime diferite, pot afecta foarte
mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie
cu ponderi mai mici decât cele cu variabilitate mică.
Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi, cea
mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m
variabile, adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis
între punctele x = (x
1
, …, x
m
)′ şi y = (y
1
, …, y
m
) ′, este definită prin
y) (x Σ ) y (x y x,
1
Σ
− ′ − =

) ( d
şi, corespunzător, se defineşte norma unui vector prin
x Σ x' x x
1 −
Σ
Σ
= = ) 0 , ( d
.
Clasificare predictivă – k vecini
Considerăm situaţia clasificării propriu-zise, adică sunt cunoscute n obiecte
prin atributele lor, inclusiv apartenenţa la clasele π
1
, π
2
, …, π
k
, şi se doreşte clasarea
unei noi observaţii.
Un algoritm suficient de des utilizat este acela denumit al celor k vecini
(k - nearest neighbours).
1. Se determină k obiecte cele mai apropiate de noua observaţie.
2. Aceste k obiecte stabilesc clasa noului obiect prin
• Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai
mulţi dintre cei k vecini (care dispun fiecare de un vot întreg).
• Vot invers proporţional distanţei – similar votului majoritar, dar fiecare
dintre cei k vecini apropiaţi dispune de o fracţiune de vot, egală cu
inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai
mult la decizie).
Clasificare descriptivă
In analiza multivariată, clasificarea descriptivă (cluster analysis) se referă la
metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor în care se
utilizează analiza factorială.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii, obiecte,
coloanele sunt variabile, atribute). In plus,
• datele sunt omogene în sensul că are sens calculul distanţelor dintre
elemente
• există suficient de multe date încât simpla inspecţie vizuală sau
prelucrările statistice elementare nu oferă o imagine satisfăcătoare a
structurii datelor
• tabloul de date este amorf: nu există o structurare a priori (dependenţe
funcţionale, relaţii, clasificări cunoscute).
De remarcat că ultima caracteristică este cea care ne depărtează de descrierea
predictivă (unde se presupunea existenţa unei structurări necesare în etapa de
training).
Drept rezultat al clasificării descriptive se obţin grupurile de elemente, clasele
identificate. Deoarece se pot aplica pe aceleaşi structuri de date, metodele clasificării
descriptive sunt complementare metodelor analizei factoriale. De regulă, atunci când
se utilizează împreună, analiza factorială este efectuată mai întâi, clasele evidenţiate
de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptivă.
Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca
urmare a unei suite de operaţii efectuate recursiv sau repetitiv; matematica implicată
este relativ elementară.
Numim clasă (grup, cluster) o mulţime de obiecte (elemente) similare între
ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările
grafice reflectă aceste interpretări)
• Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi
depărtate de punctele din alte clase, sau
• Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate
mare (relativ) de puncte, clusterele fiind separate între ele de regiuni cu o
densitate scăzută (relativ) de puncte.
Rezultă că problema esenţială în determinarea (identificarea) clusterelor este
cea a specificării proximităţii (apropierii, similarităţii) şi cum se determină aceasta.
Este evident că proximitatea este o noţiune dependentă de problema reală cercetată.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
• Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin
atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p.
Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).
• Matricea de proximitate. Elementele d(i,j) reprezintă proximităţile dintre
obiectele i şi j. Proximitatea poate fi
o similaritate (asemănare), cum ar fi coeficientul de corelaţie, sau
o disociere (depărtare, diferenţiere), cum ar fi distanţa euclidiană.
Atunci când atributele sunt de tipuri diferite (atât discrete, cât şi continue), se
poate calcula proximitatea dintre obiectele i şi j prin
] 1 , 0 [ ) , (
1
) (
1
) ( ) (
∈ =


=
=
f
i
f
ij
p
f
f
ij
f
ij
d
j i d
δ
δ

unde
) ( f
ij
δ este ponderea variabilei f
¦
¹
¦
´
¦
= = =
rest in 1
binara , asimetrica este si 0 0
lipsa sau pentru 0
) (
f x x
x x
jf if
jf if
f
ij
δ

Menţionăm că
) ( f
ij
d este contribuţia variabilei f la d(i,j) şi anume:
- dacă f este binară sau nominală, atunci
¹
´
¦ =
=
altfel 1
pentru 0
) ( jf if f
ij
x x
d

(Hamming)
- dacă f este continuă, atunci (normalizare prin amplitudine)
hf
h
hf
h
jf if
f
ij
x x
x x
d
min max
) (


=

- dacă f este ordinală, se atribuie rangul r
if
, se calculează
1 max
1


=
hf
h
if
if
r
r
z
şi se
consideră că f este continuă, având valorile z
if
.

Există mai multe tipuri de algoritmi de clasificare:
- Algoritmi ascendenţi (de agregare, de sinteză) – clasele sunt construite
prin agregarea succesivă a elementelor, se obţine astfel o ierarhie de
partiţii, de clase.
- Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată
succesiv în submulţimi de obiecte din ce în ce mai omogene; se poate
obţine şi aici o ierarhie a partiţiilor.
- Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase)
care se modifică pentru a maximiza omogenitatea fiecărei clase.
Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical
cluster analysis).
Clasificare descriptivă - agregare
Algoritmul fundamental de clasificare ascendentă ierarhică este:
1. Etapa 0 – există cele n elemente care se clasifică;
2. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi
se produce, prin agregarea lor, un nou element;
3. Etapa 2 – există acum n-1 elemente care se clasifică;
4. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se
clasifică are un singur element.
Clasificare descriptivă - divizare
Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă:
1. Se pleacă de la mulţimea totală a elementelor
2. La fiecare pas următor, cea mai “mare” (cea mai eterogenă) grupare este
divizată în două subgrupări.
3. Algoritmul se opreşte atunci când toate grupurile constituite au câte un
singur element.
Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului,
definit ca distanţa maximă dintre două elemente din grup. Evident că se pot utiliza şi
alte metode în acest scop.
Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis):
1. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte
obiecte (cea mai mare disociere). Este obiectul care iniţiază un nou cluster,
S (splinter group).
2. Pentru fiecare obiect i din afara grupului S
a. se calculează
) , ( ) , ( j i d j i d D
j j
i
media media
S S ∈ ∉
− =

b. Se determină un obiect h cu D
h
= max D
i
.
c. Dacă D
h
este pozitiv, atunci obiectul h se adaugă grupului splinter
(este mai apropiat, în medie, de elementele din S).
d. Se repetă a) – c) până ce D
h
este negativ. Mulţimea iniţială este
acum divizată în două clustere.
3. Se selectează clusterul cu cel mai mare diametru. Acesta este divizat prin
paşii 1 – 2.
4. Se repetă 3) până când toate grupurile constituite au un singur element.
Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent,
în care pe axa verticală sunt obiectele, pe axa orizontală se trec diametrele clusterelor.

Clasificare descriptivă - partiţionare
Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se
poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge, prin
migrarea obiectelor între clase, la o partiţie care îndeplineşte un criteriu de optim.
Partiţia finală constituie structura de clustere căutată. De reţinut, totuşi, faptul că nu
există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte.
Metodele de partiţionare sunt utile atunci când există un mare număr de
obiecte, caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte
produc o dendrogramă de neînţeles).
Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care
minimizează suma pătratelor erorilor (apare la distanţa Ward). Eroarea este distanţa
de la un obiect la centrul clusterului său.
Un algoritm general de partiţionare este:
1. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele
clusterelor.
2. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu
centrul cel mai apropiat.
3. Se calculează noile centre ale clusterelor.
4. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se
îmbunătăţeşte criteriul ales.
5. Se ajustează numărul de clustere prin reunirea sau divizarea unor
clustere sau prin eliminarea clusterelor aberante (cu un număr mic de
elemente).
6. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se
îmbunătăţeşte funcţia criteriu.
Elementele importante ale algoritmului sunt comentate în continuare.
Partiţia iniţială
O partiţie iniţială se poate obţine selectând k obiecte, considerându-le centre şi
grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel
mai apropiat). Nu se recalculează centrele după fiecare clasificare a unui element.
Centroizii fiecărui cluster astfel format constituie centrele pentru pasul
următor.
Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o
analiză prealabilă (clasificare ascendentă, analiză în componente principale etc.).
Clusterele iniţiale pot fi date de o clasificare ascendentă, de exemplu. De reţinut,
totuşi, că partiţii iniţiale diferite conduc la clustere finale diferite.
Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor
conduc la atingerea unui optim local, cel puţin dacă grupurile nu sunt bine
diferenţiate. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale
diferite.
• Dacă se ajunge la o aceeaşi partiţie, atunci se măreşte încrederea că s-a
atins un optim global.
• In caz că nu, se pot analiza subgrupurile stabile (elemente care sunt
mereu împreună), care pot oferi informaţii despre numărul de clustere.
Actualizarea partiţiei
Există mai multe moduri de abordare a pasului 2 din metoda generală:
• Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat.
o Centrele se recalculează după fiecare atribuire, sau
o Centrele se recalculează după ce au fost procesate toate obiectele.
• Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu.
Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Se
încearcă astfel evitarea unui optim local.
Ajustarea partiţiei
Se pot defini condiţii pentru reducerea, sau extinderea numărului de clustere.
Se încearcă astfel atingerea unui număr “natural” de clustere, apropiat de gruparea
reală, neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor
sau din alte cauze exterioare.
Algoritmul cel mai cunoscut este, în acest sens, ISODATA (Ball & Hall,
Jensen):
• Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau
dacă distanţa dintre centrele lor este mică (sub un prag fixat).
• Un cluster este divizat dacă dispersia elementelor (după atributul cel mai
dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de
elemente (de exemplu, de două ori mai multe decât numărul minim).
Este de remarcat că existenţa valorilor aberante poate denatura procesul de
clusterizare. Din acest motiv, anumiţi autori recomandă excluderea obiectelor
aberante (şi chiar a celor din clusterele cu puţine elemente).
Convergenţa
Deşi nu se garantează atingerea unui optim global, algoritmul se opreşte atunci
când funcţia criteriu nu mai poate fi îmbunătăţită, sau – în anumite variante – când
partiţia nu se modifică în două iteraţii succesive.
Demonstraţii matematice ale convergenţei au fost bazate
• fie pe formularea problemei ca o problemă de programare matematică,
• fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa
interclase şi se micşorează varianţa intraclase, ceea ce – dată fiind
finitudinea mulţimii de obiecte – produce oprirea procesului.
Clasificare descriptivă – metode fuzzy
In afară de metodele deterministe, au fost dezvoltate şi metode de clasificare
fuzzy. Intr-o metodă fuzzy se obţin, pentru fiecare obiect, probabilităţile ca obiectul să
aparţină la fiecare dintre clustere.
De exemplu, o metodă fuzzy, similară metodei de partiţionare, este metoda
celor c medii (fuzzy c-means), bazată pe minimizarea funcţiei obiectiv
∑∑
= =
=
n
i
c
j
j i
m
ij m
c x d u J
1 1
2
) , (

unde
n - numărul de obiecte, c – numărul de clustere,
m ∈ R , m > 1 este parametru (uzual este 2),
c
j
, j = 1…c sunt centrele clusterelor, d este o distanţă de similaritate, u
ij
este
gradul de apartenenţă al lui i la clusterul j.
Rezultatul este conţinut în matricea de apartenenţă (u
ij
) care oferă
probabilităţile apartenenţei elementelor la clase.
Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv)
prin actualizarea la fiecare pas a matricei de apartenenţă (u
ij
) şi a centrelor clusterelor
(c
j
)

=

|
|
.
|

\
|
=
c
l
m
l i
j i
ij
c x d
c x d
u
1
1
1
2
2
) , (
) , (
1


=
=
=
n
i
m
ij
n
i
i
m
ij
j
u
x u
c
1
1
Procesul se opreşte atunci când matricea de apartenenţă se stabilizează:
ε < −
+ ) ( ) 1 (
,
max
k
ij
k
ij
j i
u u

unde ε ∈ (0, 1) are semnificaţia uzuală în procese iterative similare.
Distanţe între obiecte
În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre
obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distanţe
modifică grupările care se constituie.
Metoda celui mai apropiat vecin (nearest neighbor method)
Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale
grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite)
( ) ) , ( min ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

În imaginea următoare se exemplifică, prin numerotarea 1 … 6 ordinea de
atribuire a elementelor respective la grupurile figurate în extremităţi. Astfel, un lanţ de
obiecte apropiate două câte două este atribuit, de regulă, la un singur grup, ceea ce nu
produce o grupare acceptabilă.

Metoda celui mai depărtat vecin (farthest neighbor method)
Această metodă utilizează calcularea distanţei dintre două grupuri drept
distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai
depărtate elemente din clase diferite)
( ) ) , ( max ,
2 1
,
2 1
y x d
y x π π
π π
∈ ∈
= d

Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. În
imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor
corespunzătoare la cele două grupuri extreme. Gruparea obţinută corespunde mai bine
şi grupării intuitive (efectuată de un operator uman).

Metoda legăturii medii
Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente
ale grupurilor
( )
∑ ∑
∈ ∈
=
1 2
) , (
1
,
2 1
2 1
π π
π π
x y
y x d
n n
d

Metoda distanţei centrelor (average group linkage)
Se consideră, ca distanţă dintre două grupuri π
1
şi π
2
, distanţa dintre centrele
grupurilor
( ) ) , ( ,
2 1
2 1 π π
π π G G d = d

unde centrele G
π1
şi G
π2
au drept componente mediile aritmetice ale componentelor
elementelor din cele două grupuri, respectiv.
De remarcat că centrul unui grup este dinamic, fiecare nou element putând
produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar
acel element.
Metoda distanţei Ward (Ward's linkage)
Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după
contopirea grupurilor într-unul singur. Metoda Ward selectează grupările care
minimizează creşterea sumei de pătrate a erorilor.
( ) ( ) ) ( ) ( ) ( ,
) (
2 1 2 1 2 1
2
π π π π π π
π
π
π
SP SP SP
x x SP
x
+ − ∪ =
− =


d

Dendrograma
Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma).
Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii
elementelor clasificate. Componentele partiţiei sunt clasele căutate.
În figura alăturată este prezentată o dendogramă. Pe axa orizontală sunt
elementele iniţiale (ordinea este cea care permite desenarea arborelui). Pe axa
verticală sunt distanţele dintre obiecte, de exemplu, între obiectele 4 şi 6 este o
distanţă egală cu 4.


Calitatea clasificării
Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori
(numărul de clase în special), evaluarea calităţii partiţiei obţinute este o etapă foarte
importantă. Evaluarea trebuie să ia în considerare atât faptul că, poate, mulţimea
iniţială nu are o structură bine determinată de clase, cât şi faptul că diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
• Vizualizarea partiţiei (dendrograme, profiluri, proiecţii).
• Indicatori de calitate
o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare
(agglomerative coefficient – AC) care oferă indicatori (medii)
globali.
o Indici de siluetă (Silhouette) care se pot defini atât global, cât şi
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculează d(i) ca fiind
raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare)
la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii
totale de obiecte (clusterul iniţial). Atunci

= ) (
1
i d
n
DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendentă: Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre
disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi
diametrul mulţimii totale de obiecte (clusterul final).
| |

− = ) ( 1
1
i d
n
AC

AC tinde să crească o dată cu numărul de obiecte.
Silueta se calculează (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a
unui cluster, silueta medie globală. Acest indice vrea să reprezinte cât de bine este
separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster
– distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa inter-
clustere).
Prin calculul siluetei se poate decide asupra validităţii unui cluster, ca şi
asupra numărului corect de clustere.
Notând cu S (i) silueta obiectului i, formula de calcul este
} , max{
) (
i i
i i
b a
a b
i S

=

unde a
i
– disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster;
b
i
– disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al
doilea candidat pentru includerea obiectului i).
Dacă obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional,
cu putere de comparare. Interpretarea este
• Dacă S (i) este apropiat de 1, atunci obiectul este bine clasificat (este
asociat cu clusterul adecvat).
• Dacă S (i) este aproape nul, atunci obiectul poate fi clasificat şi în
următorul cluster apropiat (obiectul este situat similar în raport cu ambele
clustere)
• Dacă S (i) este apropiat de –1, atunci obiectul este clasificat eronat (el este
separat faţă de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obţinută ca media siluetelor
elementelor din cluster.
Intreaga structură de clustere este caracterizată de silueta medie globală,
obţinută ca media siluetelor S(i) după toate obiectele i. Dacă structura conţine un
număr k de clustere, se notează silueta medie globală cu S
k
. Silueta medie globală se
poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege
acel k pentru care S
k
este maxim.
Se introduce coeficientul siluetă prin
k
k
S SC max =

Este propusă (Rousseeuw - 1987) următoarea interpretare a coeficientului
siluetă după valoarea sa:
• 0.71 - 1.00 s-a determinat o structură puternică (bine definită) de
clustere;
• 0.51 - 0.70 s-a determinat o structură acceptabilă
• 0.26 - 0.50 structura determinată este slabă, poate fi artificială
• ≤ 0.25 structura determinată este artificială.

B. Instrumente SPSS
Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze –
Classify. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda
generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. De
menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de
calcule, el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor
este importantă. Pentru considerarea altor distanţe se va apela procedura Hierarchical
Cluster.
K-Means Cluster
Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de
clase este cunoscut) şi apoi se repetă etapele:
• atribuirea fiecărui caz la centrul cel mai apropiat,
• actualizarea centrelor ca valori medii ale elementelor aparţinând clasei
respective.
Ca interpretare se poate considera că centrul unei clase finale reflectă
caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru.
Prin Analize – Classify – K-Means Cluster se deschide dialogul

În lista Variables se vor trece variabilele în funcţie de care se face clasificarea.
Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label
Cases by. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a
numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind
diagramele proiecţiilor pe planele factoriale. Ca metodă se poate alege
• Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin
recalcularea centrelor după fiecare iteraţie. Dacă se doreşte utilizarea rezultatelor
şi pentru clasificarea altor cazurii, informaţiile se vor salva într-un fişier prin
selectarea opţiunii Write final as din grupul Cluster Centers.
• Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un
fişier centrele claselor, calculate în prealabil şi salvate. În acest caz se va selecta,
din zona Cluster Centers, Read initial from şi se va preciza File, fişierul salvat
într-o prelucrare anterioară.
Prin acţionarea butonului Iterate din dialogul principal, buton permis doar
pentru metoda Iterate and classify, se deschide dialogul sinonim.
În Maximum Iterations se fixează limita numărului de
iteraţii, cel mult 999. Valoarea dată în Convergence
Criterion reprezintă o proporţie p din distanţa minimă dintre
centrele iniţiale, deci poate fi între 0 şi 1. Procesul iterativ se
opreşte dacă niciun centru recalculat nu este deplasat cu mai
mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei.
Prin selectarea opţiunii Use running means se cere
recalcularea centrelor la fiecare clasare a unui caz şi nu după
clasarea tuturor cazurilor.
Acţionarea butonului Save din dialogul principal
deschide dialogul prin care se poate cere salvarea unor
informaţii ca noi variabile.
Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele
finale. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul
clasei la care aparţine.
Prin dialogul Options, afişat la acţionarea butonului Options din dialogul
principal, se pot preciza statisticile calculate şi modul de tratare a datelor lipsă.
În grupul Statistics:
• Initial cluster centers – prima estimare a centrelor,
obţinută prin alegerea unui număr de cazuri egal cu
numărul de clustere.
• ANOVA table – se afişează tabelul ANOVA pentru
fiecare variabilă, considerând clusterele drept
factor. Valorile F mari vor arăta variabilele care
contribuie cel mai mult la structura clusterelor.
• Cluster information for each case – afişează asignările finale la clase, distanţa la
centrul clasei ca şi distanţele euclidiene dintre centrele finale.
Rezultatele SPSS în cazul K-Means Cluster
Ieşirea depinde de opţiunile selectate în dialogurile procedurii, tabelele listate
în cazul (aproape) complet sunt prezentate în continuare. S-a realizat o clasificare
ilustrativă utilizând fişierul SPSS de test Employee Data.
Centrele iniţiale ale claselor sunt alese aleatoriu, atâtea câte clustere sunt
indicate în dialogul principal. Se prezintă coordonatele centrelor în spaţiul
variabilelor.

Modificările survenite în timpul procesului iterativ sunt sistematizate în
tabloul următor, prezentându-se modificările apărute în coordonatele centrelor.

Centrele claselor finale sunt afişate într-un tabel similar celui care arată
centrele iniţiale:

O verificare mai mult orientativă asupra separării clusterelor după fiecare
variabilă considerată este conţinută în tabelul ANOVA:

Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a
clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor
clusterelor. Se poate însă interpreta comparativ valoarea statisticii F în sensul că
variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată.
Un tabel final arată câte elemente sunt clasificate în fiecare cluster.

Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul
clasei sunt create ca noi variabile cu denumiri implicite, după modelul

Informaţiile salvate pot fi utilizate, în afara scopului propus de a cunoaşte
unde aparţine fiecare observaţie, şi pentru ilustrarea clasificării prin diagrama de
forma următoare, în care se poate observa modul de diferenţiere a claselor după
diverse variabile (comanda a fost Graph - Scatter - Simple Scatter şi s-a precizat
noua variabilă Cluster Number în Set Markers by).

Hierarchical Cluster
Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi
reuneşte clustere până când se obţine un singur cluster. Se pot selecta mai multe
distanţe, se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului
optim de clustere.
Comanda este Analyze – Classify – Hierarchical Cluster care produce
afişarea dialogului principal.

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opţiunii
selectate în grupul Cluster. Variabilele reprezentând caracteristicile după care are loc
clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă
de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice.
Grupul Display controlează ce se afişează, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate în continuare.
Statistics
Agglomeration schedule – se afişează
combinaţiile din fiecare iteraţie, distanţe etc.
Proximity matrix – se afişează distanţele sau
similarităţile dintre elemente. Cluster Membership –
produce afişarea apartenenţei la clustere în una sau
mai multe iteraţii.
Plots
Diagramele de aglomerare sunt disponibile în
formatul
• Dendrogram (dendrograma explicată in curs,
orientată spre vizualizarea clusterelor) sau
• Icicle (similară diagramei steag, orientată spre
vizualizarea cazurilor).
Orientarea diagramei poate fi verticală sau
orizontală. În reprezentarea dendrogramei, distanţele
dintre elementele care se unesc sunt transformate pe o
scală 0 – 25, cu păstrarea raportului distanţelor.
Method
În lista Cluster Method se poate alege una dintre metodele explicate în curs ca
metode de agregare, de calculare a distanţelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai depărtat vecin
(furthest neighbor), distanţa faţă de centru
(centroid clustering), Ward etc.
În grupul Measure se poate specifica
distanţa sau similaritatea utilizată în grupare
potrivit tipului de date:
• Interval – pentru datele continue sunt
disponibile distanţele: euclidiană, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaţia Pearson, Chebychev
(diferenţa absolută maximă dintre valorile
elementelor), block (suma diferenţelor
absolute dintre componente, distanţa Manhattan), Minkowski (rădăcina de ordin p
din suma diferenţelor absolute la puterea p), Customized (similară cu distanţa
Minkowski, dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de
coordonate)
• Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere
χ
2
şi φ
2
(a se vedea secţiunea privind asocierea datelor nominale).
• Binary – pentru datele dihotomice există o mulţime de distanţe propuse, bazate pe
tabelul de frecvenţe încrucişate a celor două variabile. Se pot preciza valorile
interpretate ca 0 sau 1.
În grupurile Transform Values şi Transform Measures se pot selecta metode
de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen
măsurate.
Save
Se poate salva, sau nu, ca variabile noi,
apartenenţa la clustere. Selectarea opţiunii Single
solution şi precizarea numărului de clustere
considerat ca soluţie finală va salva apartenenţa la
acel stadiu.
Dacă se selectează Range of solutions, se va
salva apartenenţa la fiecare stadiu dintre cele
menţionate.
C. Lucrarea practică
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conţine consumul de proteine în 25 de ţări europene. Datele se referă la anul 1973.
Sunt măsurate următoarele variabile: Country - numele ţării, RdMeat - carne roşie,
WhMeat - carne albă, Eggs - ouă, Milk - lapte, Fish - peşte, Cereal - cereale,
Starch - grăsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot
fi grupate cele 25 de ţări
b) să se realizeze o clasificare a celor 25 de ţări; să se studieze concordanţa cu
situaţia observată la punctul a).
2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
– numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul
de muncitori din minerit, Man – procentajul de muncitori din industria
prelucrătoare, PS – procentajul de muncitori din industria energetică, Con –
procentajul de muncitori din construcţii, SI – procentajul de muncitori din
servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de
muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi
comunicaţii.
a) să se aplice un algoritm de clasificare ierarhică
b) să se aplice algoritmul k-means pentru k = 4; să se compare cu rezultatul
clasificării realizate la a).

. corespunzător. …. clasificări cunoscute). din păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor: variabile măsurate pe scale diferite. Σ Clasificare predictivă – k vecini Considerăm situaţia clasificării propriu-zise. adică sunt cunoscute n obiecte prin atributele lor. π2. Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k . y ) = (x − y)′Σ −1 (x − y) şi. ym) ′. Distanţele se pot calcula ca distanţe euclidiene. Cazurile de aplicare ale acestor metode sunt similare celor în care se utilizează analiza factorială.nearest neighbours). ca punctul având drept componente mediile aritmetice ale componentelor corespunzătoare din punctele clasei. dar. …. obiecte. Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi. egală cu inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie). cea mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m variabile. 1. In plus. • Vot invers proporţional distanţei – similar votului majoritar. şi se doreşte clasarea unei noi observaţii. dar fiecare dintre cei k vecini apropiaţi dispune de o fracţiune de vot.Definim centrul unei clase (sau centroidul clasei) în mod uzual. pot afecta foarte mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie cu ponderi mai mici decât cele cu variabilitate mică. Se determină k obiecte cele mai apropiate de noua observaţie. de ordine de mărime diferite. se defineşte norma unui vector prin x = d Σ (x.0) = x' Σ −1x . atribute). Clasificare descriptivă In analiza multivariată. • datele sunt omogene în sensul că are sens calculul distanţelor dintre elemente • există suficient de multe date încât simpla inspecţie vizuală sau prelucrările statistice elementare nu oferă o imagine satisfăcătoare a structurii datelor • tabloul de date este amorf: nu există o structurare a priori (dependenţe funcţionale. centroizii claselor. Aceste k obiecte stabilesc clasa noului obiect prin • Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai mulţi dintre cei k vecini (care dispun fiecare de un vot întreg). este definită prin d Σ (x. inclusiv apartenenţa la clasele π1. πk. adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis între punctele x = (x1. Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii. …. xm)′ şi y = (y1. 2. clasificarea descriptivă (cluster analysis) se referă la metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte similare. relaţii. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o observaţie (valorile celor m variabile determină un punct în spaţiul R m) şi punctele centrale. coloanele sunt variabile.

Un cluster poate fi gândit (reprezentările grafice reflectă aceste interpretări) • Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi depărtate de punctele din alte clase. diferenţiere). similarităţii) şi cum se determină aceasta. De regulă. se poate calcula proximitatea dintre obiectele i şi j prin d (i. atunci (normalizare prin amplitudine) ( d ij f ) = xif − x jf max xhf − min xhf h h .1] unde δ (f) ij este ponderea variabilei f δ (f) ij pentru xif sau x jf lipsa 0  = 0 xif = x jf = 0 si f este asimetrica. Drept rezultat al clasificării descriptive se obţin grupurile de elemente. Este cazul obiectelor care sunt prezente prin atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p. sau o disociere (depărtare. j ) = ∑δ f =1 f p (f) ij ( d ij f ) ∑ δ ij( f ) i =1 ∈ [0. Elementele d(i. binara 1 in rest  Menţionăm că d ij( f ) este contribuţia variabilei f la d(i. clasele identificate. cum ar fi distanţa euclidiană. analiza factorială este efectuată mai întâi. cluster) o mulţime de obiecte (elemente) similare între ele şi nesimilare obiectelor din alte clase. Numim clasă (grup. Liniile sunt obiecte (pattern-uri).De remarcat că ultima caracteristică este cea care ne depărtează de descrierea predictivă (unde se presupunea existenţa unei structurări necesare în etapa de training). Atunci când atributele sunt de tipuri diferite (atât discrete. clasele evidenţiate de aceasta fiind precizate. ierarhizate. Proximitatea poate fi o similaritate (asemănare). clusterele fiind separate între ele de regiuni cu o densitate scăzută (relativ) de puncte. Este evident că proximitatea este o noţiune dependentă de problema reală cercetată. Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca urmare a unei suite de operaţii efectuate recursiv sau repetitiv. sau • Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate mare (relativ) de puncte. metodele clasificării descriptive sunt complementare metodelor analizei factoriale. atunci dij( f ) = 0 pentru xif = x jf  1 altfel (Hamming) dacă f este continuă. localizate de clasificarea descriptivă. cât şi continue).j) şi anume: dacă f este binară sau nominală. coloanele sunt atribute (variabile). atunci când se utilizează împreună. Rezultă că problema esenţială în determinarea (identificarea) clusterelor este cea a specificării proximităţii (apropierii. matematica implicată este relativ elementară. Structurile uzuale de date privind obiectele supuse analizei cluster sunt: • Matricea de pattern-uri. cum ar fi coeficientul de corelaţie.j) reprezintă proximităţile dintre obiectele i şi j. • Matricea de proximitate. Deoarece se pot aplica pe aceleaşi structuri de date.

Pentru fiecare obiect i din afara grupului S a. Se determină un obiect h cu Dh = max Di. se calculează Di = media d (i.agregare Algoritmul fundamental de clasificare ascendentă ierarhică este: 1. La fiecare pas următor.Algoritmi ascendenţi (de agregare.- dacă f este ordinală. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte obiecte (cea mai mare disociere). Se repetă a) – c) până ce Dh este negativ. d. Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis): 1. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi se produce. de clase. Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului. de elementele din S). c. Clasificare descriptivă . se poate obţine şi aici o ierarhie a partiţiilor. în medie. 2. j ) − media d (i. prin agregarea lor. 3. definit ca distanţa maximă dintre două elemente din grup. rif − 1 şi se max rhf − 1 h Există mai multe tipuri de algoritmi de clasificare: . atunci obiectul h se adaugă grupului splinter (este mai apropiat. Etapa 0 – există cele n elemente care se clasifică.Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată succesiv în submulţimi de obiecte din ce în ce mai omogene. Evident că se pot utiliza şi alte metode în acest scop.Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase) care se modifică pentru a maximiza omogenitatea fiecărei clase. 4.divizare Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă: 1. Mulţimea iniţială este acum divizată în două clustere. Dacă Dh este pozitiv. j ) j∉S j∈S b. Este obiectul care iniţiază un nou cluster. cea mai “mare” (cea mai eterogenă) grupare este divizată în două subgrupări. 3. . de sinteză) – clasele sunt construite prin agregarea succesivă a elementelor. se atribuie rangul rif. se obţine astfel o ierarhie de partiţii. având valorile zif. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se clasifică are un singur element. 2. Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical cluster analysis). . Algoritmul se opreşte atunci când toate grupurile constituite au câte un singur element. Etapa 2 – există acum n-1 elemente care se clasifică. se calculează zif = consideră că f este continuă. S (splinter group). Clasificare descriptivă . Se pleacă de la mulţimea totală a elementelor 2. un nou element. .

3. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele clusterelor. Partiţia iniţială O partiţie iniţială se poate obţine selectând k obiecte. în care pe axa verticală sunt obiectele. Nu se recalculează centrele după fiecare clasificare a unui element. Centroizii fiecărui cluster astfel format constituie centrele pentru pasul următor. pe axa orizontală se trec diametrele clusterelor. considerându-le centre şi grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent. la o partiţie care îndeplineşte un criteriu de optim. De reţinut. . 3. Un algoritm general de partiţionare este: 1. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se îmbunătăţeşte criteriul ales. Elementele importante ale algoritmului sunt comentate în continuare. faptul că nu există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte. Se repetă 3) până când toate grupurile constituite au un singur element. caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte produc o dendrogramă de neînţeles). Eroarea este distanţa de la un obiect la centrul clusterului său. Acesta este divizat prin paşii 1 – 2. prin migrarea obiectelor între clase. 2.partiţionare Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge. Clasificare descriptivă . Se repetă paşii 2-5 până se stabilizează clusterele sau nu se îmbunătăţeşte funcţia criteriu. 5. Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care minimizează suma pătratelor erorilor (apare la distanţa Ward). Partiţia finală constituie structura de clustere căutată. Se ajustează numărul de clustere prin reunirea sau divizarea unor clustere sau prin eliminarea clusterelor aberante (cu un număr mic de elemente). Se calculează noile centre ale clusterelor. totuşi. 4. 6. Se selectează clusterul cu cel mai mare diametru. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu centrul cel mai apropiat. 4. Metodele de partiţionare sunt utile atunci când există un mare număr de obiecte.

De reţinut. • Un cluster este divizat dacă dispersia elementelor (după atributul cel mai dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de elemente (de exemplu. în acest sens. analiză în componente principale etc. Actualizarea partiţiei Există mai multe moduri de abordare a pasului 2 din metoda generală: • Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat. apropiat de gruparea reală. Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor conduc la atingerea unui optim local. Este de remarcat că existenţa valorilor aberante poate denatura procesul de clusterizare. Se încearcă astfel evitarea unui optim local. • In caz că nu. • Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu. Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Intr-o metodă fuzzy se obţin. totuşi. cel puţin dacă grupurile nu sunt bine diferenţiate. probabilităţile ca obiectul să aparţină la fiecare dintre clustere. neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor sau din alte cauze exterioare. că partiţii iniţiale diferite conduc la clustere finale diferite. o Centrele se recalculează după fiecare atribuire. Se încearcă astfel atingerea unui număr “natural” de clustere. • Dacă se ajunge la o aceeaşi partiţie. de două ori mai multe decât numărul minim). Convergenţa Deşi nu se garantează atingerea unui optim global.Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o analiză prealabilă (clasificare ascendentă. sau extinderea numărului de clustere. Demonstraţii matematice ale convergenţei au fost bazate • fie pe formularea problemei ca o problemă de programare matematică. anumiţi autori recomandă excluderea obiectelor aberante (şi chiar a celor din clusterele cu puţine elemente). sau – în anumite variante – când partiţia nu se modifică în două iteraţii succesive. se pot analiza subgrupurile stabile (elemente care sunt mereu împreună). au fost dezvoltate şi metode de clasificare fuzzy. . Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale diferite. Din acest motiv. Ajustarea partiţiei Se pot defini condiţii pentru reducerea. atunci se măreşte încrederea că s-a atins un optim global. Clasificare descriptivă – metode fuzzy In afară de metodele deterministe. de exemplu. care pot oferi informaţii despre numărul de clustere. pentru fiecare obiect. algoritmul se opreşte atunci când funcţia criteriu nu mai poate fi îmbunătăţită. Algoritmul cel mai cunoscut este. sau o Centrele se recalculează după ce au fost procesate toate obiectele. ISODATA (Ball & Hall. Clusterele iniţiale pot fi date de o clasificare ascendentă. • fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa interclase şi se micşorează varianţa intraclase. ceea ce – dată fiind finitudinea mulţimii de obiecte – produce oprirea procesului. Jensen): • Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau dacă distanţa dintre centrele lor este mică (sub un prag fixat).).

Astfel. c j )    l =1  i l  cj = m ∑ uij xi i =1 n m ∑ uij i =1 n Procesul se opreşte atunci când matricea de apartenenţă se stabilizează: ( ( max uijk +1) − uijk ) < ε i. Alegerea unei anumite distanţe modifică grupările care se constituie. Distanţe între obiecte În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre obiecte (elemente sau grupuri deja constituite). j = 1…c sunt centrele clusterelor. similară metodei de partiţionare. c j ) i =1 j =1 n c unde n . m ∈ R . Rezultatul este conţinut în matricea de apartenenţă (uij) care oferă probabilităţile apartenenţei elementelor la clase. ceea ce nu produce o grupare acceptabilă. c – numărul de clustere. m > 1 este parametru (uzual este 2). uij este gradul de apartenenţă al lui i la clusterul j. de regulă. d este o distanţă de similaritate.numărul de obiecte. 1) are semnificaţia uzuală în procese iterative similare. cj. j unde ε ∈ (0. y∈π 2 În imaginea următoare se exemplifică. la un singur grup. y ) x∈π 1 .De exemplu. este metoda celor c medii (fuzzy c-means). prin numerotarea 1 … 6 ordinea de atribuire a elementelor respective la grupurile figurate în extremităţi. Metoda celui mai apropiat vecin (nearest neighbor method) Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite) d(π1. un lanţ de obiecte apropiate două câte două este atribuit. π 2 ) = min d ( x. c )  m −1 ∑  d 2 ( xi . Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv) prin actualizarea la fiecare pas a matricei de apartenenţă (uij) şi a centrelor clusterelor (cj) 1 uij = 1 c  d 2 ( x . bazată pe minimizarea funcţiei obiectiv m J m = ∑∑ uij d 2 ( xi . o metodă fuzzy. .

y ) x∈π 1 . distanţa dintre centrele grupurilor d(π 1. fiecare nou element putând produce deplasarea lui. De remarcat că centrul unui grup este dinamic. y ) n1n2 x∈π 1 y∈π 2 Metoda distanţei centrelor (average group linkage) Se consideră. SP(π ) = d(π1. ca distanţă dintre două grupuri π1 şi π2. Metoda distanţei Ward (Ward's linkage) Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după contopirea grupurilor într-unul singur.Metoda celui mai depărtat vecin (farthest neighbor method) Această metodă utilizează calcularea distanţei dintre două grupuri drept distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai depărtate elemente din clase diferite) d(π1. π 2 ) = ∑ ∑ d ( x. π 2 ) = SP(π1 ∪ π 2 ) − (SP(π1 ) + SP(π 2 ) ) x∈π ∑ x − xπ 2 . Gπ 2 ) unde centrele Gπ1 şi Gπ2 au drept componente mediile aritmetice ale componentelor elementelor din cele două grupuri. π 2 ) = d (Gπ 1 . Metoda Ward selectează grupările care minimizează creşterea sumei de pătrate a erorilor. Gruparea obţinută corespunde mai bine şi grupării intuitive (efectuată de un operator uman). Metoda legăturii medii Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente ale grupurilor 1 d(π1. π 2 ) = max d ( x. respectiv. În imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor corespunzătoare la cele două grupuri extreme. y∈π 2 Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. Centrul unui grup format dintr-un singur element este chiar acel element.

evaluarea calităţii partiţiei obţinute este o etapă foarte importantă. între obiectele 4 şi 6 este o distanţă egală cu 4. o Indici de siluetă (Silhouette) care se pot defini atât global. Procedurile uzuale de evaluare: • Vizualizarea partiţiei (dendrograme. cât şi faptul că diferite metode conduc la clase diferite. Calitatea clasificării Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori (numărul de clase în special).Dendrograma Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma). Divisive Coefficient (DC): Pentru fiecare obiect i. Componentele partiţiei sunt clasele căutate. cât şi local pentru fiecare cluster. Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii elementelor clasificate. Pe axa orizontală sunt elementele iniţiale (ordinea este cea care permite desenarea arborelui). Atunci 1 DC = ∑ d (i ) n Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendentă: Pentru fiecare obiect i. • Indicatori de calitate o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare (agglomerative coefficient – AC) care oferă indicatori (medii) globali. se calculează d(i) ca fiind raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare) la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii totale de obiecte (clusterul iniţial). Evaluarea trebuie să ia în considerare atât faptul că. se calculează d(i) ca fiind raportul dintre disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi diametrul mulţimii totale de obiecte (clusterul final). Pe axa verticală sunt distanţele dintre obiecte. poate. 1 AC = ∑ [1 − d (i )] n . de exemplu. În figura alăturată este prezentată o dendogramă. mulţimea iniţială nu are o structură bine determinată de clase. proiecţii). profiluri.

26 .0.1987) următoarea interpretare a coeficientului siluetă după valoarea sa: s-a determinat o structură puternică (bine definită) de • 0. Interpretarea este • Dacă S (i) este apropiat de 1. 1987) ca silueta unui obiect. Silueta medie globală se poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege acel k pentru care Sk este maxim. bi – disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i). Se introduce coeficientul siluetă prin SC = max Sk k Este propusă (Rousseeuw . cu putere de comparare. se notează silueta medie globală cu Sk.51 .70 s-a determinat o structură acceptabilă • 0.25 structura determinată este artificială. • Dacă S (i) este aproape nul. • 0. Instrumente SPSS Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze – Classify. atunci obiectul este bine clasificat (este asociat cu clusterul adecvat). silueta medie a unui cluster.00 clustere. Notând cu S (i) silueta obiectului i. silueta medie globală.71 . Dacă obiectul i este singurul element al unui cluster. atunci S (i) = 0. Prin calculul siluetei se poate decide asupra validităţii unui cluster.1. Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional.50 structura determinată este slabă. De menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de . formula de calcul este bi − ai S (i ) = max{ai . atunci obiectul este clasificat eronat (el este separat faţă de celelalte clustere).0. bi } unde ai – disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster. atunci obiectul poate fi clasificat şi în următorul cluster apropiat (obiectul este situat similar în raport cu ambele clustere) • Dacă S (i) este apropiat de –1. obţinută ca media siluetelor S(i) după toate obiectele i. ca şi asupra numărului corect de clustere. Acest indice vrea să reprezinte cât de bine este separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster – distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa interclustere). Fiecare cluster este caracterizat de silueta medie. Silueta se calculează (Rousseeuw. B. Intreaga structură de clustere este caracterizată de silueta medie globală. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. poate fi artificială • ≤ 0.AC tinde să crească o dată cu numărul de obiecte. Dacă structura conţine un număr k de clustere. obţinută ca media siluetelor elementelor din cluster.

calculate în prealabil şi salvate. În Maximum Iterations se fixează limita numărului de iteraţii. din zona Cluster Centers. el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor este importantă. deci poate fi între 0 şi 1. Ca metodă se poate alege • Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin recalcularea centrelor după fiecare iteraţie. informaţiile se vor salva într-un fişier prin selectarea opţiunii Write final as din grupul Cluster Centers. Pentru considerarea altor distanţe se va apela procedura Hierarchical Cluster. K-Means Cluster Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de clase este cunoscut) şi apoi se repetă etapele: • atribuirea fiecărui caz la centrul cel mai apropiat. • actualizarea centrelor ca valori medii ale elementelor aparţinând clasei respective. Dacă se doreşte utilizarea rezultatelor şi pentru clasificarea altor cazurii. Prin acţionarea butonului Iterate din dialogul principal. Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label Cases by. fişierul salvat într-o prelucrare anterioară. În acest caz se va selecta. • Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un fişier centrele claselor. Prin Analize – Classify – K-Means Cluster se deschide dialogul În lista Variables se vor trece variabilele în funcţie de care se face clasificarea. Numărul de clustere se poate fixa în Number of Clusters. Prin selectarea opţiunii Use running means se cere recalcularea centrelor la fiecare clasare a unui caz şi nu după clasarea tuturor cazurilor. O ghicire a numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind diagramele proiecţiilor pe planele factoriale. cel mult 999. buton permis doar pentru metoda Iterate and classify. Procesul iterativ se opreşte dacă niciun centru recalculat nu este deplasat cu mai mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei. se deschide dialogul sinonim. Acţionarea butonului Save din dialogul principal deschide dialogul prin care se poate cere salvarea unor . Ca interpretare se poate considera că centrul unei clase finale reflectă caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru. Valoarea dată în Convergence Criterion reprezintă o proporţie p din distanţa minimă dintre centrele iniţiale.calcule. Read initial from şi se va preciza File.

se pot preciza statisticile calculate şi modul de tratare a datelor lipsă. Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele finale. • ANOVA table – se afişează tabelul ANOVA pentru fiecare variabilă. distanţa la centrul clasei ca şi distanţele euclidiene dintre centrele finale. toate testele F duc la respingerea ipotezei de egalitate a mediilor . obţinută prin alegerea unui număr de cazuri egal cu numărul de clustere. Se prezintă coordonatele centrelor în spaţiul variabilelor. • Cluster information for each case – afişează asignările finale la clase. Rezultatele SPSS în cazul K-Means Cluster Ieşirea depinde de opţiunile selectate în dialogurile procedurii.informaţii ca noi variabile. În grupul Statistics: • Initial cluster centers – prima estimare a centrelor. atâtea câte clustere sunt indicate în dialogul principal. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul clasei la care aparţine. tabelele listate în cazul (aproape) complet sunt prezentate în continuare. considerând clusterele drept factor. Valorile F mari vor arăta variabilele care contribuie cel mai mult la structura clusterelor. prezentându-se modificările apărute în coordonatele centrelor. S-a realizat o clasificare ilustrativă utilizând fişierul SPSS de test Employee Data. Prin dialogul Options. Centrele claselor finale sunt afişate într-un tabel similar celui care arată centrele iniţiale: O verificare mai mult orientativă asupra separării clusterelor după fiecare variabilă considerată este conţinută în tabelul ANOVA: Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a clusterelor. Centrele iniţiale ale claselor sunt alese aleatoriu. Modificările survenite în timpul procesului iterativ sunt sistematizate în tabloul următor. afişat la acţionarea butonului Options din dialogul principal.

Se pot selecta mai multe distanţe. Un tabel final arată câte elemente sunt clasificate în fiecare cluster.clusterelor. se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului optim de clustere. în afara scopului propus de a cunoaşte unde aparţine fiecare observaţie. după modelul Informaţiile salvate pot fi utilizate. Comanda este Analyze – Classify – Hierarchical Cluster care produce afişarea dialogului principal. Se poate însă interpreta comparativ valoarea statisticii F în sensul că variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată. . în care se poate observa modul de diferenţiere a claselor după diverse variabile (comanda a fost Graph . Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul clasei sunt create ca noi variabile cu denumiri implicite.Scatter . şi pentru ilustrarea clasificării prin diagrama de forma următoare.Simple Scatter şi s-a precizat noua variabilă Cluster Number în Set Markers by). Hierarchical Cluster Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi reuneşte clustere până când se obţine un singur cluster.

Plots. . Chebychev (diferenţa absolută maximă dintre valorile elementelor). Orientarea diagramei poate fi verticală sau orizontală. Cluster Membership – produce afişarea apartenenţei la clustere în una sau mai multe iteraţii. cosinus (cosinusul unghiului dintre vectorii punctelor). În grupul Measure se poate specifica distanţa sau similaritatea utilizată în grupare potrivit tipului de date: • Interval – pentru datele continue sunt disponibile distanţele: euclidiană. dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de coordonate) • Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere χ2 şi φ2 (a se vedea secţiunea privind asocierea datelor nominale). distanţele dintre elementele care se unesc sunt transformate pe o scală 0 – 25. Dialogurile secundare sunt explicate în continuare. block (suma diferenţelor absolute dintre componente. Variabilele reprezentând caracteristicile după care are loc clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice.Analiza se poate efectua pentru cazuri. În reprezentarea dendrogramei. Statistics Agglomeration schedule – se afişează combinaţiile din fiecare iteraţie. deci accesibilitatea la butoanele Statistics. Plots Diagramele de aglomerare sunt disponibile în formatul • Dendrogram (dendrograma explicată in curs. orientată spre vizualizarea cazurilor). Grupul Display controlează ce se afişează. distanţa Manhattan). Method În lista Cluster Method se poate alege una dintre metodele explicate în curs ca metode de agregare. potrivit opţiunii selectate în grupul Cluster. distanţa faţă de centru (centroid clustering). Ward etc. Proximity matrix – se afişează distanţele sau similarităţile dintre elemente. Customized (similară cu distanţa Minkowski. sau pentru variabile. Minkowski (rădăcina de ordin p din suma diferenţelor absolute la puterea p). cel mai depărtat vecin (furthest neighbor). de calculare a distanţelor dintre clustere: cel mai apropiat vecin (nearest neighbor). corelaţia Pearson. orientată spre vizualizarea clusterelor) sau • Icicle (similară diagramei steag. distanţe etc. cu păstrarea raportului distanţelor.

să se studieze concordanţa cu situaţia observată la punctul a). În grupurile Transform Values şi Transform Measures se pot selecta metode de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen măsurate. SI – procentajul de muncitori din servicii.ouă. apartenenţa la clustere.cereale. Min – procentajul de muncitori din minerit. Lucrarea practică 1) Setul de date aflat la adresa www.ro/~val/statistica/EuropeanJobs. www.oleaginoase. Agr – procentajul de muncitori din agrucultură.numele ţării. Fish . Nuts . SPS – procentajul de muncitori din servicii sociale. • Save Se poate salva. Datele se referă la anul 1973. Selectarea opţiunii Single solution şi precizarea numărului de clustere considerat ca soluţie finală va salva apartenenţa la acel stadiu. a) să se aplice un algoritm de clasificare ierarhică b) să se aplice algoritmul k-means pentru k = 4. Dacă se selectează Range of solutions.txt conţine consumul de proteine în 25 de ţări europene.peşte.carne roşie. să se compare cu rezultatul clasificării realizate la a). C.infoiasi. ca variabile noi. PS – procentajul de muncitori din industria energetică. Reamintim variabilele: Country – numele ţării. Eggs . .infoiasi. Man – procentajul de muncitori din industria prelucrătoare. Starch .lapte.grăsimi. TC – procentajul de muncitori din transporturi şi comunicaţii. Con – procentajul de muncitori din construcţii.carne albă.Binary – pentru datele dihotomice există o mulţime de distanţe propuse. Cereal . a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot fi grupate cele 25 de ţări b) să se realizeze o clasificare a celor 25 de ţări. sau nu. se va salva apartenenţa la fiecare stadiu dintre cele menţionate. WhMeat . Fr&Veg . bazate pe tabelul de frecvenţe încrucişate a celor două variabile. vegetale. Milk .fructe. 2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11. RdMeat . Fin – procentajul de muncitori din finanţe.ro/~val/statistica/EuropeanProtein.txt. Se pot preciza valorile interpretate ca 0 sau 1. Sunt măsurate următoarele variabile: Country .

Sign up to vote on this title
UsefulNot useful