Sunteți pe pagina 1din 11

Seminar 5 – octombrie 2022

Analiza de tip Cluster1


Prof. coordonator: Prof.univ.dr. Cristina Boboc

Fie o baza de date cu informatii privind caracteristicile mai multor specii de flori. Sa se realizeze o
grupare a acestora in clustere omogene. Baaza de date folosita este: specii_flori.xls.

Proceduri SAS

Datele: aplicam analiza de tip cluster pe baza de date specii_flori.xls

→ deschiderea bazei de date

1
Materialul a fost pregatit cu ajutorul studentelor : Ivan Petruta si Stan Alexandru, An 3 Promortia
2019-2020
→ rularea bazei de date (Run)

→ baza de date specii_flori.xls este importata cu numele WORK.IMPORT


OBSERVATII:

Rezultatul obtinut arata ca baza de date este formata din 6 variabile si 150 de observatii .

I. Metoda Ward

Se va folosi metoda de clasificare ierarhica a lui Ward. Acaesta metoda ma va ajuta sa identific si
numarul de clustere in care este cel mai bine a se imparti observatiile.

Metoda SAS : Cluster Observations


DATA – WORK.IMPORT (baza de date pe care dorim sa aplicam metoda (specii_flori.xls) pe care
am rulat-o in prealabil).

ROLES- Ratio (pentru ca variabilele introduse sunt numerice).

*Ratio variables- introducem variabilele pe care vrem sa le grupam .

ADDITIONAL ROLES –Identify observations in clusters – introducem variabila dupa care vrem sa
grupam.


METHODS-Standardization-Ratio Variables – Standardization Method- avem 2 optiuni:

1. Range (atunci cand nu cunoastem observatiile din baza de date sau stim ca exista OUTLIER)

2. Standard deviation (atunci cand cunoastem datele si stim ca nu exista OUTLIER si repartitia
este aproximativ normala)

Dissimilarity Measure- Euclidean

Clustering- Ward minimum variance

(Explicatie: Metoda WARD introduce ca distanţă între 2 clase pierderea de inerţie interclase ce sar obţine
prin contopirea celor două clase.
Metoda Ward – Minimizează variabilitatea din interiorul clusterului.

*Nu trebuie sa bifam nimic

→ rulam (Run)
RESULTS: CLUSTER OBSERVATIONS

Cluster History- returneaza numarul de clustere (grupe)

INTERPRETAREA REZULTATELOR:

Pentru a avea omogenitate in cadrul grupelor R-Square trebuie sa aiba o valoarea mai mare de 0.5. In
cazul nostru se observa ca sunt necesare doua grupe (number of cluster = 2) pentru a avea diferenta
semnificativa intre grupe (R-Square =0.705).
Semipartial R-Square imi arata diferenta de pierdere de inertie de la un nivel la altul de agregare (de la k
la k-1 grupe). Unde se observa o diferenta mai mare inseamna ca acolo ar fi bine sa ma opresc cu
agregarea clusterelor.

In cazul nostru Semipartial R-Square = 0.1207.

OBSERVATIE:

In sectiunea Options la PLOTS este bifat Default plots si automat este bifata Dendogram adica arborele
de clasificare, insa daca baza de date este mult prea mare arborele nu este afisat (daca sunt mai mult de
100 de observatii).
II. Metoda K-Means Clustering
Determina care dintre variabilele incluse in analiza are cea mai mare influenta asupra grupelor si imparte
populatia intr-un numar prestabilit de clustere .

OBSERVATIE:

Pentru a realiza K-Means Clustering se recomanda ca in prealabil sa se ruleze metoda Cluster


Observations pentru a determina numarul de clustere (grupe) in care se impart variabilele .

→ →

DATA – WORK.IMPORT (baza de date pe care dorim sa aplicam metoda (specii_flori.xls) pe care
am rulat-o in prealabil).
ROLES – Variables to use in clustering- adaugam variabilele folosite in analiza .

METHODS – Standardization – RANGE (default)

Clustering - Maximum number of clusters ( numarul de grupe (clustere ) in care se impart variabilele,
in cazul nostru atunci cand am aplicat Cluster Observations am observant ca exista omogenitate in cazul
grupelor de la 2 clustere in sus deci numarul maxim de clustere este 2 ).

Maximum number of iterations (numarul maxim de iteratii, in general sunt suficiente 10 iteratii ).
OUTPUT DATA SETS – Create cluster assignment data set (creem un nou set de data numit
work.Fastclus_scores)

→ rulam (Run)

INTERPRETAREA REZULTATELOR

Results: K-Means Clustering

Cluster Summary – impartirea in clustere a variabilelor.

Statistics for Variables- arata care variabile influenteaza cel mai mult gruparea in clustere.
Din tabelul Statistics for Variables reiese faptul ca variabila care influenteaza cel mai mult gruparea pe
clustere este PETAL LENGTH, R-Square> 0.7, urmata de PETAL WIDTH, unde de asemenea R-
Square>0.7. R-Square măsoară cât de diferite sunt clusterele formate unele de altele în funcție de
variabila respectivă.

In analiza intra si SEPAL LENGTH deoarece R-Square>0,5 . (R-Square = 0.5148).

SEPAL WIDTH nu intra in analiza deoarece R-Square nu este mai mare de 0.5 .

Pentru a caracteriza cele doua clustere ne uitam in tabelul Cluster Means si analizam variabilele care
au R-Square >0.5 .

In clusterul 1 observam ca se regasesc speciile de flori care au valori mici pentru fiecare dintre variabilele
care intra in analiza (exceptand latimea sepalei care este mai mare decat in clusterul 2), iar in clusterul 2
sunt speciile care au valorile mari pentru fiecare dintre variabile (cu exceptia latimei sepalei care este mai
mica decat in clusterul 1).

Astfel putem afirma ca putem imparti speciile de flori in 2 grupe , flori mici cu petale si sepale scurte si
petale usoare si flori mari cu petale si sepale lungi si petale grele.

S-ar putea să vă placă și