Documente Academic
Documente Profesional
Documente Cultură
Clusterizare
-proiect-
Andreea Tudorache,
Master BDSA
Grupa 1092
Profesor coordonator: Felix Titus Furtună
București
-2019-
1
Pentru realizarea proiectului am utilizat un set de date preluat de pe site-ul
http://data.gov.ro/dataset?res_format=csv. Am ales ca domeniu de studiu pentru realizarea
analizei o statistică privind promovabilitatea la primul examen pentru fiecare școală de
conducători auto și pentru fiecare instructor auto de pregătire practică, raportat la anul 2013.
Detaliat, am folosit următoarele informații: județul în care se află școala auto, denumirea școlii,
instructor, numărul candidaților examinați, numărul candidaților admiși și procentul ce
reprezintă cât la sută dintre candidații examinați au promovat examenul.
Prin analiza efectuată am observat procentul persoanelor care au promovat examenul,
în funcție de județ, școală auto și instructor.
Am lucrat în Oracle Data Mining, pe serverul 37.120.250.20, cu user dm2, pass stud2,
numele proiectului: proiect_promovabilitate_at.
2
Figure 1 - Datele importate
3
Am ales să creez un număr de 5 clusteri, iar pentru aceasta am utilizat funcția
euclidiană, criteriul de diferențiere fiind variația.
4
Histograme K-means
Există o multitudine de histograme în funcție de câte clastere avem, putând fi analizată,
astfel, orice combinație. Pentru exemplificare am ales:
Pentru figura de mai sus, în care am evidențiat variabila procent în clusterul 5, media a
ieșit în valoare de 35.0539.
5
2. Cluster 9, variabila nr_candidati_admisi
6
4. Comparație între clusterul 10 (roșu) și clusterul 3 (albastru)
7
operează pe un set mai mic de date, obținute ca eșantion la setul de bază
– acest lucru este implementat cu ajutorul unui buffer, a cărui
dimensiune poate fi parametrizată.
Figure 9 - CLUS_OC_1_1654
8
Figure 11
Histograme O-Cluster
9
2. Comparație între clusterul 3 (roșu) și clusterul 4 (albastru)
Aplicarea modelului se poate face și pentru instanțe care nu au fost utilizate în faza de
contruire a modelului.
Metricile calculate în faza de construire a modelului sunt următoarele:
Pe baza acestor caracteristici, modelul Oracle K-means poate funcționa atât ca un model
descriptiv, cât și ca un model de predicție.
10
CLUS_KM_1_1640
Figure 14 - CLUS_KM_1_1640
Figure 15
În urma rulării workflow-ului, valorile obținute în nodul Apply sunt evidențiate mai jos:
11
Figure 16
12
Figure 18
13
Figure 20
Figure 21
14
Valorile coeficientului pe care le-am obținut pot fi observate în imaginea următoare.
Figure 22
15
Pe baza filtrului pe care am ales să îl aplic am obținut un nou set de date, pentru care
FEAT_NMF_1_1673_FEID este egal cu 1.
16
Aplicare model extragerea caracteristicilor esențiale (FE)
Figure 24
17
În continuare, am realizat un grafic în care am ales datele unde
FEAT_NMF_1_1673_FEID este diferit de 4 și am grupat datele rămase în funcție de județ.
Figure 26 – Grafic
18
Flow-ul final arată astfel:
Figure 28 - Flow
19