Documente Academic
Documente Profesional
Documente Cultură
Invățarea nesupervizată
Clustering
Slide-uri adaptate după Andrew Ng
Sumar
Daca avem un centroid cu nici un pct asignat atunci eliminam acest cluster
sau putem reinitializa random acel centroid al clusterului
K – means ptr clustere neseparabile
good_init = np.array([[-3, 3], [-3, 2], [-3, 1], [-1, 2], [0, 2]])
kmeans = KMeans(n_clusters=5, init=good_init, n_init=1)
Cea mai buna solutie, cea mai mica valoare a Functiei de Cost care in
Scikit este parametrul inertia
In[]: kmeans.inertia_
Out[]: 211.59853725816856
Cum alegem numarul de clustere, K ?
k=3 si k=6 “bad ”(coeficient < scorul) instante prea apropiate de alte
clustere
K=4 si k=5 “good” (instantele trec de linia verticala→1) il aleg pe k=5
clusterele au aceeasi dimensiune
Reducerea dimensionalității
Compresia datelor
- reducem reduntanta caracteristicilor
- crestem viteza de calcul al algoritmilor de invatare
Vizualizarea datelor
Reducerea dimensionalității
Date 2D → 1D reducem reduntanta caracteristicilor
Singapore
USA
Eroare de proiectie
In[]: pca.explained_variance_ratio_
Out[]:array([0.84248607, 0.14631839])
X approx = Ureducez
dimensiune Xn = Un x k z k x 1
Cum aleg k - numarul Componentelor Principale
media patratica a erorilor de proiectie / variatia toala a datelor
aleg cel mai mic k care respecta relatia :
https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_si
lhouette_analysis.html