Documente Academic
Documente Profesional
Documente Cultură
Problema 1: Gruparea
Enunțarea problemei: Setul de date dat se referă la condițiile de sănătate și economice din
diferite state ale unei țări. Grupul se bazează pe cât de similară este situa ția lor, astfel
încât să furnizeze aceste grupuri guvernului, astfel încât s ă poat ă fi luate m ăsuri adecvate
pentru a escalada condițiile lor de sănătate și economice.
Dicționar de date
1. State: nume de state
2. Health_indeces1: Un indice compozit rostogolește mai multe măsuri conexe (indicatori) într-un singur scor
care oferă un rezumat al modului în care funcționează sistemul de sănătate în stat.
3. Health_indeces2: Un indice compozit rostogolește mai multe măsuri conexe (indicatori) într-un singur scor
care oferă un rezumat al modului în care funcționează sistemul de sănătate în anumite zone ale statelor.
4. Venitul Per_capita_income pe cap de locuitor (PCI) măsoară venitul mediu obținut pe persoană într-o
anumită zonă (oraș, regiune, țară etc.) într-un anumit an. Se calculează prin împărțirea venitului total al zonei
la populația sa totală.
5. PIB: PIB-ul oferă un instantaneu economic al unei țări / stat, utilizat pentru a estima dimensiunea unei
economii și rata de creștere.
1.1. Citiți datele și faceți analize exploratorii ale datelor. Descrieți datele pe
scurt. (Verificați valorile nule, tipurile de date, forma, EDA etc.)
Citiți setul de date- State_wise_Health_income-1 (1).csv
Există două variabile "Unnamed: 0" și State care semnifică numai id-ul din setul de date și nu sunt necesare în
procesul de grupare. Prin urmare, acestea pot fi abandonate.
După scăderea acestor variabile-
Informații despre setul de date-
Aceasta ne oferă statisticile descriptive ale datelor, cum ar fi media, numărul, frecvența și rezumatul punctelor 5 etc.
Analiza univariată-
Asitudine
PIB 0.829665
Per_capita_income 0.823113
Health_indeces1 0.715371
Health_indices2 -0.173803
Analiza multivariată-
Pereche-
Matricea covarianței-
Matrice de corelare-
Hartă termică-
Din cele de mai sus este evident că există multi-colinearitate prezentă în date.
Cea mai mare corelație este între "Health_indeces1" și "PIB".
Utilizarea boxploturilor
Tratament aberant - În loc de imputarea care cauzează pierderea datelor, vom defini o funcție personalizată - Dacă
pentru o anumită coloană valoarea este mai mare decât valoarea maximă, atunci atribuiți-i acea valoare maximă.
Aceeași logică și pentru valoarea min. Aceasta este cunoscută sub numele de substituție min-max.
Acum, nu există valori aberante prezente în setul de date.
1.2. Credeți că scalarea este necesară pentru clustering în acest caz? Justifica
Da, scalarea este necesară deoarece algoritmii de grupare, cum ar fi K-mijloacele, au nevoie de scalarea
caracteristicilor înainte de a fi alimentați algoritmului. Deoarece tehnicile de grupare folosesc distanța euclidiană,
va fi înțelept să scalați datele constând din atribute cu unități de măsură diferite.
Setul de date de mai sus constă în date cu diferite unități de măsură, cunoscute și sub denumirea de greutăți,
astfel scalarea acestora va forma un spațiu comun, iar datele vor fi din intervalul relativ.
Vom folosi scalarea scorului z aici, în care media = 0 și abaterea standard = 1.
Înainte de scalare-
După detartraj-
Acum, datele aparțin unui interval relativ cuprins între -1,5 și 3.
P = 10
P = 25
Profiluri cluster-
Legătura episcopiei-
În această metodă, funcția de legătură care descrie distanța dintre două clustere este calculată ca o creștere a "sumei
erorilor pătratelor" (ESS) după fuzionarea a două clustere într-un singur cluster.
Metoda lui Ward alege pașii succesivi pentru a minimiza creșterea ESS la fiecare pas.
Pentru a o face mai clară, o vom trunchia.
P = 10
P = 25
Profiluri cluster-
Observaţii-
Valorile medii atât pentru legătura medie, cât și pentru legătura secției sunt diferite, cu multe variații ale
frecvenței clusterelor.
Vom prefera legătura Ward în acest set de date, deoarece a funcționat semnificativ bine.
Pe baza soluției cluster Dendrograma 3 de mai sus pare a fi cea mai potrivită.
Și soluția de cluster cu trei grupuri oferă un model bazat pe zone cu PIB ridicat, mediu și scăzut pe cap de
locuitor.
Curba cotului-
Insights- Din graficul de mai sus, numărul optim de clustere va fi 3 sau 4. Vom merge mai departe cu 3 clustere.
Crearea a 3 clustere folosind Kmeans și adăugarea lor la setul de date original.
Metoda siluetei- În aceasta calculăm coeficienții siluetei pentru fiecare punct de date. Este măsura cât de aproape este
de propriul cluster, mai degrabă decât de alte clustere.
Scor siluetă - 0.5340151343712788
[0.5282573570427488,
0.5340151343712788,
0.5524561729411546,
0.5208181010553294,
0.5337141912655894,
0.5557534218887419,
0.5342932176693953,
0.5083265323516991,
0.5145381754982109]
Clustere optime-
Vom verifica acum ieșirile atât pentru clusterul 3, cât și pentru clusterul 4 și îl vom alege pe cel optim.
3 Soluție cluster-
Frecvența clusterului-
Profiluri cluster-
4 Soluție cluster-
Frecvența clusterului-
Profiluri cluster-
Observații - Pe baza soluției cluster de mai sus, soluția cluster 3 pare a fi cea mai potrivită, deoarece diferențiază
cele 3 clustere ca-
PIB ridicat pe cap de locuitor
PIB-ul mediu pe cap de locuitor
PIB scăzut pe cap de locuitor
Menținerea creșterii productivității și a dimensiunii forței de muncă va menține condițiile sanitare și economice
ridicate.
În aceste domenii, mai multe întreprinderi noi vor contribui la creșterea și dezvoltarea zonelor.
Reducerea ratelor de impozitare va ajuta, de asemenea, aceste domenii să crească.