Sunteți pe pagina 1din 19

Raport de afaceri: Proiectul de extragere a datelor

De- Shorya Goel

Problema 1: Gruparea
Enunțarea problemei: Setul de date dat se referă la condițiile de sănătate și economice din
diferite state ale unei țări. Grupul se bazează pe cât de similară este situa ția lor, astfel
încât să furnizeze aceste grupuri guvernului, astfel încât s ă poat ă fi luate m ăsuri adecvate
pentru a escalada condițiile lor de sănătate și economice.

Dicționar de date
1. State: nume de state
2. Health_indeces1: Un indice compozit rostogolește mai multe măsuri conexe (indicatori) într-un singur scor
care oferă un rezumat al modului în care funcționează sistemul de sănătate în stat.
3. Health_indeces2: Un indice compozit rostogolește mai multe măsuri conexe (indicatori) într-un singur scor
care oferă un rezumat al modului în care funcționează sistemul de sănătate în anumite zone ale statelor.
4. Venitul Per_capita_income pe cap de locuitor (PCI) măsoară venitul mediu obținut pe persoană într-o
anumită zonă (oraș, regiune, țară etc.) într-un anumit an. Se calculează prin împărțirea venitului total al zonei
la populația sa totală.
5. PIB: PIB-ul oferă un instantaneu economic al unei țări / stat, utilizat pentru a estima dimensiunea unei
economii și rata de creștere.

1.1. Citiți datele și faceți analize exploratorii ale datelor. Descrieți datele pe
scurt. (Verificați valorile nule, tipurile de date, forma, EDA etc.)
Citiți setul de date- State_wise_Health_income-1 (1).csv

Există două variabile "Unnamed: 0" și State care semnifică numai id-ul din setul de date și nu sunt necesare în
procesul de grupare. Prin urmare, acestea pot fi abandonate.
După scăderea acestor variabile-
Informații despre setul de date-

Există 4 variabile și 297 de înregistrări.


Nu lipsește nicio înregistrare pe baza analizei inițiale.
Toate variabilele sunt variabile de tip întreg.

Forma setului de date: (297, 4)


Aceasta arată numărul total de rânduri = 297 și numărul total de coloane = 4.

Verificarea valorilor lipsă

Nu există valori lipsă prezente în setul de date.

Rezumatul setului de date

Aceasta ne oferă statisticile descriptive ale datelor, cum ar fi media, numărul, frecvența și rezumatul punctelor 5 etc.
Analiza univariată-

Asitudine
PIB 0.829665
Per_capita_income 0.823113
Health_indeces1 0.715371
Health_indices2 -0.173803

Din graficele de mai sus se poate observa că –


 Toate variabilele, cu excepția Health_indices2, sunt înclinate spre dreapta.
 Health_indices2 este distorsionat negativ.
 Există valori aberante prezente "Health_indeces1" și "Per_capita_income".
 Punctele de date din toate variabilele sunt oarecum distribuite în mod similar.

Analiza multivariată-

Pereche-

Matricea covarianței-
Matrice de corelare-

Hartă termică-

Din cele de mai sus este evident că există multi-colinearitate prezentă în date.
Cea mai mare corelație este între "Health_indeces1" și "PIB".

Verificare / tratament aberant-

Utilizarea boxploturilor

Nr. valori aberante în Health_indeces1: 2


Nr. valori aberante în Per_capita_income: 1

Tratament aberant - În loc de imputarea care cauzează pierderea datelor, vom defini o funcție personalizată - Dacă
pentru o anumită coloană valoarea este mai mare decât valoarea maximă, atunci atribuiți-i acea valoare maximă.
Aceeași logică și pentru valoarea min. Aceasta este cunoscută sub numele de substituție min-max.
Acum, nu există valori aberante prezente în setul de date.

1.2. Credeți că scalarea este necesară pentru clustering în acest caz? Justifica

Da, scalarea este necesară deoarece algoritmii de grupare, cum ar fi K-mijloacele, au nevoie de scalarea
caracteristicilor înainte de a fi alimentați algoritmului. Deoarece tehnicile de grupare folosesc distanța euclidiană,
va fi înțelept să scalați datele constând din atribute cu unități de măsură diferite.
Setul de date de mai sus constă în date cu diferite unități de măsură, cunoscute și sub denumirea de greutăți,
astfel scalarea acestora va forma un spațiu comun, iar datele vor fi din intervalul relativ.
Vom folosi scalarea scorului z aici, în care media = 0 și abaterea standard = 1.

Înainte de scalare-
După detartraj-
Acum, datele aparțin unui interval relativ cuprins între -1,5 și 3.

1.3. Aplicați gruparea ierarhică datelor scalate. Identificați numărul de clustere


optime folosind dendrograma și descrieți-le pe scurt.
Există diferite metode de grupare, în acest set de date vom folosi metode de legătură "Mediu" și "Ward".
Legătura medie-
În această metodă, distanța dintre fiecare pereche de observații din fiecare cluster este adunată și împărțită la
numărul de perechi pentru a obține o distanță medie între clustere.
Legătura medie și legătura completă sunt cele mai populare două valori de distanță în gruparea ierarhică.

Pentru a o face mai clară, o vom trunchia.

P = 10

P = 25

Din dendrograma de mai sus este clar că trebuie formate 3 clustere.


Vom folosi modulul fcluster pentru a crea clusterul.
După crearea a 3 clustere ca (1, 2 și 3) și stocarea lor într-o altă coloană numită "cluster-3" în setul de date.
Frecvența clusterului-

Profiluri cluster-

Vizualizare cluster pentru legătura medie-

Legătura episcopiei-
În această metodă, funcția de legătură care descrie distanța dintre două clustere este calculată ca o creștere a "sumei
erorilor pătratelor" (ESS) după fuzionarea a două clustere într-un singur cluster.
Metoda lui Ward alege pașii succesivi pentru a minimiza creșterea ESS la fiecare pas.
Pentru a o face mai clară, o vom trunchia.

P = 10

P = 25

Din dendrograma de mai sus este clar că trebuie formate 3 clustere.


Vom folosi modulul fcluster pentru a crea clusterul.
După crearea a 3 clustere ca (1, 2 și 3) și stocarea lor într-o altă coloană numită "cluster-3" în setul de date.
Frecvența clusterului-

Profiluri cluster-

Vizualizare cluster pentru conectarea episcopiei-

Observaţii-
 Valorile medii atât pentru legătura medie, cât și pentru legătura secției sunt diferite, cu multe variații ale
frecvenței clusterelor.
 Vom prefera legătura Ward în acest set de date, deoarece a funcționat semnificativ bine.
 Pe baza soluției cluster Dendrograma 3 de mai sus pare a fi cea mai potrivită.
 Și soluția de cluster cu trei grupuri oferă un model bazat pe zone cu PIB ridicat, mediu și scăzut pe cap de
locuitor.

1.4. Aplicați gruparea K-Means pe date scalate și determinați clusterele


optime. Aplicați curba cotului și găsiți scorul siluetei.
K-Mean Clustering- Aceasta este o metodă iterativă de partiționare a datelor în K subgrupuri distincte predefinite, care
nu se suprapun, cunoscute și sub numele de clustere. În aceasta, fiecare punct de date aparține unui singur grup. În
punctele de date intra-cluster sunt cât se poate de asemănătoare, în timp ce distanța dintre diferite clustere cât mai
mult posibil.
Etapele de lucru ale algoritmului k-means-
 Specificați numărul de clustere K.
 Inițializați centroizii amestecând mai întâi setul de date și apoi selectând aleatoriu K puncte de date pentru
centroizi fără înlocuire.
 Continuați să iterați până când nu există nicio modificare a centroizilor, adică atribuirea punctelor de date
clusterelor nu se schimbă.
 Calculați suma distanței pătrate dintre punctele de date și toți centroizii.
 Atribuiți fiecare punct de date celui mai apropiat cluster (centroid).
 Calculați centroizii pentru clustere luând media tuturor punctelor de date care aparțin fiecărui cluster.

Acum efectuați metoda cotului K-Means pentru K = (de la 1 la 10)

Inerția pentru K = 1 până la K = 10.

Curba cotului-

Insights- Din graficul de mai sus, numărul optim de clustere va fi 3 sau 4. Vom merge mai departe cu 3 clustere.
Crearea a 3 clustere folosind Kmeans și adăugarea lor la setul de date original.

Vizualizare cluster pentru Kmeans –

Metoda siluetei- În aceasta calculăm coeficienții siluetei pentru fiecare punct de date. Este măsura cât de aproape este
de propriul cluster, mai degrabă decât de alte clustere.
Scor siluetă - 0.5340151343712788

Scoruri pentru clusterul K=2 până la K=10:

[0.5282573570427488,
0.5340151343712788,
0.5524561729411546,
0.5208181010553294,
0.5337141912655894,
0.5557534218887419,
0.5342932176693953,
0.5083265323516991,
0.5145381754982109]

Grafic grafic folosind Silhouette Score-


Acum, adăugând lățimea Silhouette la setul de date K-Mean-
Lățimea siluetei este o măsură între -1 și +1, valoarea 1 indicând un cluster foarte bun.

Clustere optime-
Vom verifica acum ieșirile atât pentru clusterul 3, cât și pentru clusterul 4 și îl vom alege pe cel optim.

3 Soluție cluster-

Frecvența clusterului-
Profiluri cluster-

4 Soluție cluster-

Frecvența clusterului-

Profiluri cluster-

Observații - Pe baza soluției cluster de mai sus, soluția cluster 3 pare a fi cea mai potrivită, deoarece diferențiază
cele 3 clustere ca-
 PIB ridicat pe cap de locuitor
 PIB-ul mediu pe cap de locuitor
 PIB scăzut pe cap de locuitor

1.5. Descrieți profilurile clusterelor pentru clusterele definite. Recomandați


diferite acțiuni bazate pe priorități care trebuie întreprinse pentru diferite
clustere pe baza situațiilor lor de vulnerabilitate în funcție de condițiile lor
economice și de sănătate.

Obiectivul nostru principal a fost de a împărți datele în număr optim de clustere.


Atât din gruparea ierarhică, cât și din gruparea Kmeans, obținem 3 ca număr optim de clustere.

Informații din toate metodele de grupare de mai sus-


3 cluster de grupuri prin Kmeans-

Aici Grupul 1 = PIB scăzut pe cap de locuitor


Grupul 2 = PIB mediu pe cap de locuitor
Grupul 3 = PIB ridicat pe cap de locuitor

3 clustere de grupuri prin grupare ierarhică-

Aici Grupul 1 = PIB ridicat pe cap de locuitor


Grupul 2 = PIB scăzut pe cap de locuitor
Grupul 3 = PIB mediu pe cap de locuitor

Profiluri de grup de clustere-

Grupul 1: Zone cu un PIB ridicat pe cap de locuitor


- Acestea sunt zonele care au cea mai mare rată de creștere.
- Condițiile de sănătate și economice din aceste domenii sunt excelente.
- Venitul pe cap de locuitor în aceste zone este foarte mare.
Grupul 2: Zone cu PIB scăzut pe cap de locuitor
- Acestea sunt zonele care au o rată de creștere foarte scăzută.
- Condițiile sanitare și economice nu sunt bune în aceste domenii.
- Venitul pe cap de locuitor în aceste zone este foarte scăzut.
Clusterul 3: Zone cu PIB mediu pe cap de locuitor
- Acestea sunt zonele care au o rată medie de creștere.
- Condițiile sanitare și economice din aceste zone sunt adecvate.
- Venitul pe cap de locuitor în aceste zone este mediu.

Recomandări pentru fiecare profil de cluster.


Principalele caracteristici care afectează condițiile de sănătate și economice sunt forța de muncă și productivitatea.
Cu cât aceste atribute sunt mai mari, cu atât PIB-ul pe cap de locuitor este mai mare și, prin urmare, condițiile sanitare
și economice sunt mai mari
Grupul 1: Zone cu un PIB ridicat pe cap de locuitor

 Menținerea creșterii productivității și a dimensiunii forței de muncă va menține condițiile sanitare și economice
ridicate.

Grupul 2: Zone cu PIB scăzut pe cap de locuitor

 În aceste domenii, trebuie deschise industrii la scară largă.


 Ar trebui create mai multe oportunități de ocupare a forței de muncă pentru a crește dimensiunea forței de
muncă și, astfel, pentru a crește productivitatea.
Acestea vor contribui la creșterea condițiilor sanitare și economice în aceste domenii.

Clusterul 3: Zone cu PIB mediu pe cap de locuitor

 În aceste domenii, mai multe întreprinderi noi vor contribui la creșterea și dezvoltarea zonelor.
 Reducerea ratelor de impozitare va ajuta, de asemenea, aceste domenii să crească.

S-ar putea să vă placă și