Sunteți pe pagina 1din 25

EXTRAGEREA

DATELOR
PROIECT

- Ayesha Farhat

1
INDEX
CONȚINUT
1. Gruparea
1.1 Citirea datelor
1.2 Tratarea valorilor lipsă
1.3 Verificați valorile aberante

1.4 Scalare ZSCORE

1.5 Dendogramă

1.6 Intriga cotului


1.7 scoruri de siluetă

1.8 Profilați anunțurile

1.9 Rezumat
2.APC
2.1 Citirea datelor
2.2 Analiza exploratorie
2.3 Valori aberante
2.4 Scor Z
2.5 pași pentru PCA
2.6 Complot de groapă
2.7 Comparați PC-urile
2.8 Ecuație liniară

2
Clustering:
Date despre reclamele digitale:
Ads24x7 este o companie de marketing digital care a primit acum finanțare inițială de 10
milioane de dolari. Ei își extind aripile în Marketing Analytics. Au colectat date de la echipa lor
de Marketing Intelligence și acum doresc ca dvs. (analistul lor de date nou numit) să segmentați
tipul de anunțuri pe baza funcțiilor furnizate. Folosiți procedura de grupare pentru a segmenta
anunțurile în grupuri omogene.
Următoarele trei caracteristici sunt utilizate în mod obișnuit în marketingul digital:
CPM = (Total cheltuieli campanie / Număr de afișări) * 1.000
CPC = Cost total (cheltuieli) / Număr de clicuri
CTR = numărul total de clicuri măsurate/numărul total de afișări ale anunțurilor măsurate x 100

1.1 Grupare: Citiți datele și efectuați analize de bază, cum ar fi imprimarea câtorva
rânduri (cap și pajură), informații, rezumatul datelor, valori nule, valori duplicate etc.
Răspunde:

Încărcarea și vizualizarea seturilor de date:

Vizualizarea primelor 5 rânduri:

fila :1.1

Vizualizarea ultimelor 5 rânduri:

Fila :1.2

Vizualizarea formei setului de date:

3
Setul de date are 25857 rânduri și 19 coloane .

fila :1.3

Fila :1.4

Nu există rânduri dublate în date

Vizualizarea informațiilor datelor:

1.2- Grupare: Tratați valorile lipsă în CPC, CTR și CPM folosind formula dată.

Valorile lipsă din CPC, CTR și CPM sunt tratate scriind o funcție definită de utilizator și apelând-o.

4
CPM = (Total cheltuieli campanie / Număr de afișări) * 1.000

CPC = Cost total (cheltuieli) / Număr de clicuri


CTR = numărul total de clicuri măsurate/numărul total de afișări ale anunțurilor măsurate x 100
Valorile lipsă sunt tratate folosind formulele de mai sus și funcția definită de utilizator și
apelând-o folosind funcția return.

Setul de date de mai sus are coloane marcaj temporal, tip de inventar care nu sunt foarte utile pentru
grupare, de asemenea, coloanele CTR, CPM, CPC sunt variabile dependente , deci trebuie să renunțăm la
aceste coloane

1.3Grupare: Verificați dacă există valori aberante. Credeți că tratarea valorilor aberante
este necesară pentru gruparea K-Means? Pe baza raționamentului dvs., decideți dacă să
tratați valorile aberante și, dacă da, ce metodă să utilizați. (Ca analist, judecata ta poate fi
diferită de cea a altui analist).

5
Fig: 1.2

Fig: 1.3

6
1.4 - Clustering: Efectuați scalarea scorului z și discutați despre modul în care afectează
viteza algoritmului.

Renunțarea la câteva coloane și verificarea primelor 5 rânduri:

Fila :1.6

Tab:1.7

1.5 - Grupare: Efectuați ierarhic prin construirea unei dendrograme folosind distanța
WARD și euclidiană.

Construirea Dendogramei apelând funcția dendogramă:

7
Fig: 1.4

Vizualizând ultimele 10 clustere fuzionate folosind trunchiere , dat fiind p = 10, obținem :

Cadrul de date este acum stocat într-o matrice.

Tab:1.9

Wss:

8
1.6 - Clustering: Faceți graficul cotului (până la n = 10) și identificați numărul optim de
clustere pentru algoritmul k-means.

Fig: 1.6

Când trecem de la k = 1 la k = 2 , vedem că există o scădere semnificativă a valorii , de


asemenea, atunci când trecem de la k = 2 la k = 3, k = 3 la k = 4 există și o scădere semnificativă.
Dar de la k=4 la k=5, k=5 la k=6, scăderea valorilor se reduce semnificativ.
Cu alte cuvinte, wss nu scade semnificativ peste 4, deci 4 este numărul optim de clustere.
1.7 - Clustering: Imprimați scorurile siluetei pentru până la 10 clustere și identificați
numărul optim de clustere.

Două funcții pe care le folosim aici sunt silhouette_samples și silhouette_score

Funcția silhouette_score calculează media lățimii siluetei

Funcția silhouette_samples calculează lățimea siluetei pentru fiecare rând.

9
Fila: 1.10

silhouette_score:

Deoarece silhouette_score este de 0,5, putem concluziona că este un set bine distins
de clustere.

Cele 4 clustere create au un silhouette_score de 0,50

Fila: 1.11

1.8 - Grupare: Profilați anunțurile pe baza numărului optim de clustere folosind scorul
siluetei și înțelegerea domeniului dvs. [Sugestie: grupați datele pe clustere și luați suma
sau media pentru a identifica tendințele în clicuri, cheltuieli, venituri, CPM, CTR ȘI CPC
pe baza tipului de dispozitiv. Faceți parcele de bare].
Profilarea clusterului:

Tab: 1.12

1.9 - Grupare: Încheiați proiectul furnizând un rezumat al învățămintelor dvs.

 Setul de date are 25857 rânduri și 19 coloane.

10
 Valorile lipsă din CPC, CTR și CPM sunt tratate utilizând formulele date și scriind o funcție
definită de utilizator și apelând-o.
 Verificăm valorile aberante, putem vedea că există valori aberante în variabile.
 Dendograma este vizualizarea și legătura este pentru calcularea distanțelor și fuzionarea
clusterelor de la n la 1.
 Rezultatul Linkage este vizualizat de Dendogram.
 Vom crea legătura folosind metoda lui Ward și vom rula funcția de legătură pe coloanele
utilizabile ale datelor.
 Legătura stochează acum diferitele distanțe la care cele n clustere sunt fuzionate secvențial într-
un singur cluster.
 folosind funcția fit - transform și vizualizarea ieșirii - Cadrul de date este acum stocat într-o
matrice.
 Folosind această matrice putem efectua acum k-mijloace
 Singura cerință înainte de a rula algoritmul k-means este să știm câte clustere avem nevoie ca
ieșire
 Cartografiem graficul cotului folosind valorile wss
 Din complot avem următoarele observații:
 Când trecem de la k = 1 la k = 2 , vedem că există o scădere semnificativă a valorii , de
asemenea, atunci când trecem de la k = 2 la k = 3, k = 3 la k = 4 există și o scădere semnificativă.
 Dar de la k=4 la k=5, k=5 la k=6, scăderea valorilor se reduce semnificativ.
 Cu alte cuvinte, wss nu scade semnificativ peste 4,
 Deci 4 este numărul optim de clustere.

11
Partea 2
PCA:

PCA FH (FT): Rezumatul recensământului primar pentru gospodăriile conduse de femei, cu excepția
gospodăriilor instituționale (India și state / UT - nivel districtual), triburi programate - 2011 PCA pentru
gospodăria condusă de femei, cu excepția gospodăriei instituționale. Recensământul indian are reputația
de a fi unul dintre cele mai bune din lume. Primul recensământ din India a fost efectuat în anul 1872.
Acest lucru a fost realizat în diferite momente de timp în diferite părți ale țării. În 1881 a fost efectuat
simultan un recensământ pentru întreaga țară. De atunci, recensământul a fost efectuat la fiecare zece
ani, fără pauză. Astfel, Recensământul Indiei 2011 a fost al cincisprezecelea din această serie
neîntreruptă din 1872, al șaptelea după independență și al doilea recensământ al mileniului al treilea și al
secolului al XXI-lea. Recensământul a fost continuat fără întrerupere, în ciuda mai multor adversități, cum
ar fi războaie, epidemii, calamități naturale, tulburări politice etc. Recensământul Indiei se desfășoară în
conformitate cu prevederile Legii recensământului din 1948 și ale Regulilor de recensământ, 1990.
Rezumatul recensământului primar, care este o publicație importantă a recensământului din 2011, oferă
informații de bază despre suprafață, numărul total de gospodării, populația totală, castele programate,
populația triburilor programate, populația din grupa de vârstă 0-6 ani, literați, lucrători principali și lucrători
marginali clasificați pe cele patru mari categorii industriale, și anume, (i) cultivatori, (ii) lucrători agricoli,
(iii) lucrători casnici, și (iv) Alți lucrători și, de asemenea, non-lucrători. Caracteristicile populației totale
includ castele programate, triburile programate, populația instituțională și fără adăpost și sunt prezentate
în funcție de sex și reședința rural-urbană. Recensământul din 2011 a acoperit 35 de state/teritorii
unionale, 640 de districte, 5.924 de subdistricte, 7.935 de orașe și 6.40.867 de sate.
Datele colectate au atât de multe variabile, ceea ce face dificilă găsirea detaliilor utile fără a utiliza tehnici
de știință a datelor. Aveți sarcina de a efectua EDA detaliat și de a identifica componentele principale
optime care explică cea mai mare variație a datelor. Utilizați numai Sklearn

12
2.1 PCA: Citiți datele și efectuați verificări de bază, cum ar fi capul de verificare,
informațiile, rezumatul, nulurile și duplicatele etc.

Încărcarea și citirea setului de date.


Verificarea primelor 5 rânduri utilizând funcția cap.

Fila: 2.1

Verificarea formei setului de date

Fig: 2.2

Există 640 de rânduri și 61 de coloane


Verificarea adecvării tipurilor de date – numărul nenul, intervalul de index și tipul de date al
setului de date

Fig: 2.3

13
Vedem că există 640 de rânduri și 61 de coloane de date

Fig : 2.

59 din 61 de coloane sunt tip de date int și 2 coloane sunt tip de date obiect categoric. Și fără
valori nule.
Verificarea valorilor duplicate.

Fig : 2.

2.2 PCA: Efectuați analize exploratorii detaliate prin crearea anumitor întrebări
precum (i) Care stat are cel mai mare raport de gen și care are cel mai mic? (ii)
Care district are cel mai mare și cel mai mic raport de gen? (exemple de întrebări).
Alegeți 5 variabile din cele 24 date .
Răspunde:

Care stat are cea mai mare populație?

Fig: 2.1

Care stat are cea mai mare populație feminină totală?

14
Fig: 2.2

15
Care stat are cea mai mare populație masculină totală

Fig: 2.3

16
Pentru AEA - Variabile luate în considerare:

No_HH TOT_M TOT_F TOT_WORK_M TOT_WORK_F

Nr. de gospodărie
Populația totală Masculin
Populația totală Feminin
Totalul populației de lucrători: bărbați
Populația totală a lucrătorilor de sex feminin
Analiza univariată:
Reprezentarea grafică a histogramei și a casetelor pentru
variabilele de mai sus:

Fig: 2.4

17
Analiza bivariată:

Fig:2.5

2.3 PCA: Alegem să nu tratăm valorile aberante pentru acest caz. Credeți că este
necesară tratarea valorilor aberante pentru acest caz?

18
2.4 PCA: Scalați datele utilizând metoda scorului z. Scalarea are vreun impact asupra
valorilor aberante? Comparați parcelele de casetă înainte și după scalare și
comentați.

Răspunde:

După ce ați renunțat la câteva coloane, iată cum arată setul de date:

Fila:2.2

Avem 57 de caracteristici.

Verificați prezența valorilor aberante în fiecare caracteristică

Reprezentarea grafică a casetei înainte de scalarea noilor date, care conține numai coloane
numerice.

19
Fig: 2.6

scalarea setului de date utilizând scorul Z și verificarea primelor 5 rânduri ale setului de date
scalat:

Tabelul 2.3

Datele au fost scalate .


Verificarea valorilor aberante ale datelor scalate

Fig: 2.7

20
Fig: 2.8

2.5 PCA: Efectuați toți pașii necesari pentru PCA (utilizați numai sklearn) Creați
matricea covarianței Obțineți valori proprii și vector eigen.

Răspunde:
Extragerea vectorilor proprii și examinarea componentelor PCA

Fila: 2.4

Fila: 2.5

Varianță explicată=(valoarea proprie a fiecărui PC)/(suma valorilor proprii


ale tuturor PC-urilor)

21
Verificați varianța explicată pentru fiecare PC

Tab:2.6
Organizarea varianței explicate mai sus într-un cadru de date

Fila: 2.7

2.6 PCA: Identificați numărul optim de PC-uri (pentru acest proiect, luați cel puțin 90%
variație explicată). Arată complotul Scree.

22
Fig: 2.9

Fila: 2.8.

23
2.7 PCA: Comparați PC-urile cu coloanele reale și identificați care explică cea mai
mare variație. Scrieți inferențe despre toate componentele principale în termeni de
variabile reale.

24
Fig: 2.10

Fig: 2.10

2.8 PCA: Scrieți ecuația liniară pentru primul PC.

PC 1 = a1x1 + a2x2 + a3X3 +a4X4 + .......+ a57x57

25

S-ar putea să vă placă și