Sunteți pe pagina 1din 25

1

Introducere în analiza datelor


Proiect 3-Rezumat

Introducere în analiza
datelor
Proiect 3-Rezumat

De Pratyay Godiawala
2
Introducere în analiza datelor
Proiect 3-Rezumat

februarie
Data:- 21 2021.
PRINCIPALELE CONSTATĂRI

Prezentare generală

În acest proiect, mi s-a cerut să analizez setul de date inchBio, să creez grafice vizuale și
grafice ale setului de date, precum și să furnizez rezumatul constatărilor. Acesta este
distribuit în două părți, în primul rând sunt statistici care sunt explicate. În prima parte voi
analiza structura datelor inchBio și voi explica statisticile în detaliu. Următoarea parte este în
care explic unele dintre parcele și grafice.

Statistici descriptive

La imprimarea setului de date, la început părea că există o singură specie de pește în studiu. Cu toate
acestea, au existat, 534 de rânduri lăsate afară, Așa cum am vrut să fac capturi de ecran din alte
zone. Am tipărit zone aleatorii care confirmă că au fost implicate cel puțin 4 specii. După aceea, am
alergat Când am rulat o numărătoare completă a setului de date și am constatat că au fost de fapt 8
specii implicate.
3
Introducere în analiza datelor
Proiect 3-Rezumat

În timp ce ne uităm la structura setului de date, putem vedea alte informații statistice, cum ar fi
lungimea setului de date, precum și media, mediana, modul lungimii și greutății diferitelor pești.

Pentru a afla procentul de pește inclus în acest studiu, folosim analiza frecvenței prezentată
mai jos.

După ce am văzut informațiile, se pare că Largemouth Bass și Bluegill domină populația


studiului.
4
Introducere în analiza datelor
Proiect 3-Rezumat

Analiza parcelei

Primul grafic este un barplot care arată numărul total al speciilor de pești din studiu. Putem
vedea că Largemouth Bass și Bluegill sunt într-adevăr cele mai populate specii de pești.

Acum am schimbat graficul de bare în afișarea frecvenței relative. Deși majoritatea vizualului
este același, putem vedea că Bluegill și Largemouth Bass combinate cuprind majoritatea
populației de pești
5
Introducere în analiza datelor
Proiect 3-Rezumat

Cel mai simplu mod de a vedea aceste două puncte este printr-un complot Pareto care arată
totul dintr-o dată. Pe harta Pareto, am numere cumulative în partea stângă a axei Y și
procente în dreapta. Linia verde de numărare cumulativă indică punctul meu anterior, că
atunci când adăugați stocurile Largemouth Bass și Bluegill, aveți 448 de pești.
6
Introducere în analiza datelor
Proiect 3-Rezumat

Rezumat
În acest sens, vor fi utile mai multe informații despre corpul de apă. De exemplu, este doar un
corp de apă sau mai multe corpuri de apă? Locația geografică ar ajuta, de asemenea.

Lungimea și greutatea peștilor nu par a fi trăsăturile distinctive ale dimensiunii speciei. Am


descoperit că cel mai bun pește a fost Largemouth Bass, dar Bluegill nu a fost al doilea cel
mai mare pește. Analiza Paret ne ajută, de asemenea, să înțelegem nu numai datele calitative,
ci și datele cantitative.
7
Introducere în analiza datelor
Proiect 3-Rezumat

Biblografie
Bluman, A. G. (2018). Statistici elementare: O abordare pas cu pas. New York, NY:
McGraw-Hill Educație.

Engel, C. (n.d.). Introducere în r. Adus 21 februarie 2021, din https://cengel.github.io/R-


intro/gettingstarted.html

Robk@statmethods.net, R. (n.d.). Axe și text. Adus 21 februarie 2021, din


http://www.statmethods.net/advgraphs/axes.html

Plyr. (n.d.). Adus 21 februarie 2021, din


http://www.rdocumentation.org/packages/plyr/versions/1.8.6/topics/count

Ce este o diagramă pareto? (n.d.). Adus 21 februarie 2021, din https://asq.org/quality-


resources/pareto
8
Introducere în analiza datelor
Proiect 3-Rezumat

Apendice

Î1) Imprimați-vă numele în partea de sus a scriptului și încărcați aceste biblioteci: FSA,
FSAdata, magrittr, dplyr, tidyr plyr și tidyverse

Q2) Importați inchBio.csv și denumiți tabelul


9
Introducere în analiza datelor
Proiect 3-Rezumat

Î3) Afișați capul, coada și structura <bio>

Consolă

Î4) Creați un obiect, <numără>, care numără și listează toate înregistrările speciilor

Consolă
10
Introducere în analiza datelor
Proiect 3-Rezumat

Î5) Afișați doar cele 8 niveluri (nume) ale speciei

Consolă

Q6) Creați un obiect <tmp> care afișează diferitele specii și numărul de înregistrări ale
fiecărei specii din setul de date. Includeți aceste informații în raport.

Consolă
11
Introducere în analiza datelor
Proiect 3-Rezumat

Q7) Creați un subset, <tmp2> doar din variabila specie și afișați primele cinci
înregistrări

Consolă

Q8) Creați un tabel, , al variabilei specii. Afișați clasa w

Consolă
12
Introducere în analiza datelor
Proiect 3-Rezumat

Q9) Convertiți <w> într-un cadru de date numit <t> și afișați rezultatele

Consolă

Q10) Extrageți și afișați valorile frecvenței din cadrul de date <t>

Consolă
13
Introducere în analiza datelor
Proiect 3-Rezumat
Q11) Creați un tabel numit <cSpec> din atributul bio species (variabilă) și confirmați că
ați creat un tabel care afișează numărul de specii din setul de date<bio>

Consolă

Q12) Creați un tabel numit <cSpecPct> care afișează speciile și procentul de înregistrări
pentru fiecare specie. Confirmați că ați creat o clasă de tabel

Consolă
14
Introducere în analiza datelor
Proiect 3-Rezumat
Q13)Convertiți tabelul,<cSpecPct> într-un cadru de date numit<u> și confirmați că
<u> este un cadru de date

Consolă

Q14)Creați o barplot de <cSpec>cu următoarele: intitulat Fish Count cu următoarele


specificații:
• Titlu: Fish Count
• Axa Y este etichetată "COUNTS"
• Colorează barele Verde deschis
• Rotiți axa Y pentru a fi orizontală
• Setați mărirea fontului pe axa X la 60% din valoarea nominală
15
Introducere în analiza datelor
Proiect 3-Rezumat

Q15) Creați o parcelă de bare de <cSpecPct>, cu următoarele specificații:


• Limitele axei Y de la 0 la 4
• Culoarea etichetei axei Y de albastru deschis
• Titlul "Frecvența relativă a peștilor"
16
Introducere în analiza datelor
Proiect 3-Rezumat

Q16) Rearanjați cadrul de date <u>cSpec Pct în ordinea descrescătoare a frecvenței


relative. Salvați cadrul de date rearanjat ca obiect<d>

Consolă

Q17) Redenumiți <d>coloanele Var 1 în Specii și Freq în RelFreq


17
Introducere în analiza datelor
Proiect 3-Rezumat

Consolă

Q18) Adăugați variabile noi la <d> și numiți-le cumfreq, counts și cumcounts

Consolă

Q19) Creați o variabilă de parametri <def_par> pentru a stoca variabilele parametrilor

Q20) Creați un barplot,<pc> , cu următoarele specificații:


• d $ număr de lățime 1, spațiere de .15
• Fără graniță
18
Introducere în analiza datelor
Proiect 3-Rezumat
• Axe: F
• Limita Yaxis 0,3.05*max
• d $ contează na.rm este adevărat
• y eticheta este Cummulative Counts
• Scalați axa x la 70%
• names.arg: d$Specii
• Titlul barplotului este "Specii Pareto"
• LAS: 2)

Q21) Adăugați o linie de numărare cumulativă la graficul <pc> cu următoarele:


• Tipul liniei de specificații este b
• Scalați textul la 70%
• Valorile datelor sunt cercuri solide cu culoarea cyan4

Q22)Plasați o casetă gri în jurul parcelei pareto.

Q23) Adăugați o axă laterală stângă cu următoarele specificații


• Valori orizontale la bife la cumcounts pe partea 2
• Culoare bifă gri62
19
Introducere în analiza datelor
Proiect 3-Rezumat
• Culoarea axei este gri62
• Axă scalată la 80% din normal

Q24) Adăugați detaliile axei în partea dreaptă a cutiei cu specificațiile:


• Specificații: Partea 4
• Bife la cumcounts cu etichete de la 0 la cumfreq cu %,
• Culoarea axei cyan5 și culoarea etichetei cyan4
• Fontul axei scalat la 80% din valoarea nominală

Q25) Afișați parcela Pareto a speciilor finite (fără filigranele stelare). Aveți numele de
familie pe complot
20
Introducere în analiza datelor
Proiect 3-Rezumat

Plot pentru Q20-Q25

Scenariu final combinat


#1
tipărire ("Pratyay Godiawala")

install.packages("plyr")
install.packages("FSA")
install.packages("FSAdata")
install.packages("magrittr")
install.packages("dplyr")
install.packages("tidyr")
install.packages("tidyverse")
install.packages("plotrix")
install.packages("ggplot2")
install.packages("momente")
21
Introducere în analiza datelor
Proiect 3-Rezumat
bibliotecă(plyr)
bibliotecă (FSA)
bibliotecă(FSAdata)
bibliotecă(magrittr)
bibliotecă(dplyr)
bibliotecă(tidyr)
bibliotecă(Tidyverse)
bibliotecă (plotrix)
bibliotecă(ggplot2)
bibliotecă(momente)

setwd("C:/Program Files/R")
getwd()

#2
bio <- citit.csv("inchBio.csv", header=TRUE)
Bio

#3
headtail(bio, n=5)
str(bio)

#4
bio[c(1:3, 250:253, 450:453, 670:673),]

count(bio[1:676,], vars = specie)


numărătoare = număr(bio[1:676,], vars = specie)

#5
22
Introducere în analiza datelor
Proiect 3-Rezumat
contează$n <- NULL
Contează

#6
Bio
tmp.species.records <-count(bio[1:676,], vars = species)
tmp.species.records

#7
Temp2.Numai specie <- Bio[C(-1,-2,-4,-5,-6,-7)]
TEMP2.SPECIESONLY
cap(TEMP2.SPECIESONLY,5)

#OR*

temp3.SPECIESONLY <- subset (bio, select = C(species))


Temp3.Numai specii
cap(Temp3.Numai specii,5)

Rezumat(biografie)

#8
W <- Tabel(Bio$Specii)
w
Clasa(W)

#9
t <- as.data.frame(w)
t
23
Introducere în analiza datelor
Proiect 3-Rezumat

#10
Frecventa <- T[,2]
Frecvenţe

#11
cSpec = tabel (bio$specii)
cSpec

#12
cSpecPct = tabel(bio$species)/676
cSpecPct

class(cSpecPct)

#13
u = as.data.frame(cSpecPct)
u

Clasa (U)

#14
barplot(cSpec, ylab = "Numără", las=2, cex.names = .6, col="lightgreen", main="Numărul
peștilor")

#15
barplot(cSpecPct, ylim=c(0.0,0.4), las=2, ylab="%", col="lightblue", cex.names=.5,
main="Frecvența relativă a peștilor")

#16
24
Introducere în analiza datelor
Proiect 3-Rezumat
d = aranj(u,desc(Freq))
d

#17
names(d) [names(d)=="Var1"]="Specii"
names(d) [names(d)=="Freq"]="RelFreq"
d

#18
d<- mutat(d, cumfreq=cumsum(RelFreq), counts=RelFreq*676,
cumcounts=cumsum(counts))
d

#19
def_par = par()
par(mar=c(6,5,3,5))

#20
pc <- barplot(d$counts, width=1, space=.15, border=NA, axes=F,
ylim=c(0,3.05*max(d$counts, na.rm=T)),
ylab="Cumulative Counts", cex.names=.7, names.arg=d$Species, main="Species
Pareto (by Pratyay Godiawala)", las=2)

#21
lines(pc,d$cumcounts, type="b", cex=0.7, pch = 19, col="cyan4")

#22
box(col="gri62")
25
Introducere în analiza datelor
Proiect 3-Rezumat
#23
axis(side=2, at=c(0, d$cumcounts), las=1, col.axis="grey62", col="grey62", cex.axis=0.8)

#24
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round(d$cumfreq * 100)), "%", sep=""),
las = 1, col.axis = "cyan4", col = "cyan4", cex.axis = 0.8)

#25
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, rotund (d$cumfreq * 100)), "%",
sep=""),
las = 1, col.axis = "cyan4", col = "cyan4", cex.axis = 0.8)

S-ar putea să vă placă și