Documente Academic
Documente Profesional
Documente Cultură
Introducere în analiza
datelor
Proiect 3-Rezumat
De Pratyay Godiawala
2
Introducere în analiza datelor
Proiect 3-Rezumat
februarie
Data:- 21 2021.
PRINCIPALELE CONSTATĂRI
Prezentare generală
În acest proiect, mi s-a cerut să analizez setul de date inchBio, să creez grafice vizuale și
grafice ale setului de date, precum și să furnizez rezumatul constatărilor. Acesta este
distribuit în două părți, în primul rând sunt statistici care sunt explicate. În prima parte voi
analiza structura datelor inchBio și voi explica statisticile în detaliu. Următoarea parte este în
care explic unele dintre parcele și grafice.
Statistici descriptive
La imprimarea setului de date, la început părea că există o singură specie de pește în studiu. Cu toate
acestea, au existat, 534 de rânduri lăsate afară, Așa cum am vrut să fac capturi de ecran din alte
zone. Am tipărit zone aleatorii care confirmă că au fost implicate cel puțin 4 specii. După aceea, am
alergat Când am rulat o numărătoare completă a setului de date și am constatat că au fost de fapt 8
specii implicate.
3
Introducere în analiza datelor
Proiect 3-Rezumat
În timp ce ne uităm la structura setului de date, putem vedea alte informații statistice, cum ar fi
lungimea setului de date, precum și media, mediana, modul lungimii și greutății diferitelor pești.
Pentru a afla procentul de pește inclus în acest studiu, folosim analiza frecvenței prezentată
mai jos.
Analiza parcelei
Primul grafic este un barplot care arată numărul total al speciilor de pești din studiu. Putem
vedea că Largemouth Bass și Bluegill sunt într-adevăr cele mai populate specii de pești.
Acum am schimbat graficul de bare în afișarea frecvenței relative. Deși majoritatea vizualului
este același, putem vedea că Bluegill și Largemouth Bass combinate cuprind majoritatea
populației de pești
5
Introducere în analiza datelor
Proiect 3-Rezumat
Cel mai simplu mod de a vedea aceste două puncte este printr-un complot Pareto care arată
totul dintr-o dată. Pe harta Pareto, am numere cumulative în partea stângă a axei Y și
procente în dreapta. Linia verde de numărare cumulativă indică punctul meu anterior, că
atunci când adăugați stocurile Largemouth Bass și Bluegill, aveți 448 de pești.
6
Introducere în analiza datelor
Proiect 3-Rezumat
Rezumat
În acest sens, vor fi utile mai multe informații despre corpul de apă. De exemplu, este doar un
corp de apă sau mai multe corpuri de apă? Locația geografică ar ajuta, de asemenea.
Biblografie
Bluman, A. G. (2018). Statistici elementare: O abordare pas cu pas. New York, NY:
McGraw-Hill Educație.
Apendice
Î1) Imprimați-vă numele în partea de sus a scriptului și încărcați aceste biblioteci: FSA,
FSAdata, magrittr, dplyr, tidyr plyr și tidyverse
Consolă
Î4) Creați un obiect, <numără>, care numără și listează toate înregistrările speciilor
Consolă
10
Introducere în analiza datelor
Proiect 3-Rezumat
Consolă
Q6) Creați un obiect <tmp> care afișează diferitele specii și numărul de înregistrări ale
fiecărei specii din setul de date. Includeți aceste informații în raport.
Consolă
11
Introducere în analiza datelor
Proiect 3-Rezumat
Q7) Creați un subset, <tmp2> doar din variabila specie și afișați primele cinci
înregistrări
Consolă
Consolă
12
Introducere în analiza datelor
Proiect 3-Rezumat
Q9) Convertiți <w> într-un cadru de date numit <t> și afișați rezultatele
Consolă
Consolă
13
Introducere în analiza datelor
Proiect 3-Rezumat
Q11) Creați un tabel numit <cSpec> din atributul bio species (variabilă) și confirmați că
ați creat un tabel care afișează numărul de specii din setul de date<bio>
Consolă
Q12) Creați un tabel numit <cSpecPct> care afișează speciile și procentul de înregistrări
pentru fiecare specie. Confirmați că ați creat o clasă de tabel
Consolă
14
Introducere în analiza datelor
Proiect 3-Rezumat
Q13)Convertiți tabelul,<cSpecPct> într-un cadru de date numit<u> și confirmați că
<u> este un cadru de date
Consolă
Consolă
Consolă
Consolă
Q25) Afișați parcela Pareto a speciilor finite (fără filigranele stelare). Aveți numele de
familie pe complot
20
Introducere în analiza datelor
Proiect 3-Rezumat
install.packages("plyr")
install.packages("FSA")
install.packages("FSAdata")
install.packages("magrittr")
install.packages("dplyr")
install.packages("tidyr")
install.packages("tidyverse")
install.packages("plotrix")
install.packages("ggplot2")
install.packages("momente")
21
Introducere în analiza datelor
Proiect 3-Rezumat
bibliotecă(plyr)
bibliotecă (FSA)
bibliotecă(FSAdata)
bibliotecă(magrittr)
bibliotecă(dplyr)
bibliotecă(tidyr)
bibliotecă(Tidyverse)
bibliotecă (plotrix)
bibliotecă(ggplot2)
bibliotecă(momente)
setwd("C:/Program Files/R")
getwd()
#2
bio <- citit.csv("inchBio.csv", header=TRUE)
Bio
#3
headtail(bio, n=5)
str(bio)
#4
bio[c(1:3, 250:253, 450:453, 670:673),]
#5
22
Introducere în analiza datelor
Proiect 3-Rezumat
contează$n <- NULL
Contează
#6
Bio
tmp.species.records <-count(bio[1:676,], vars = species)
tmp.species.records
#7
Temp2.Numai specie <- Bio[C(-1,-2,-4,-5,-6,-7)]
TEMP2.SPECIESONLY
cap(TEMP2.SPECIESONLY,5)
#OR*
Rezumat(biografie)
#8
W <- Tabel(Bio$Specii)
w
Clasa(W)
#9
t <- as.data.frame(w)
t
23
Introducere în analiza datelor
Proiect 3-Rezumat
#10
Frecventa <- T[,2]
Frecvenţe
#11
cSpec = tabel (bio$specii)
cSpec
#12
cSpecPct = tabel(bio$species)/676
cSpecPct
class(cSpecPct)
#13
u = as.data.frame(cSpecPct)
u
Clasa (U)
#14
barplot(cSpec, ylab = "Numără", las=2, cex.names = .6, col="lightgreen", main="Numărul
peștilor")
#15
barplot(cSpecPct, ylim=c(0.0,0.4), las=2, ylab="%", col="lightblue", cex.names=.5,
main="Frecvența relativă a peștilor")
#16
24
Introducere în analiza datelor
Proiect 3-Rezumat
d = aranj(u,desc(Freq))
d
#17
names(d) [names(d)=="Var1"]="Specii"
names(d) [names(d)=="Freq"]="RelFreq"
d
#18
d<- mutat(d, cumfreq=cumsum(RelFreq), counts=RelFreq*676,
cumcounts=cumsum(counts))
d
#19
def_par = par()
par(mar=c(6,5,3,5))
#20
pc <- barplot(d$counts, width=1, space=.15, border=NA, axes=F,
ylim=c(0,3.05*max(d$counts, na.rm=T)),
ylab="Cumulative Counts", cex.names=.7, names.arg=d$Species, main="Species
Pareto (by Pratyay Godiawala)", las=2)
#21
lines(pc,d$cumcounts, type="b", cex=0.7, pch = 19, col="cyan4")
#22
box(col="gri62")
25
Introducere în analiza datelor
Proiect 3-Rezumat
#23
axis(side=2, at=c(0, d$cumcounts), las=1, col.axis="grey62", col="grey62", cex.axis=0.8)
#24
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round(d$cumfreq * 100)), "%", sep=""),
las = 1, col.axis = "cyan4", col = "cyan4", cex.axis = 0.8)
#25
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, rotund (d$cumfreq * 100)), "%",
sep=""),
las = 1, col.axis = "cyan4", col = "cyan4", cex.axis = 0.8)