Godiawala M3 Project3

1
Introducere în analiza datelor

Proiect 3-Rezumat
Introducere în analiza
datelor
Proiect 3-Rezumat
De Pratyay Godiawala
2
Proiect 3-Rezumat
februarie
Data:- 21 2021.
PRINCIPALELE CONSTATĂRI
Prezentare generală
În acest proiect, mi s-a cerut să analizez setul de date inchBio, să creez grafice vizuale și
grafice ale setului de date, precum și să furnizez rezumatul constatărilor. Acesta este
distribuit în două părți, în primul rând sunt statistici care sunt explicate. În prima parte voi
analiza structura datelor inchBio și voi explica statisticile în detaliu. Următoarea parte este în
care explic unele dintre parcele și grafice.
Statistici descriptive
La imprimarea setului de date, la început părea că există o singură specie de pește în studiu. Cu toate
acestea, au existat, 534 de rânduri lăsate afară, Așa cum am vrut să fac capturi de ecran din alte
zone. Am tipărit zone aleatorii care confirmă că au fost implicate cel puțin 4 specii. După aceea, am
alergat Când am rulat o numărătoare completă a setului de date și am constatat că au fost de fapt 8
specii implicate.
3
Proiect 3-Rezumat
În timp ce ne uităm la structura setului de date, putem vedea alte informații statistice, cum ar fi
lungimea setului de date, precum și media, mediana, modul lungimii și greutății diferitelor pești.
Pentru a afla procentul de pește inclus în acest studiu, folosim analiza frecvenței prezentată
mai jos.
După ce am văzut informațiile, se pare că Largemouth Bass și Bluegill domină populația

studiului.
4
Proiect 3-Rezumat
Analiza parcelei
Primul grafic este un barplot care arată numărul total al speciilor de pești din studiu. Putem
vedea că Largemouth Bass și Bluegill sunt într-adevăr cele mai populate specii de pești.
Acum am schimbat graficul de bare în afișarea frecvenței relative. Deși majoritatea vizualului
este același, putem vedea că Bluegill și Largemouth Bass combinate cuprind majoritatea
populației de pești
5
Proiect 3-Rezumat
Cel mai simplu mod de a vedea aceste două puncte este printr-un complot Pareto care arată
totul dintr-o dată. Pe harta Pareto, am numere cumulative în partea stângă a axei Y și
procente în dreapta. Linia verde de numărare cumulativă indică punctul meu anterior, că
atunci când adăugați stocurile Largemouth Bass și Bluegill, aveți 448 de pești.
6
Proiect 3-Rezumat
Rezumat
În acest sens, vor fi utile mai multe informații despre corpul de apă. De exemplu, este doar un
corp de apă sau mai multe corpuri de apă? Locația geografică ar ajuta, de asemenea.
Lungimea și greutatea peștilor nu par a fi trăsăturile distinctive ale dimensiunii speciei. Am

descoperit că cel mai bun pește a fost Largemouth Bass, dar Bluegill nu a fost al doilea cel
mai mare pește. Analiza Paret ne ajută, de asemenea, să înțelegem nu numai datele calitative,
ci și datele cantitative.
7
Proiect 3-Rezumat
Biblografie
Bluman, A. G. (2018). Statistici elementare: O abordare pas cu pas. New York, NY:
McGraw-Hill Educație.
Engel, C. (n.d.). Introducere în r. Adus 21 februarie 2021, din https://cengel.github.io/R-

intro/gettingstarted.html
Robk@statmethods.net, R. (n.d.). Axe și text. Adus 21 februarie 2021, din

http://www.statmethods.net/advgraphs/axes.html
Plyr. (n.d.). Adus 21 februarie 2021, din

http://www.rdocumentation.org/packages/plyr/versions/1.8.6/topics/count
Ce este o diagramă pareto? (n.d.). Adus 21 februarie 2021, din https://asq.org/quality-

resources/pareto
8
Proiect 3-Rezumat
Apendice
Î1) Imprimați-vă numele în partea de sus a scriptului și încărcați aceste biblioteci: FSA,
FSAdata, magrittr, dplyr, tidyr plyr și tidyverse
Q2) Importați inchBio.csv și denumiți tabelul

9
Proiect 3-Rezumat
Î3) Afișați capul, coada și structura <bio>
Consolă
Î4) Creați un obiect, <numără>, care numără și listează toate înregistrările speciilor
Consolă
10
Proiect 3-Rezumat
Î5) Afișați doar cele 8 niveluri (nume) ale speciei
Consolă
Q6) Creați un obiect <tmp> care afișează diferitele specii și numărul de înregistrări ale
fiecărei specii din setul de date. Includeți aceste informații în raport.
Consolă
11
Proiect 3-Rezumat
Q7) Creați un subset, <tmp2> doar din variabila specie și afișați primele cinci
înregistrări
Consolă
Q8) Creați un tabel, , al variabilei specii. Afișați clasa w
Consolă
12
Proiect 3-Rezumat
Q9) Convertiți <w> într-un cadru de date numit <t> și afișați rezultatele
Consolă
Q10) Extrageți și afișați valorile frecvenței din cadrul de date <t>
Consolă
13
Proiect 3-Rezumat
Q11) Creați un tabel numit <cSpec> din atributul bio species (variabilă) și confirmați că
ați creat un tabel care afișează numărul de specii din setul de date<bio>
Consolă
Q12) Creați un tabel numit <cSpecPct> care afișează speciile și procentul de înregistrări
pentru fiecare specie. Confirmați că ați creat o clasă de tabel
Consolă
14
Proiect 3-Rezumat
Q13)Convertiți tabelul,<cSpecPct> într-un cadru de date numit<u> și confirmați că
<u> este un cadru de date
Consolă
Q14)Creați o barplot de <cSpec>cu următoarele: intitulat Fish Count cu următoarele

specificații:
• Titlu: Fish Count
• Axa Y este etichetată "COUNTS"
• Colorează barele Verde deschis
• Rotiți axa Y pentru a fi orizontală
• Setați mărirea fontului pe axa X la 60% din valoarea nominală
15
Proiect 3-Rezumat
Q15) Creați o parcelă de bare de <cSpecPct>, cu următoarele specificații:

• Limitele axei Y de la 0 la 4
• Culoarea etichetei axei Y de albastru deschis
• Titlul "Frecvența relativă a peștilor"
16
Proiect 3-Rezumat
Q16) Rearanjați cadrul de date <u>cSpec Pct în ordinea descrescătoare a frecvenței

relative. Salvați cadrul de date rearanjat ca obiect<d>
Consolă
Q17) Redenumiți <d>coloanele Var 1 în Specii și Freq în RelFreq

17
Proiect 3-Rezumat
Consolă
Q18) Adăugați variabile noi la <d> și numiți-le cumfreq, counts și cumcounts
Consolă
Q19) Creați o variabilă de parametri <def_par> pentru a stoca variabilele parametrilor
Q20) Creați un barplot,<pc> , cu următoarele specificații:

• d $ număr de lățime 1, spațiere de .15
• Fără graniță
18
Proiect 3-Rezumat
• Axe: F
• Limita Yaxis 0,3.05*max
• d $ contează na.rm este adevărat
• y eticheta este Cummulative Counts
• Scalați axa x la 70%
• names.arg: d$Specii
• Titlul barplotului este "Specii Pareto"
• LAS: 2)
Q21) Adăugați o linie de numărare cumulativă la graficul <pc> cu următoarele:

• Tipul liniei de specificații este b
• Scalați textul la 70%
• Valorile datelor sunt cercuri solide cu culoarea cyan4
Q22)Plasați o casetă gri în jurul parcelei pareto.
Q23) Adăugați o axă laterală stângă cu următoarele specificații

• Valori orizontale la bife la cumcounts pe partea 2
• Culoare bifă gri62
19
Proiect 3-Rezumat
• Culoarea axei este gri62
• Axă scalată la 80% din normal
Q24) Adăugați detaliile axei în partea dreaptă a cutiei cu specificațiile:

• Specificații: Partea 4
• Bife la cumcounts cu etichete de la 0 la cumfreq cu %,
• Culoarea axei cyan5 și culoarea etichetei cyan4
• Fontul axei scalat la 80% din valoarea nominală
Q25) Afișați parcela Pareto a speciilor finite (fără filigranele stelare). Aveți numele de
familie pe complot
20
Proiect 3-Rezumat
Plot pentru Q20-Q25
Scenariu final combinat

#1
tipărire ("Pratyay Godiawala")
install.packages("plyr")
install.packages("FSA")
install.packages("FSAdata")
install.packages("magrittr")
install.packages("dplyr")
install.packages("tidyr")
install.packages("tidyverse")
install.packages("plotrix")
install.packages("ggplot2")
install.packages("momente")
21
Proiect 3-Rezumat
bibliotecă(plyr)
bibliotecă (FSA)
bibliotecă(FSAdata)
bibliotecă(magrittr)
bibliotecă(dplyr)
bibliotecă(tidyr)
bibliotecă(Tidyverse)
bibliotecă (plotrix)
bibliotecă(ggplot2)
bibliotecă(momente)
setwd("C:/Program Files/R")
getwd()
#2
bio <- citit.csv("inchBio.csv", header=TRUE)
Bio
#3
headtail(bio, n=5)
str(bio)
#4
bio[c(1:3, 250:253, 450:453, 670:673),]
count(bio[1:676,], vars = specie)

numărătoare = număr(bio[1:676,], vars = specie)
#5
22
Proiect 3-Rezumat
contează$n <- NULL
Contează
#6
Bio
tmp.species.records <-count(bio[1:676,], vars = species)
tmp.species.records
#7
Temp2.Numai specie <- Bio[C(-1,-2,-4,-5,-6,-7)]
TEMP2.SPECIESONLY
cap(TEMP2.SPECIESONLY,5)
#OR*
temp3.SPECIESONLY <- subset (bio, select = C(species))

Temp3.Numai specii
cap(Temp3.Numai specii,5)
Rezumat(biografie)
#8
W <- Tabel(Bio$Specii)
w
Clasa(W)
#9
t <- as.data.frame(w)
t
23
Proiect 3-Rezumat
#10
Frecventa <- T[,2]
Frecvenţe
#11
cSpec = tabel (bio$specii)
cSpec
#12
cSpecPct = tabel(bio$species)/676
cSpecPct
class(cSpecPct)
#13
u = as.data.frame(cSpecPct)
u
Clasa (U)
#14
barplot(cSpec, ylab = "Numără", las=2, cex.names = .6, col="lightgreen", main="Numărul
peștilor")
#15
barplot(cSpecPct, ylim=c(0.0,0.4), las=2, ylab="%", col="lightblue", cex.names=.5,
main="Frecvența relativă a peștilor")
#16
24
Proiect 3-Rezumat
d = aranj(u,desc(Freq))
d
#17
names(d) [names(d)=="Var1"]="Specii"
names(d) [names(d)=="Freq"]="RelFreq"
d
#18
d<- mutat(d, cumfreq=cumsum(RelFreq), counts=RelFreq*676,
cumcounts=cumsum(counts))
d
#19
def_par = par()
par(mar=c(6,5,3,5))
#20
pc <- barplot(d$counts, width=1, space=.15, border=NA, axes=F,
ylim=c(0,3.05*max(d$counts, na.rm=T)),
ylab="Cumulative Counts", cex.names=.7, names.arg=d$Species, main="Species
Pareto (by Pratyay Godiawala)", las=2)
#21
lines(pc,d$cumcounts, type="b", cex=0.7, pch = 19, col="cyan4")
#22
box(col="gri62")
25
Proiect 3-Rezumat
#23
axis(side=2, at=c(0, d$cumcounts), las=1, col.axis="grey62", col="grey62", cex.axis=0.8)
#24
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round(d$cumfreq * 100)), "%", sep=""),
las = 1, col.axis = "cyan4", col = "cyan4", cex.axis = 0.8)
#25
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, rotund (d$cumfreq * 100)), "%",
sep=""),
las = 1, col.axis = "cyan4", col = "cyan4", cex.axis = 0.8)

Godiawala M3 Project3

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Godiawala M3 Project3

Încărcat de

Drepturi de autor:

Formate disponibile

1

Introducere în analiza datelor

După ce am văzut informațiile, se pare că Largemouth Bass și Bluegill domină populația

Lungimea și greutatea peștilor nu par a fi trăsăturile distinctive ale dimensiunii speciei. Am

Engel, C. (n.d.). Introducere în r. Adus 21 februarie 2021, din https://cengel.github.io/R-

Robk@statmethods.net, R. (n.d.). Axe și text. Adus 21 februarie 2021, din

Plyr. (n.d.). Adus 21 februarie 2021, din

Ce este o diagramă pareto? (n.d.). Adus 21 februarie 2021, din https://asq.org/quality-

Q2) Importați inchBio.csv și denumiți tabelul

Î3) Afișați capul, coada și structura <bio>

Î5) Afișați doar cele 8 niveluri (nume) ale speciei

Q8) Creați un tabel, , al variabilei specii. Afișați clasa w

Q10) Extrageți și afișați valorile frecvenței din cadrul de date <t>

Q14)Creați o barplot de <cSpec>cu următoarele: intitulat Fish Count cu următoarele

Q15) Creați o parcelă de bare de <cSpecPct>, cu următoarele specificații:

Q16) Rearanjați cadrul de date <u>cSpec Pct în ordinea descrescătoare a frecvenței

Q17) Redenumiți <d>coloanele Var 1 în Specii și Freq în RelFreq

Q18) Adăugați variabile noi la <d> și numiți-le cumfreq, counts și cumcounts

Q19) Creați o variabilă de parametri <def_par> pentru a stoca variabilele parametrilor

Q20) Creați un barplot,<pc> , cu următoarele specificații:

Q21) Adăugați o linie de numărare cumulativă la graficul <pc> cu următoarele:

Q22)Plasați o casetă gri în jurul parcelei pareto.

Q23) Adăugați o axă laterală stângă cu următoarele specificații

Q24) Adăugați detaliile axei în partea dreaptă a cutiei cu specificațiile:

Plot pentru Q20-Q25

Scenariu final combinat

count(bio[1:676,], vars = specie)

temp3.SPECIESONLY <- subset (bio, select = C(species))

S-ar putea să vă placă și