Documente Academic
Documente Profesional
Documente Cultură
Analiză de Date Pentru Afaceri - Curs 2
Analiză de Date Pentru Afaceri - Curs 2
CURS 2 16.10.2017
Structura cursului
Introducere n R - Studio
R ca i calculator
Citirea unui fiier
Structura datelor utilizate i cteva operaii simple
Grafice, statistici descriptive i interpretarea lor
Descrcai R i R Studio
Informaii generale despre R:
https://www.r-project.org
Descrcai R:
https://www.r-project.org
Descrcai RStudio:
https://www.rstudio.com/products/rstudio/download/
Observaie: pentru ca RStudio s funcioneze, avei nevoie s avei descrcat n
prealabil R
Cele 4 ferestre ale lui R Studio
RStudio cuprinde o serie de instrumente care ajut la o operare mai uoar n R
Include: consola, un editor de coduri, instrumente pentru plotare i pachete pentru funcii, la
care se adaug un manager de spaiu.
Stnga sus: acolo scriei codurile, pe care apoi le executai
Stnga jos: acolo vor rula codurile i vei obine rezultatele operaiilor
Dreapta sus: acela este spaiul de lucru, unde vor fi stocate toate informaiile despre datele pe
care le utilizai i despre ceea ce creai pe parcurs.
Dreapta jos: acolo sunt stocate pachetele cu funcii, instrumentele de plotare, informaiile care
v ajut s gsii explicaii/descrieri ale diferitelor funcii n R etc.
R ca i calculator
R recunoate i execut toate operaiile de baz
+, -, *, /, ^
R recunoate funcii predefinite
log(15), exp(4)
R poate opera cu mai mult dect un singur numr: poate aduna vectori, poate s-i scad etc.
Exemplu
Ce vei obine la rularea codului urmtor?
a <- c(12,45,18,1)
b<- c(2,4,67,15)
a+b
a*b
a/b
a <- c(12,45,18,1)
b<- c(2,4,67,15)
sum(a*b)
Citirea unui fiier n R
Seturile de date (format csv i txt): fereastra din dreapta sus
Import Dataset
Codurile: fereasta din stnga sus
Deschiderea unui fiier existent
Crearea unui fiier nou
Exemplu
Sursa datelor: World Bank, indicatori de dezvoltare economic
Date preluate din prima sptmn a cursului Foundations of Development Policy, www.edx.org
Tipul de date: cross sectional, anul 2013
Denumirea fiierului: WorldBank_development_indicators.csv
Variabile:
countrycode: codul rii
countryname: numele rii
gdp_per_capita: PIB pe cap de locuitor
literacy_female: gradul de alfabetizare, femei
literacy_male: gradul de alfabetizare, brbai
literacy_all: gradul de alfabetizare pe ansamblul populaiei
infant_mortality: mortalitatea infantil, procentul copiilor care mor nainte s ating vrsta de un an, din 1000
de copii nscui vii
Descrierea setului de date
str(wb) ofer informaii despre tipul de variabile, unde wb este denumirea setului de date, aa
cum a fost importat.
Asigurai-v ntotdeauna ca setul de date are aceeai denumire cu aceea care apare n cod i c
ai selectat Heading - yes (dac este cazul).
summary(wb) ofer informaii despre coninutul variabilelor
Structura setului de date
str(wb)
'data.frame': 214 obs. of 7 variables:
$ countrycode : Factor w/ 214 levels "ABW","ADO","AFG",..: 1 2 3 4 5 6 7 8 9 10 ...
$ countryname : Factor w/ 214 levels "Afghanistan",..: 10 5 1 6 2 202 8 9 4 7 ...
$ gdp_per_capita : num 19913 35628 415 2738 4091 ...
$ literacy_female : num 96.7 NA 17.6 59.1 95.7 ...
$ literacy_male : num 96.9 NA 45.4 82.5 98 ...
$ literacy_all : num 96.8 NA 31.7 70.6 96.8 ...
$ infant_mortality: num NA 2.2 70.2 101.6 13.3 ...
Semnificaie
Este un data frame cu 214 observaii i 7 variabile
Dou dintre variabile sunt de tip factor, deci variabile categoriale
Cinci dintre variabile sunt variabile numerice
Exist informaii care nu sunt disponibile, nregistrate ca NA (not available)
Simbolul $ indic faptul c urmeaz numele unei variabile
Sumarul setului de date
summary(wb)
n cazul variabilelor numerice:
Ofer informaii despre valorile minim, maxim, medie, median, prima i a treia quartil (procentilele 25
i 75)
Indic numrul de observaii care nu sunt disponibile