Sunteți pe pagina 1din 24

ANALIZ DE DATE PENTRU AFACERI

CURS 2 16.10.2017
Structura cursului
Introducere n R - Studio
R ca i calculator
Citirea unui fiier
Structura datelor utilizate i cteva operaii simple
Grafice, statistici descriptive i interpretarea lor
Descrcai R i R Studio
Informaii generale despre R:
https://www.r-project.org
Descrcai R:
https://www.r-project.org
Descrcai RStudio:
https://www.rstudio.com/products/rstudio/download/
Observaie: pentru ca RStudio s funcioneze, avei nevoie s avei descrcat n
prealabil R
Cele 4 ferestre ale lui R Studio
RStudio cuprinde o serie de instrumente care ajut la o operare mai uoar n R
Include: consola, un editor de coduri, instrumente pentru plotare i pachete pentru funcii, la
care se adaug un manager de spaiu.
Stnga sus: acolo scriei codurile, pe care apoi le executai
Stnga jos: acolo vor rula codurile i vei obine rezultatele operaiilor
Dreapta sus: acela este spaiul de lucru, unde vor fi stocate toate informaiile despre datele pe
care le utilizai i despre ceea ce creai pe parcurs.
Dreapta jos: acolo sunt stocate pachetele cu funcii, instrumentele de plotare, informaiile care
v ajut s gsii explicaii/descrieri ale diferitelor funcii n R etc.
R ca i calculator
R recunoate i execut toate operaiile de baz
+, -, *, /, ^
R recunoate funcii predefinite
log(15), exp(4)
R poate opera cu mai mult dect un singur numr: poate aduna vectori, poate s-i scad etc.
Exemplu
Ce vei obine la rularea codului urmtor?
a <- c(12,45,18,1)
b<- c(2,4,67,15)
a+b
a*b
a/b

a <- c(12,45,18,1)
b<- c(2,4,67,15)
sum(a*b)
Citirea unui fiier n R
Seturile de date (format csv i txt): fereastra din dreapta sus
Import Dataset
Codurile: fereasta din stnga sus
Deschiderea unui fiier existent
Crearea unui fiier nou
Exemplu
Sursa datelor: World Bank, indicatori de dezvoltare economic
Date preluate din prima sptmn a cursului Foundations of Development Policy, www.edx.org
Tipul de date: cross sectional, anul 2013
Denumirea fiierului: WorldBank_development_indicators.csv
Variabile:
countrycode: codul rii
countryname: numele rii
gdp_per_capita: PIB pe cap de locuitor
literacy_female: gradul de alfabetizare, femei
literacy_male: gradul de alfabetizare, brbai
literacy_all: gradul de alfabetizare pe ansamblul populaiei
infant_mortality: mortalitatea infantil, procentul copiilor care mor nainte s ating vrsta de un an, din 1000
de copii nscui vii
Descrierea setului de date
str(wb) ofer informaii despre tipul de variabile, unde wb este denumirea setului de date, aa
cum a fost importat.
Asigurai-v ntotdeauna ca setul de date are aceeai denumire cu aceea care apare n cod i c
ai selectat Heading - yes (dac este cazul).
summary(wb) ofer informaii despre coninutul variabilelor
Structura setului de date
str(wb)
'data.frame': 214 obs. of 7 variables:
$ countrycode : Factor w/ 214 levels "ABW","ADO","AFG",..: 1 2 3 4 5 6 7 8 9 10 ...
$ countryname : Factor w/ 214 levels "Afghanistan",..: 10 5 1 6 2 202 8 9 4 7 ...
$ gdp_per_capita : num 19913 35628 415 2738 4091 ...
$ literacy_female : num 96.7 NA 17.6 59.1 95.7 ...
$ literacy_male : num 96.9 NA 45.4 82.5 98 ...
$ literacy_all : num 96.8 NA 31.7 70.6 96.8 ...
$ infant_mortality: num NA 2.2 70.2 101.6 13.3 ...
Semnificaie
Este un data frame cu 214 observaii i 7 variabile
Dou dintre variabile sunt de tip factor, deci variabile categoriale
Cinci dintre variabile sunt variabile numerice
Exist informaii care nu sunt disponibile, nregistrate ca NA (not available)
Simbolul $ indic faptul c urmeaz numele unei variabile
Sumarul setului de date
summary(wb)
n cazul variabilelor numerice:
Ofer informaii despre valorile minim, maxim, medie, median, prima i a treia quartil (procentilele 25
i 75)
Indic numrul de observaii care nu sunt disponibile

n cazul variabilelor de tip factor:


Ofer informaii despre numrul de observaii care apar n fiecare categorie.
Exemplu: GDP per capita
gdp_per_capita
Min. : 155.2
1st Qu.: 1124.4
Median : 4109.6
Mean : 12967.2
3rd Qu.: 15122.3
Max. :158802.5
NA's :15
Cum tim cine corespunde minimului i
maximului?
which.min(wb$gdp_per_capita)
14 # asta nseamn c este ara care corespunde observaiei nr. 14
Aflm care este aceasta cu ajutorul comenzii
wb$countryname[14]
Burundi # Deci, Burundi este ara cu cel mai mic GDP per capita n 2013
which.max(wb$gdp_per_capita)
121 # asta nseamn c este ara care corespunde observaiei nr. 121
Aflm care este aceasta cu ajutorul comenzii
wb$countryname[121]
Monaco # Deci, Monaco este ara cu cel mai mare GDP per capita n 2013
Cum raportm rezultatul?
Valorile variabilei GPD per capita sunt cuprinse ntre o valoare minim de 155.2 USD pe cap de
locuitor, n cazul Burundi i o valoare maxim de 158802.5 USD pe cap de locuitor, n cazul
Principatelor Monaco.
Se observ c 25% din rile analizate au un GDP per capita de cel mult 1124.4 USD, pe cnd cel
mult 25% dintre acestea depesc ca valoare 15122.3 USD.
Din faptul c exist o diferen semnificativ ntre medie i median n cazul acestei variabile,
deducem c distribuia GDP - ului per capita n cazul rilor analizate nu este una normal, iar
din valoarea foarte mare a mediei n raport cu mediana deducem c exist un grup mic de ri cu
un GDP per capita foarte mare n raport cu celelalte.
Reprezentarea histogramei
Histograma (varianta elegant)
Reprezentare boxplot
Un boxplot ajut la vizionarea repartizrii datelor n funcie de cinci valori caracteristice:
partea de sus a cutiei este procentila 75
partea de jos a cutiei este procentila 25
linia din interiorul cutiei este mediana, sau procentila 50
unele reprezentri pun n eviden minimul i maximul
Boxplotul pentru GDP per capita
Cteva investigaii suplimentare
Vrem s vedem cte ri au GDP per capita mai mare dect procentila 75 i care sunt acelea.
Definim un subset al setului iniial de date, pentru care GDP per capita este mai mare dect
valoarea corespunztoare din summary(wb$gdp_per_capita)
rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)
Similar
Putem defini o submulime a setului iniial, care s ne indice cele mai srace ri
poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)
Observaie
Diferena dintre procentila 25 i procentila 75 nu este foarte mare 50% dintr rile analizate au
GDP per capita cuprins n acest interval, ngust n raport cu rangul mulimii de date
rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)
poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)
procentila 75 - procentila 25 = 13997.9
max - min = 158647.3
Observaie
Distribuia inegal a GDP - ului per capita n mulimea de date analizat este pus n eviden n
mai multe moduri:
prin diferena dintre medie i median
prin aplatizarea spre dreapta a histogramei
prin forma boxplot-ului, nghesuit spre partea de jos graficului
prin concentrarea a 50% dintre observaii ntr-un interval foarte mic n raport cu valorile
extreme pe care le ia variabila analizat
Cum raportm statisticile descriptive
pentru date cross-sectional
Variabil Minim Median Medie Maxim Abatere
standard

GDP per capita

Rata total a alfabetismului

Rata alfabetismului la femei

Rata alfabetismului la brbai

Rata mortalitii infantile

S-ar putea să vă placă și