Sunteți pe pagina 1din 36

ANALIZ DE DATE PENTRU AFACERI

Administrarea Afacerilor, anul III


Curs 2 din 12 octombrie 2015

UB - FAA, Prof. Univ. Dr. Elena Druic, email: elena.druica@faa.unibuc.ro


1
STRUCTURA CURSULUI 2

Introducere n R - Studio

R ca i calculator

Citirea unui fiier

Structura datelor utilizate i cteva operaii simple

Grafice, statistici descriptive i interpretarea lor


2
DESCRCAI R I R STUDIO
Informaii generale despre R:

https://www.r-project.org

Descrcai R:

https://www.r-project.org

Descrcai RStudio:

https://www.rstudio.com/products/rstudio/download/

Observaie: pentru ca RStudio s funcioneze, avei nevoie s avei descrcat n


prealabil R
3
CELE 4 FERESTRE ALE R STUDIO

RStudio cuprinde o serie de instrumente care ajut la o operare mai uoar n R

Include: consola, un editor de coduri, instrumente pentru plotare i pachete pentru


funcii, la care se adaug un manager de spaiu.

Stnga sus: acolo scriei codurile, pe care apoi le executai

Stnga jos: acolo vor rula codurile i vei obine rezultatele operaiilor

Dreapta sus: acela este spaiul de lucru, unde vor fi stocate toate informaiile despre
datele pe care le utilizai i despre ceea ce creai pe parcurs.

Dreapta jos: acolo sunt stocate pachetele cu funcii, instrumentele de plotare,


informaiile care v ajut s gsii explicaii/descrieri ale diferitelor funcii n R etc.
4
R CA I CALCULATOR

R recunoate i execut toate operaiile de baz

+, -, *, /, ^

R recunoate funcii predefinite

log(15), exp(4)

R poate opera cu mai mult dect un singur numr: poate


aduna vectori, poate s-i scad etc.
5
EXEMPLU

Ce vei obine la rularea codului urmtor?

a <- c(12,45,18,1)

b<- c(2,4,67,15)

a+b

a*b

a/b
6
UN ALT EXEMPLU

a <- c(12,45,18,1)

b<- c(2,4,67,15)

x <- vector()

for (i in 1:4) {

x[i] = a[i]+b[i]

sum(x)
7
MULT MAI SIMPLU :-)

a <- c(12,45,18,1)

b<- c(2,4,67,15)

sum(a*b)

8
CITIREA UNUI FIIER N R

Seturile de date (format csv i txt): fereastra din dreapta


sus

Import Dataset

Codurile: fereasta din stnga sus

Deschiderea unui fiier existent

Crearea unui fiier nou


9
EXEMPLU
Sursa datelor: World Bank, indicatori de dezvoltare economic

Date preluate din prima sptmn a cursului Foundations of Development Policy, www.edx.org

Tipul de date: cross sectional, anul 2013

Denumirea fiierului: WorldBank_development_indicators.csv

Variabile:

countrycode: codul rii

countryname: numele rii

gdp_per_capita: PIB pe cap de locuitor

literacy_female: gradul de alfabetizare, femei

literacy_male: gradul de alfabetizare, brbai

literacy_all: gradul de alfabetizare pe ansamblul populaiei

infant_mortality: mortalitatea infantil, procentul copiilor care mor nainte s ating vrsta de un an, din 1000 de copii nscui vii

10
DESCRIEREA SETULUI DE DATE

str(wb) ofer informaii despre tipul de variabile,

unde wb este denumirea setului de date, aa cum a fost


importat.

Asigurai-v ntotdeauna ca setul de date are aceeai


denumire cu aceea care apare n cod i c ai selectat
Heading - yes.

summary(wb) ofer informaii despre coninutul variabilelor


11
STRUCTURA SETULUI DE DATE
str(wb)

'data.frame': 214 obs. of 7 variables:

$ countrycode : Factor w/ 214 levels "ABW","ADO","AFG",..: 1 2 3 4 5 6 7 8 9 10 ...

$ countryname : Factor w/ 214 levels "Afghanistan",..: 10 5 1 6 2 202 8 9 4 7 ...

$ gdp_per_capita : num 19913 35628 415 2738 4091 ...

$ literacy_female : num 96.7 NA 17.6 59.1 95.7 ...

$ literacy_male : num 96.9 NA 45.4 82.5 98 ...

$ literacy_all : num 96.8 NA 31.7 70.6 96.8 ...

$ infant_mortality: num NA 2.2 70.2 101.6 13.3 ...


12
SEMNIFICAIE

Este un data frame cu 214 observaii i 7 variabile

Dou dintre variabile sunt de tip factor, deci variabile categoriale

Cinci dintre variabile sunt variabile numerice

Exist informaii care nu sunt disponibile, nregistrate ca NA (not


available)

Simbolul $ indic faptul c urmeaz numele unei variabile

13
SUMARUL SETULUI DE DATE
summary(wb)

n cazul variabilelor numerice:

Ofer informaii despre valorile minim, maxim, medie, median, prima


i a treia quartil (procentilele 25 i 75)

Indic numrul de observaii care nu sunt disponibile

n cazul variabilelor de tip factor:

Ofer informaii despre numrul de observaii care apar n fiecare


categorie.
14
EXEMPLU: GDP PER CAPITA
gdp_per_capita

Min. : 155.2

1st Qu.: 1124.4

Median : 4109.6

Mean : 12967.2

3rd Qu.: 15122.3

Max. :158802.5

NA's :15

15
CUM TIM CINE CORESPUNDE
MINIMULUI I MAXIMULUI?
which.min(wb$gdp_per_capita)

14 # asta nseamn c este ara care corespunde observaiei nr. 14

Aflm care este aceasta cu ajutorul comenzii


wb$countryname[14]

Burundi # Deci, Burundi este ara cu cel mai mic GDP per capita n 2013

which.max(wb$gdp_per_capita)

121 # asta nseamn c este ara care corespunde observaiei nr. 121

Aflm care este aceasta cu ajutorul comenzii


wb$countryname[121]

Monaco # Deci, Monaco este ara cu cel mai mare GDP per capita n 2013
16
CUM RAPORTM REZULTATUL?

Valorile variabilei GPD per capita sunt cuprinse ntre o valoare minim de
155.2 USD pe cap de locuitor, n cazul Burundi i o valoare maxim de
158802.5 USD pe cap de locuitor, n cazul Principatelor Monaco.

Se observ c 25% din rile analizate au un GDP per capita de cel mult 1124.4
USD, pe cnd cel mult 25% dintre acestea depesc ca valoare 15122.3 USD.

Din faptul c exist o diferen semnificativ ntre medie i median n cazul


acestei variabile, deducem c distribuia GDP - ului per capita n cazul rilor
analizate nu este una normal, iar din valoarea foarte mare a mediei n raport
cu mediana deducem c exist un grup mic de ri cu un GDP per capita foarte
mare n raport cu celelalte.

17
REPREZENTAREA HISTOGRAMEI

hist(wb$gdp_per_capita)

18
REPREZENTAREA HISTOGRAMEI - VARIANTA ELEGANT

hist(wb$gdp_per_capita, main = GDP per capita pentru 214 tari, xlab = GDP per
capita, ylab = Frecvena)

19
REPREZENTARE BOXPLOT

Un boxplot ajut la vizionarea repartizrii datelor n funcie


de cinci valori caracteristice

partea de sus a cutiei este procentila 75

partea de jos a cutiei este procentila 25

linia din interiorul cutiei este mediana, sau procentila 50

unele reprezentri pun n eviden minimul i maximul


20
Boxplot pentru GDP pr capita

21
CTEVA INVESTIGAII SUPLIMENTARE

Vrem s vedem cte ri au GDP per capita mai mare dect


procentila 75 i care sunt acelea.

Definim un subset al setului iniial de date, pentru care


GDP per capita este mai mare dect valoarea
corespunztoare din summary(wb$gdp_per_capita)

rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)

22
SIMILAR

Putem defini o submulime a setului iniial, care s ne


indice cele mai srace ri

poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)

23
OBSERVAIE

Diferena dintre procentila 25 i procentila 75 nu este foarte mare

50% dintr rile analizate au GDP per capita cuprins n acest interval,
ngust n raport cu randul mulimii de date

rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)

poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)

procentila 75 - procentila 25 = 13997.9

max - min = 158647.3


24
OBSERVAIE

Distribuia inegal a GDP - ului per capita n mulimea de date


analizat este pus n eviden n mai multe moduri:

prin diferena dintre medie i median

prin aplatizarea spre dreapta a histogramei

prin forma boxplot-ului, nghesuit spre partea de jos graficului

prin concentrarea a 50% dintre observaii ntr-un interval foarte


mic n raport cu valorile extreme pe care le ia variabila analizat
25
TEM PENTRU SEMINAR:

Efectuai o analiz similar i comentai rezultatele pentru


celelalte variabile numerice din setul de date.

Folosii ca baz de lucru codul pentru sptmna 2,


postat pe platforma resurselor educaionale la seciunea
Analiz de date pentru Afaceri AAIII

Realizai o analiz similar pentru setul de date pe care l-


ai construit pentru lucrarea voastr de licen.
26
CUM RAPORTM STATISTICI DESCRITPIVE
PENTRU DATE CROSS-SECTIONAL

Variabil Minim Median Medie Maxim Abatere standard


GDP per capita 155.2 4109.6 12967.2 158802.5 20760.62
rata total a
analfabetismului
rata analfabetismului
femei
rata analfabetismului
- brbai
rata mortalitii
infantile

Tem de seminar: completai restul tabelului. Comentai i interpretai valorile obinute.


27
STATISTICI DESCRIPTIVE PENTRU
ALTE TIPURI DE DATE

28
SERII DE TIMP

Datele: GDP i Households Final Consumption


Expenditures pentru Romnia, 2000 - 2009 (a se vedea
codul pentru cursul 1)

Sursa: World Bank

Tipul de date: serie de timp

29
VALOAREA STATISTICILOR DESCRIPTIVE

n cazul seriilor de timp, nu au sens statistici descriptive ca


medie, abatere standard etc.

Se pot analiza valorile minime i maxime

Se pot face reprezentri grafice

30
Dei summary() conduce la acelai output ca n cazul oricrei mulimi de date
numerice, interpretarea nu mai este aceeai.

31
DATE PANEL

Statisticile descriptive pentru datele de tip panel sunt mai


complexe

Se poate aplica funcia summary() mulimii de date:


rezultatele se interpreteaz la fel ca n cazul datelor de tip
cross - sectional i se raporteaz ca statistici descriptive
overall

Se raporteaz statistici between i within, al cror calcul


este ilustrat n codul pentru sptmna 2
32
DATELE UTILIZATE

Date: Cheltuielile pentru haine n 23 de ri, pentru o perioad de 6 ani


(2008 - 2013)

Sursa: Eurostat

Tipul de date: date panel

Accesibilitate: datele extrase de pe Eurostat se pot descarca din


acelai perimetru al resurselor educaionale, www.teoriadeciziei.ro ,
cursul de Analiz de date pentru Afaceri

Denumirea fiierului: Exp_Data_Eurostat.csv


33
CUM RAPORTM STATISTICI
DESCRIPTIVE PENTRU DATE PANEL

VARIABILA Nr. Observaii Minim Median Medie Maxim Abatere standard

CLOTHING

OVERALL N = 138 18920 554100 1450000 7124000 1948286

BETWEEN n = 23 20240 - - 6378000 1978551

WITHIN T=6 1382000 - - 1506000 48680.47

FOOTWEAR

OVERALL

BETWEEN

WITHIN

34
TEM PENTRU SEMINAR

Mulimea de date Exp_Data_Eurostat include variabila


Footwear - reprezentnd cheltuielile cu nclmintea n
rile analizate.

Adaptai codul din sptmna 2, postat ca resurs


educaional, pentru aceast variabil

Completai spaiile corespunztoare statisticilor descriptive


de pe slide-ul precedent, corespunztoare acestei variabile
35
S (NE) ANALIZM SNTOI!
36