Sunteți pe pagina 1din 32

ANALIZA

DE
DATE
PENTRU
AFACERI

CURS 1 – 6 OCTOMBRIE 2020


Aspecte administrative
– Curs: 2 h/săptămână (Andreea Ardelean)
E-mail: andreea.ardelean@faa.unibuc.ro

– Seminar: 2 h/săptămână (Magda Roşu)


E-mail: magdarosu@gmail.com
Aspecte administrative
– Examen final: maxim 6 puncte
Test grilă

– Evaluare pe parcurs (curs și seminar): maxim 3 puncte (proiect/test)

– Un punct din oficiu


Aspecte administrative
Materiale didactice:
– Cursurile/seminariile în format ppt și/sau word
– Coduri în R
– Seturi de date
– Bibliografie recomandată pe parcursul semestrului
Rolul analizei datelor în analiza
economică
Serii de date folosite
– Serii de timp – evoluția în timp a unui fenomen economic (frecvența: anuale,
semestriale, trimestriale, lunare, săptămânale zilnice)
– Exemplu: PIB-ul României în perioada 1990-2017
– Cross-sectional – valorile unei caracteristici la nivelul unei unități statistice
elementare
– Exemplu: indicele corupției în anul 2006 pentru 112 țări; numărul angajaților la nivelul
firmelor dintr-o anumită localitate, la finele anului 2006;
– Date panel – fiecare valoare este localizată prin doi indici: unul pentru precizarea
dimensiunii temporale, altul pentru identificarea unității statistice;
– Exemplu: avem 4 indicatori economici – PIB, populația, exportul net și datoria externă,
pentru țările UE, în perioada 2007-2017; setul de date se va prezenta în acest caz sub
forma unei matrice;
Metode de analiză folosite
– Pentru seriile de timp: modele specifice seriilor de timp (ex. proiecția trendului,
analiza de sezonalitate, modele autoregresive)

– Pentru datele cross - sectional: modelele de regresie

– Pentru datele panel: modele de tip analiză panel (modele cu efecte fixe, cu
efecte aleatorii, de tip “between” sau de tip “first difference”)
Analiza datelor constă în:
1. Identificarea unor trăsături caracteristice ale fenomenelor studiate
Alegerea unei teorii economice care va sta la baza studierii fenomenului analizat
2. Testarea unor ipoteze statistice
Analiza datelor/ construirea modelelor
3. Efectuarea de previziuni
Se folosesc modele econometrice estimate pentru anticiparea și eventual aplicarea
unor corecții evoluțiilor viitoare ale unui anumit fenomen
Exemplu: vom putea anticipa modificări ale nivelului consumului privat ca urmare a
modificării veniturilor disponibile.
Ce vom studia în continuare?
– Introducere în R - Studio
– R ca și calculator
– Citirea unui fișier
– Structura datelor utilizate și câteva operații simple
– Grafice, statistici descriptive și interpretarea lor
Descărcați R și R Studio
– Informații generale despre R:
– https://www.r-project.org
– Descărcați R:
– https://www.r-project.org
– Descărcați RStudio:
– https://www.rstudio.com/products/rstudio/download/
– Observație: pentru ca RStudio să funcționeze, aveți nevoie să aveți
descărcat în prealabil R
Cele 4 ferestre ale lui R Studio
– RStudio cuprinde o serie de instrumente care ajută la o operare mai ușoară în R
– Include: consola, un editor de coduri, instrumente pentru plotare și pachete pentru
funcții, la care se adaugă un manager de spațiu.
– Stânga sus: acolo scrieți codurile, pe care apoi le executați
– Stânga jos: acolo vor rula codurile și veți obține rezultatele operațiilor
– Dreapta sus: acela este spațiul de lucru, unde vor fi stocate toate informațiile despre
datele pe care le utilizați și despre ceea ce creați pe parcurs.
– Dreapta jos: acolo sunt stocate pachetele cu funcții, instrumentele de plotare,
informațiile care vă ajută să găsiți explicații/descrieri ale diferitelor funcții în R etc.
R ca și calculator
– R recunoaște și execută toate operațiile de bază
+, -, *, /, ^
– R recunoaște funcții predefinite
log(15), exp(4)
– R poate opera cu mai mult decât un singur număr: poate aduna vectori, poate
să-i scadă etc.
Exemplu
– Ce veți obține la rularea codului următor?

a <- c(12,45,18,1)
b<- c(2,4,67,15)
a+b
a*b
a/b
sum(a*b)
Citirea unui fișier în R
– Seturile de date (format csv și txt): fereastra din dreapta sus
– Import Dataset
– Codurile: fereasta din stânga sus
– Deschiderea unui fișier existent
– Crearea unui fișier nou
Exemplu
– Sursa datelor: World Bank, indicatori de dezvoltare economică
– Tipul de date: cross sectional, anul 2013
– Denumirea fișierului: WorldBank_development_indicators.csv
– Variabile:
– countrycode: codul țării
– countryname: numele țării
– gdp_per_capita: PIB pe cap de locuitor
– literacy_female: gradul de alfabetizare, femei
– literacy_male: gradul de alfabetizare, bărbați
– literacy_all: gradul de alfabetizare pe ansamblul populației
– infant_mortality: mortalitatea infantilă, procentul copiilor care mor înainte să atingă vârsta
de un an, din 1000 de copii născuți vii
Descrierea setului de date
– str(wb) oferă informații despre tipul de variabile, unde wb este denumirea
setului de date, așa cum a fost importat.
– Asigurați-vă întotdeauna ca setul de date are aceeași denumire cu aceea care
apare în cod și că ați selectat “Heading - yes” (dacă este cazul).
– summary(wb) oferă informații despre conținutul variabilelor
Structura setului de date
– str(wb)
– 'data.frame': 214 obs. of 7 variables:
– $ countrycode : chr "ABW" "ADO" "AFG" "AGO" ...
– $ countryname : chr "Aruba" "Andorra" "Afghanistan" "Angola" ...
– $ gdp_per_capita : num 19913 35628 415 2738 4091 ...
– $ literacy_female : num 96.7 NA 17.6 59.1 95.7 ...
– $ literacy_male : num 96.9 NA 45.4 82.5 98 ...
– $ literacy_all : num 96.8 NA 31.7 70.6 96.8 ...
– $ infant_mortality: num NA 2.2 70.2 101.6 13.3 ...
Semnificații
– Este un “data frame” cu 214 observații și 7 variabile
– Două dintre variabile sunt de tip chr, deci variabile categoriale
– Cinci dintre variabile sunt variabile numerice
– Există informații care nu sunt disponibile, înregistrate ca NA (not available)
– Simbolul $ indică faptul că urmează numele unei variabile
Sumarul setului de date
summary(wb)
– În cazul variabilelor cantitative:
– Oferă informații despre valorile minim, maxim, medie, mediană, prima și a treia
quartilă (procentilele 25 și 75)
– Indică numărul de observații care nu sunt disponibile
– În cazul variabilelor calitative:
– Oferă informații despre numărul de observații care apar în fiecare categorie.
Exemplu: GDP per capita
gdp_per_capita
– Min. : 155.2
– 1st Qu.: 1124.4
– Median : 4109.6
– Mean : 12967.2
– 3rd Qu.: 15122.3
– Max. :158802.5
– NA's :15
Cum știm cine corespunde
minimului și maximului?
– which.min(wb$gdp_per_capita)
– 14 # asta înseamnă că este țara care corespunde observației nr. 14
– Aflăm care este aceasta cu ajutorul comenzii
wb$countryname[14]
– Burundi # Deci, Burundi este țara cu cel mai mic GDP per capita în 2013
– which.max(wb$gdp_per_capita)
– 121 # asta înseamnă că este țara care corespunde observației nr. 121
– Aflăm care este aceasta cu ajutorul comenzii
wb$countryname[121]
– Monaco # Deci, Monaco este țara cu cel mai mare GDP per capita în 2013
Reprezentarea grafică
HISTOGRAMA
- echivalentul grafic al tabelului de frecvenţe absolute
- construită prin plasarea claselor pe axa orizontală şi a frecvenţelor pe axa verticală
hist(wb$gdp_per_capita, main = "PIB/cap locuitor pt
214 tari", xlab = "PIB", ylab = "Frecventa")
Reprezentare grafică
BOXPLOT
Un boxplot ajută la vizionarea repartizării datelor în funcție de cinci valori
caracteristice:
– partea de sus a cutiei este procentila 75, iar partea de jos a cutiei este procentila 25
– linia din interiorul cutiei este mediana (procentila 50)
– unele reprezentări pun în evidență minimul și maximul
boxplot(wb$gdp_per_capita)
Câteva investigații suplimentare
– Dorim să vedem câte țări au GDP per capita mai mare decât procentila 75 și
care sunt acelea.
– Definim un subset al setului inițial de date, pentru care GDP per capita este mai
mare decât valoarea corespunzătoare din summary(wb$gdp_per_capita)

– rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)


Similar
– Putem defini o submulțime a setului inițial, care să ne indice cele mai sărace țări
– poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)

– summary(rich_countries)
– summary(poor_countries)

– which.max(poor_countries$gdp_per_capita)
– poor_countries$countryname[36]
Observație
– Diferența dintre procentila 25 și procentila 75 nu este foarte mare; 50% dintre
țările analizate au GDP per capita cuprins în acest interval; îngust în raport cu
rangul mulțimii de date
– rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)
– poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)
– procentila 75 - procentila 25 = 13997.9
– max - min = 158647.3
Observație
– Distribuția inegală a GDP - ului per capita în mulțimea de date analizată este
pusă în evidență în mai multe moduri:
– prin diferența dintre medie și mediană
– prin aplatizarea spre dreapta a histogramei
– prin forma boxplot-ului, “înghesuit” spre partea de jos graficului
– prin concentrarea a 50% dintre observații într-un interval foarte mic în raport cu
valorile extreme pe care le ia variabila analizată
Cum calculam abaterea standard?

– sd(wb$gdp_per_capita, na.rm=TRUE) SAU sd(rich_countries$gdp_per_capita)

Abaterea standard:
– reprezinta "distanta euclidiana" a valorilor fata de media aritmetica
– are aceeasi unitate de masura cu media aritmetica si cu valorile setului de date
– este o măsură a cât de mult sunt dispersate valorile față de medie
Cum raportăm statisticile descriptive
pentru date cross-sectional
Variabilă Minim Mediană Medie Maxim Abatere
standard
GDP per capita 155.2 4109.6 12967.2 158802.5 20760.62
Rata totală a alfabetismului
Rata alfabetismului la femei
Rata alfabetismului la
bărbați
Rata mortalității infantile
Va multumesc!

S-ar putea să vă placă și