Analiz de Date

ANALIZA
DE
DATE
PENTRU
AFACERI
CURS 1 – 6 OCTOMBRIE 2020

Aspecte administrative
– Curs: 2 h/săptămână (Andreea Ardelean)
E-mail: andreea.ardelean@faa.unibuc.ro
– Seminar: 2 h/săptămână (Magda Roşu)

E-mail: magdarosu@gmail.com
– Examen final: maxim 6 puncte
Test grilă
– Evaluare pe parcurs (curs și seminar): maxim 3 puncte (proiect/test)
– Un punct din oficiu

Materiale didactice:
– Cursurile/seminariile în format ppt și/sau word
– Coduri în R
– Seturi de date
– Bibliografie recomandată pe parcursul semestrului
Rolul analizei datelor în analiza
economică
Serii de date folosite
– Serii de timp – evoluția în timp a unui fenomen economic (frecvența: anuale,
semestriale, trimestriale, lunare, săptămânale zilnice)
– Exemplu: PIB-ul României în perioada 1990-2017
– Cross-sectional – valorile unei caracteristici la nivelul unei unități statistice
elementare
– Exemplu: indicele corupției în anul 2006 pentru 112 țări; numărul angajaților la nivelul
firmelor dintr-o anumită localitate, la finele anului 2006;
– Date panel – fiecare valoare este localizată prin doi indici: unul pentru precizarea
dimensiunii temporale, altul pentru identificarea unității statistice;
– Exemplu: avem 4 indicatori economici – PIB, populația, exportul net și datoria externă,
pentru țările UE, în perioada 2007-2017; setul de date se va prezenta în acest caz sub
forma unei matrice;
Metode de analiză folosite
– Pentru seriile de timp: modele specifice seriilor de timp (ex. proiecția trendului,
analiza de sezonalitate, modele autoregresive)
– Pentru datele cross - sectional: modelele de regresie
– Pentru datele panel: modele de tip analiză panel (modele cu efecte fixe, cu
efecte aleatorii, de tip “between” sau de tip “first difference”)
Analiza datelor constă în:
1. Identificarea unor trăsături caracteristice ale fenomenelor studiate
Alegerea unei teorii economice care va sta la baza studierii fenomenului analizat
2. Testarea unor ipoteze statistice
Analiza datelor/ construirea modelelor
3. Efectuarea de previziuni
Se folosesc modele econometrice estimate pentru anticiparea și eventual aplicarea
unor corecții evoluțiilor viitoare ale unui anumit fenomen
Exemplu: vom putea anticipa modificări ale nivelului consumului privat ca urmare a
modificării veniturilor disponibile.
Ce vom studia în continuare?
– Introducere în R - Studio
– R ca și calculator
– Citirea unui fișier
– Structura datelor utilizate și câteva operații simple
– Grafice, statistici descriptive și interpretarea lor
Descărcați R și R Studio
– Informații generale despre R:
– https://www.r-project.org
– Descărcați R:
– https://www.r-project.org
– Descărcați RStudio:
– https://www.rstudio.com/products/rstudio/download/
– Observație: pentru ca RStudio să funcționeze, aveți nevoie să aveți
descărcat în prealabil R
Cele 4 ferestre ale lui R Studio
– RStudio cuprinde o serie de instrumente care ajută la o operare mai ușoară în R
– Include: consola, un editor de coduri, instrumente pentru plotare și pachete pentru
funcții, la care se adaugă un manager de spațiu.
– Stânga sus: acolo scrieți codurile, pe care apoi le executați
– Stânga jos: acolo vor rula codurile și veți obține rezultatele operațiilor
– Dreapta sus: acela este spațiul de lucru, unde vor fi stocate toate informațiile despre
datele pe care le utilizați și despre ceea ce creați pe parcurs.
– Dreapta jos: acolo sunt stocate pachetele cu funcții, instrumentele de plotare,
informațiile care vă ajută să găsiți explicații/descrieri ale diferitelor funcții în R etc.
R ca și calculator
– R recunoaște și execută toate operațiile de bază
+, -, *, /, ^
– R recunoaște funcții predefinite
log(15), exp(4)
– R poate opera cu mai mult decât un singur număr: poate aduna vectori, poate
să-i scadă etc.
Exemplu
– Ce veți obține la rularea codului următor?
a <- c(12,45,18,1)
b<- c(2,4,67,15)
a+b
a*b
a/b
sum(a*b)
Citirea unui fișier în R
– Seturile de date (format csv și txt): fereastra din dreapta sus
– Import Dataset
– Codurile: fereasta din stânga sus
– Deschiderea unui fișier existent
– Crearea unui fișier nou
Exemplu
– Sursa datelor: World Bank, indicatori de dezvoltare economică
– Tipul de date: cross sectional, anul 2013
– Denumirea fișierului: WorldBank_development_indicators.csv
– Variabile:
– countrycode: codul țării
– countryname: numele țării
– gdp_per_capita: PIB pe cap de locuitor
– literacy_female: gradul de alfabetizare, femei
– literacy_male: gradul de alfabetizare, bărbați
– literacy_all: gradul de alfabetizare pe ansamblul populației
– infant_mortality: mortalitatea infantilă, procentul copiilor care mor înainte să atingă vârsta
de un an, din 1000 de copii născuți vii
Descrierea setului de date
– str(wb) oferă informații despre tipul de variabile, unde wb este denumirea
setului de date, așa cum a fost importat.
– Asigurați-vă întotdeauna ca setul de date are aceeași denumire cu aceea care
apare în cod și că ați selectat “Heading - yes” (dacă este cazul).
– summary(wb) oferă informații despre conținutul variabilelor
Structura setului de date
– str(wb)
– 'data.frame': 214 obs. of 7 variables:
– $ countrycode : chr "ABW" "ADO" "AFG" "AGO" ...
– $ countryname : chr "Aruba" "Andorra" "Afghanistan" "Angola" ...
– $ gdp_per_capita : num 19913 35628 415 2738 4091 ...
– $ literacy_female : num 96.7 NA 17.6 59.1 95.7 ...
– $ literacy_male : num 96.9 NA 45.4 82.5 98 ...
– $ literacy_all : num 96.8 NA 31.7 70.6 96.8 ...
– $ infant_mortality: num NA 2.2 70.2 101.6 13.3 ...
Semnificații
– Este un “data frame” cu 214 observații și 7 variabile
– Două dintre variabile sunt de tip chr, deci variabile categoriale
– Cinci dintre variabile sunt variabile numerice
– Există informații care nu sunt disponibile, înregistrate ca NA (not available)
– Simbolul $ indică faptul că urmează numele unei variabile
Sumarul setului de date
summary(wb)
– În cazul variabilelor cantitative:
– Oferă informații despre valorile minim, maxim, medie, mediană, prima și a treia
quartilă (procentilele 25 și 75)
– Indică numărul de observații care nu sunt disponibile
– În cazul variabilelor calitative:
– Oferă informații despre numărul de observații care apar în fiecare categorie.
Exemplu: GDP per capita
gdp_per_capita
– Min. : 155.2
– 1st Qu.: 1124.4
– Median : 4109.6
– Mean : 12967.2
– 3rd Qu.: 15122.3
– Max. :158802.5
– NA's :15
Cum știm cine corespunde
minimului și maximului?
– which.min(wb$gdp_per_capita)
– 14 # asta înseamnă că este țara care corespunde observației nr. 14
– Aflăm care este aceasta cu ajutorul comenzii
wb$countryname[14]
– Burundi # Deci, Burundi este țara cu cel mai mic GDP per capita în 2013
– which.max(wb$gdp_per_capita)
– 121 # asta înseamnă că este țara care corespunde observației nr. 121
– Aflăm care este aceasta cu ajutorul comenzii
wb$countryname[121]
– Monaco # Deci, Monaco este țara cu cel mai mare GDP per capita în 2013
Reprezentarea grafică
HISTOGRAMA
- echivalentul grafic al tabelului de frecvenţe absolute
- construită prin plasarea claselor pe axa orizontală şi a frecvenţelor pe axa verticală
hist(wb$gdp_per_capita, main = "PIB/cap locuitor pt
214 tari", xlab = "PIB", ylab = "Frecventa")
Reprezentare grafică
BOXPLOT
Un boxplot ajută la vizionarea repartizării datelor în funcție de cinci valori
caracteristice:
– partea de sus a cutiei este procentila 75, iar partea de jos a cutiei este procentila 25
– linia din interiorul cutiei este mediana (procentila 50)
– unele reprezentări pun în evidență minimul și maximul
boxplot(wb$gdp_per_capita)
Câteva investigații suplimentare
– Dorim să vedem câte țări au GDP per capita mai mare decât procentila 75 și
care sunt acelea.
– Definim un subset al setului inițial de date, pentru care GDP per capita este mai
mare decât valoarea corespunzătoare din summary(wb$gdp_per_capita)
– rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)

Similar
– Putem defini o submulțime a setului inițial, care să ne indice cele mai sărace țări
– poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)
– summary(rich_countries)
– summary(poor_countries)
– which.max(poor_countries$gdp_per_capita)
– poor_countries$countryname[36]
Observație
– Diferența dintre procentila 25 și procentila 75 nu este foarte mare; 50% dintre
țările analizate au GDP per capita cuprins în acest interval; îngust în raport cu
rangul mulțimii de date
– rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)
– poor_countries = subset(wb, wb$gdp_per_capita < 1124.4)
– procentila 75 - procentila 25 = 13997.9
– max - min = 158647.3
Observație
– Distribuția inegală a GDP - ului per capita în mulțimea de date analizată este
pusă în evidență în mai multe moduri:
– prin diferența dintre medie și mediană
– prin aplatizarea spre dreapta a histogramei
– prin forma boxplot-ului, “înghesuit” spre partea de jos graficului
– prin concentrarea a 50% dintre observații într-un interval foarte mic în raport cu
valorile extreme pe care le ia variabila analizată
Cum calculam abaterea standard?
– sd(wb$gdp_per_capita, na.rm=TRUE) SAU sd(rich_countries$gdp_per_capita)
Abaterea standard:
– reprezinta "distanta euclidiana" a valorilor fata de media aritmetica
– are aceeasi unitate de masura cu media aritmetica si cu valorile setului de date
– este o măsură a cât de mult sunt dispersate valorile față de medie
Cum raportăm statisticile descriptive
pentru date cross-sectional
Variabilă Minim Mediană Medie Maxim Abatere
standard
GDP per capita 155.2 4109.6 12967.2 158802.5 20760.62
Rata totală a alfabetismului
Rata alfabetismului la femei
Rata alfabetismului la
bărbați
Rata mortalității infantile
Va multumesc!

Analiz de Date

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiz de Date

Încărcat de

Drepturi de autor:

Formate disponibile

ANALIZA

CURS 1 – 6 OCTOMBRIE 2020

– Seminar: 2 h/săptămână (Magda Roşu)

– Evaluare pe parcurs (curs și seminar): maxim 3 puncte (proiect/test)

– Un punct din oficiu

– Pentru datele cross - sectional: modelele de regresie

– rich_countries = subset(wb, wb$gdp_per_capita > 15122.3)

– sd(wb$gdp_per_capita, na.rm=TRUE) SAU sd(rich_countries$gdp_per_capita)

S-ar putea să vă placă și