Sunteți pe pagina 1din 3

Analiza performanțelor prelucrării datelor între pachetul data.

table și dplyr din R
Literature review

Odată cu dezvoltarea rapidă a tehnologiilor, cantitățile de date ce se acumulează tind


să crească constant. Conform lui Carl French (1996), procesarea datelor este colectarea și
manipularea elementelor de date pentru a produce informații semnificative, mai exact, conform
definirii date de  Bocij, Chaffey , Greasley și Hickie (2004), este procesul de convertire a datelor
în informații.
Primul  proces automatizat de prelucrare a datelor, conform lui Geoffrey D. Austrian
(1982), a fost făcut cu peste 129 de ani în urmă, când în 1890 Herman Hollerith a dezvoltat
un tabulator mecanic bazat pe cartele perforate pentru a sorta rapid milioane de înregistrări de
date. Acest sistem a ajutat mai apoi la realizarea primului recesământ al populației din Statele
Unite. De atunci, acest proces s-a dezvoltat constant odată cu apariția primului computer digital
în 1944, fiind invenția lui John Atanasoff, (aici lipsește ceva, un și poate) a creat o nevoie clară
de prelucrarea datelor. La Big Data Spain Conference 2018, Aljoscha Krettek spunea
că după dezvoltarea primelor sisteme de calcul, următorul pas în prelucrarea datelor a
fost apariția primelor limbaje de programare Fortran și C, însă erau folosite doar
de către inginerii software pentru a scrie programe destinate unor sarcini specifice de prelucrare a
datelor și care făcea imposibilă adoptarea lor de către alte categorii profesionale. Mai apoi,
au apărut primele sisteme de baze de date relaționale, care foloseau limbajul SQL și care a
schimbat (cine a / au schimbat – sistemele de bază sau limbajul sql?) total modul de prelucrare a
datelor, iar odată cu apariția termenului de Big Data, și-au făcut apariția („au fost dezvoltate”
sună mai bine, ca nu repeți apariția) noi limbaje și sisteme de prelucrare a datelor
în cantități foarte mari, precum: limbajul R, MapReduce, Hadoop. 
Limbajul R este un limbaj de programare și o aplicație software de prelucrare a datelor și
de grafică. Limbajul R este larg răspândit printre statisticieni și cei care lucrează cu cantități mari
de date pentru a prelucra datele. Conform lui Robert Gentleman (2008), R a fost creat de
Ross Ihaka și Robert Gentleman la Universitatea din Auckland și este în prezent dezvoltat de
R Developement Core Team. Numele de R a fost inspirat de inițialele prenumelor celor doi
creatori. Proiectul a început să fie dezvoltat din 1992, cu o versiune inițială lansată în 1995 și o
versiune beta stabilă în 2000. Hadley Wickham (2015) menționează că limbajul R oferă o largă
varietate de tehnici (aici cred că trebuie o virgulă dacă e enumerație, și nu determinant) statistice
și grafice, inclusiv modelarea liniară și neliniară, testele clasice statistice, analiza seriilor de timp,
clasificarea, clustering și altele. R este ușor extensibil prin intermediul funcțiilor și al extensiilor,
iar comunitatea R este de remarcat pentru contribuțiile sale active în termeni de pachete.
De asemenenea, Hadley Wickham (2015) mai notează că R este foarte extensibil prin folosirea
de pachete de către utilizator pentru funcții specifice sau domenii specifice de studiu.
Pachetele data.table și dplyr fac parte din cele peste 9 800 de pachete disponibile in R.
Data.table este descris de către Larry Pace (2014) ca fiind unul din cele mai populare pachete,
mai ales printre cei care prelucrează cantități mari de date. Acest pachet este și subiectul unor
conferințe anuale de prelucrare a datelor precum UseR!, EARL, R/Insurance, R/Finance.
Pachetul dplyr este unul din cele 8 din colecția de pachete numită tidyverse, care pun la
dispoziția utilizatorilor soluții de ... (de ce?)
Comparații amănunțite între cele doua pachete din R nu au fost realizate până la ora
actuală, singurele comparații realizate fiind pe site-urile de benchmarks, în care se compară
aceste două pachetele cu altele privind performanța ca durată în executarea unor prelucrări. Matt
Dowle (2018) a realizat o astfel de comparație între cele două pachete. În urma analizei datelor
colectate, a concluzionat că timpul de execuție a unor interogări în data.table este în general mai
mic decât în dplyr, iar diferența se mărește o dată ce cantitatea de date supusă prelucrării crește.
De asemenea, el mai remarcă faptul că timpul de execuție scade pentru pachetul dplyr odată cu
repetarea execuției aceleiași interogări, în timp ce pentru data.table durata execuției rămâne
aceeași. Acest lucru se datorează faptului că pachetul dplyr folosește o memorie temporară de
lucru, ceea ce nu este valabil și în cazul pachetului data.table.
O altă analiză succintă cu privire la cele două pachete a fost realizată și de către Marek
Rogal (2017), care a descoperit că în cazul anumitor tipuri de prelucrări, precum...

Bibliografie
Austrian, D. G. (1982). Herman Hollerith: Forgotten Giant of Information Processing. New
York, NY: Columbia University Press.

Bocij, P., Chaffey, D., Greasley, A., Hickie, S. (2006). Business Information Systems (3th ed.).
Harlow: Pearson Education Ltd.

Dowle, M. (2018, Decembre 15). Database-like ops benchmark, Retrieved from:


https://github.com/Rdatatable/data.table/wiki/Benchmarks-:-Grouping

French, C.S. (1996). Data Processing and Information Technology (10th ed.). London,
Continuum: Sage Publications Ltd.

Gentleman, R. (2008). R Programming for Bioinformatic. Seattle, WA: Taylor & Francis Group
LLC.

Pace, L. (2014). Recipes. A Problem-Solution Approach (p. 78). Netherlands: Apress Publisher.

Wickham, H. (2015). R Packeges (pp. 4-5). Sebastopol CA: O’Reilly Media Publisher.

S-ar putea să vă placă și