Sunteți pe pagina 1din 14

ACADEMIA DE STUDII ECONOMICE DIN BUCURETI

FACULTATEA DE CIBERNETIC, STATISTIC I INFORMATIC ECONOMIC

Big Data
Analytics
Ancua-Roxana Vochescu
grupa 1086, Master IE, an I

Bucureti
2018
Cuprins

1. Introducere n Big Data .................................................................................. 1


2. Big Data Analytics .......................................................................................... 5
3. Arhitecturi, metode i instrumente ................................................................. 7
4. Concluzii ....................................................................................................... 11
5. Bibliografie ................................................................................................... 12

I
1. Introducere n Big Data

Francis Diebold a fost primul care a utilizat termenul de Big Data n anul 2003 pentru a
explica fenomenul de cretere a cantitii de date [1]. Big data se refer la seturi mari de date care
nu au un singur format i care conin date att structurate ct i nestructurate. Ca exemplu, avem
cautarile pe internet, adresele electronice, documentele text, tranzaciile comerciale, etc.
Conceptul Big Data se aplic pentru toate acele informaii care nu pot fi procesate i analizate
utiliznd procese sau instrumente tradiionale. Acesta nu se refer la o anumit cantitate specific,
dei este des utilizat atunci cnd se vorbete n termeni de petabytes1 i exabytes2 de date.

Contribuia la acumularea masiv de date poate fi gsit n diverse industrii. Companiile


menin cantiti mari de date tranzacionate, reunind informaii despre clienii, furnizorii,
operaiunile etc., la fel se ntmpl n sectorul public. n multe ri se administreaz baze de date
uriae. Ele conin date privind recensmntul populaiei, dosare medicale, taxe etc. Dac la toate
acestea adugm tranzacii financiare efectuate online sau prin dispozitive mobile, analiza de reele
sociale (pe Twitter sunt aproximativ 12 terabyte de tweets create zilnic i Facebook stocheaz n
jur de 100 de petabytes de fotografii i videoclipuri), locaia geografic prin coordonatele GPS,
toate acele activiti pe care le efectum de cteva ori pe zi cu smartphone-urile noastre, despre
care vorbim care sunt generate n jurul valorii de 2,5 nonillion3 de octei zilnic n lume.

Dar nu numai fiinele umane contribuie la aceast cretere enorm a cantitii de informaii.
Exist, de asemenea, comunicarea numit main la main (M2M - machine-to-machine) a cror
valoare n crearea de cantiti mari de date este foarte important. Senzori digitali instalai n
containere pentru a determina ruta generat n timpul livrrii unui pachet i aceast informaie este
trimis companiilor de transport, senzori n contoare electrice pentru a determina consumul de
energie la intervale regulate, astfel nct aceste informaii s fie trimise la companii din sectorul
energetic. Se estimeaz c exist mai mult de 30 de milioane de senzori interconectai n diferite
sectoare cum ar fi industria auto, transport, servicii industriale, comerciale, etc. Acest numr este
ateptat s creasc cu 30% anual.

1
Petabyte = 10^15 = 1,000,000,000,000,000
2
Exabyte = 10^18 = 1,000,000,000,000,000,000
3
1 nonillion = 10^30 = 1,000,000,000,000,000,000,000,000,000,000

1
Definiii pentru Big Data: Perspective

Big Data se numete orice set de date care, datorit caracteristicilor sale, depete
capacitatea de procesare a sistemelor tradiionale de gestionare a datelor din cauza volumelor mari
care sunt generate la vitez mare, prin multiple canale i n diferite formate. Big Data a explodat
n sectorul tehnologiei informaiei pentru c este cea mai bun soluie pentru a le colecta, a le stoca,
a le cuta, a le mprti, a le analiza, a le vizualiza, a le procesa i a le nelege.

Vor fi prezentate diferite definiii ale Big Data recunoscute de ctre productori pentru a
stabili puncte comune.

IDC4: Big Data este o nou generaie de tehnologii i arhitecturi concepute pentru a
extrage valoarea economic a volumelor mari de date pentru a permite captarea, descoperirea
i/sau analiza de mare vitez.

Cloudera5: n termeni generali, Big Data se refer la toate datele care din orice motiv (nu
numai volumul) nu pot fi gestionate de ctre sistemele lor tradiionale. Datele mari sunt un concept
relativ i sunt extrem de interpretabile. De exemplu, chiar dac organizaia dvs. nu acumuleaz
date pe o scar similar cu Facebook, sau chiar dac colectai n principal doar un singur tip de
date, putei oricum avea provocri cu date mari, precum i oportuniti.

Teradata6: Dac este fcut corect, este unirea dintre domeniului IT i domeniul
afacerilor care produce rezultate ce difereniaz puterea de naintare i reducerea costurilor. Big
Data sunt mai puin despre mrimea datelor i mai mult despre capacitatea gestiona o mulime de
tipuri diferite de date i aplicarea tehnicilor de analiz puternic.

IBM7: n fiecare zi crem 2.5 trilioane de octei de date - att de mult nct 90% din
datele din lumea de astzi au fost create n ultimii doi ani. Aceste date provin din toate prile:
senzori utilizai pentru a culege informaii despre vreme, mesaje pe site-uri de social media,

4
IDC este o companie de cercetare, analiz i consiliere, specializat n tehnologia informaiei, telecomunicaii i
tehnologie.
5
Cloudera este o companie de software cu sediul n America care ofer, pe baza software-ului Hadoop Apache,
suport i servicii de formare pentru clienii de afaceri.
6
Teradata este o companie american specializat n instrumente de depozite de date i instrumente de analiz a
afacerii.
7
IBM este o corporaie american productoare de tehnologie avansat.

2
fotografii i clipuri video digitale, nregistrri de tranzacii de cumprare i GPS semnale de
telefon celular pentru a numi cteva. Aceste date sunt date mari.

n lucrarea [1] i n cartea [2] se disting cinci caracteristici pentru Big Data: veridicitate
(se refer la ct de ncredere i ct de relevante sunt datele), vitez (se refer la rapiditatea de
colectare sau generare a datelor), valoare (se leag de utilitatea datelor), varietate (acoper diferite
tipuri, coninuturi i formate de date), volum (se refer la cantiti mari de date).

O alt perspectiv util este aceea de a caracteriza Big Data ca avnd un volum mare, o
vitez mare i o mare varietate - cei trei V [3]:

Volum mare - cantitatea de date


Viteza mare - rata la care sunt create datele
Varietate mare - diferitele tipuri de date

Figura 1 Dimensiunile Big Data

n general, Big Data Analytics a fost aplicat n domenii precum luarea decizilor n afaceri,
analiza fluxurilor de date n timp real precum twits, Facebook, vnzri, etc., analiza volumelor
mari de date n investigarea pieelor comerciale, precum i n altele.

3
n continuare este prezentat analiza cutrilor termenului folosind Google Trends8 pentru
a susine interesul continuu al pieei pentru termenii Big Data i Analytics.

Figura 2 Analiza popularitii termenilor cu Google Trends

Dac analizm comportamentul i cutrile conceptelor cu Google Trends n Romnia


gsim c termenul Big Data i termenul Analytics prezint o certere n ultimii ani.

Cu utilizarea platformelor Big Data, n locul bazelor de date relaionale, este permis un
rspuns foarte rapid al datelor, ns rspunsul nu este imediat. [4] Scopul Big Data nu este de a
analiza date mici la o vitez mare, ci de a analiza cantiti importante de date fr a fi nevoie de
un rspuns imediat, ntr-un timp mai scurt dect cel utilizat n baza de date relaional. Obinerea
rspunsurilor ntr-o perioad minim de timp se datoreaz datelor cu o valoare adugat, cu
ajutorul crora se poate obine o utilizare adecvat i de success n contextul n care au fost extrase.
Dac aceast analiz se produce cu baze de date relaionale, prin luarea mai mult timp n procesare,
atunci rezultatul analizei i poate pierde valoarea.

8
Google Trends este un instrument al Google Labs care arat cei mai populari termeni cutai n trecutul apropiat

4
2. Big Data Analytics

Una dintre etapele iniiale ale oricrui cercetri analitice este introducerea unui studiu
pentru investigarea resurselor de date. Cu alte cuvinte, nainte de a ncepe generarea sau modelarea
cantitativ a oricrui raport, analistul trebuie s neleag ct mai bine ce se afl n fiierul de date.

Majoritatea datelor brute, n particular Big Data, nu ofer prea mult valoare dac nu sunt
procesate. Dar aplicnd instrumentele i tehnicile adecvate, putem extrage idei valoroase. De
aceea, independent de tipul de anliz Big Data folosit, primul pas este ntotdeauna obinerea unei
cantiti mari de informaie. [5]

Analytics este procesul de rupere a problemei n pri mai simple i folosind inferene
bazate pe date pentru a lua decizii. Analiza nu este un instrument sau o tehnologie, ci mai degrab
o modalitate de gndire i aciune.

Big Data Analytics este noul termen folosit pentru analiza date nestructurate i date mari,
cum ar fi terabytes sau chiar petabytes de date. Datele mari sunt orice set de date care nu pot fi
analizate cu instrumente convenionale. Big Data Analytics poate fi de trei tipuri: descriptiv,
predictiv i prescriptiv.

Figura 3 Big Data Analytics - Tipuri

Big Data Analytics descriptiv: este cel mai simplu tip de analiz, cel care permite ca datele
mari s fie condensate n date mai mici, cu informaii mai uor de gestionat. Cele mai multe date
brute nu sunt potrivite pentru "consumul" uman, dar informaiile derivate din acestea sunt. Prin

5
urmare, scopul analizei descriptive este de a rezuma ceea ce sa ntmplat. i tocmai asta analizeaz
majoritatea companiilor.

Big Data Analytics predictiv: reprezint urmtorul pas pentru a "reduce" datele. Utilizeaz
o mare varietate de statistici, modele, tehnici de extragere a datelor i tehnici de nvare a
mainilor pentru a studia datele recente i istorice. n acest fel, analitii fac predicii despre viitor.
Obiectivul acestui tip de analiz nu este ns acela de a arta ce se va ntmpla n viitor. Acesta
este un lucru pe care analizele nu l pot atinge. Dar poate prezenta un scenariu care ar putea aprea,
deoarece toate analizele predictive sunt probabiliste n natur. n cele mai multe cazuri reale din
companii, analiza predictiv este utilizat pentru a prezice date pe care companiile nu le au
bazndu-se pe datele pe care le au.

Big Data Analytics prescriptiv: tehnologia sa depete modelele descriptive i predictive,


recomandnd unul sau mai multe itinerarii de aciune i artnd posibilele consecine ale fiecrei
decizii. Nu se prezice un viitor posibil, ci mai multe variante care depind de aciuni i de luarea
deciziilor. Prin urmare, acest tip de analiz necesit un model predictiv cu dou componente
suplimentare: date procesabile i un sistem de feedback care urmrete consecinele aciunilor
sugerate. Un model prescriptiv este capabil s prezic consecinele bazate pe diferite opiuni de
aciune; dar poate recomanda i cea mai bun cale pentru orice consecin prestabilit.

Ciclul de via al analizei are etape diferite i muli oameni l descriu n multe feluri, dar
ideea general rmne aceeai. S lum n considerare urmtoarele etape ale ciclului de via ale
unui proiect Analytics:

1. Identificarea problemei
2. Formularea ipotezelor
3. Colectarea datelor
4. Explorarea datelor
5. Pregtirea/manipularea datelor
6. Planificarea modelului/Construirea
7. Validitatea modelului
8. Evaluarea/Monitorizarea rezultatelor

6
3. Arhitecturi, metode i instrumente

Cadrul conceptual pentru un mare proiect de analiz a datelor este similar cu cel al unui
proiect tradiional de business intelligence sau de analiz. Diferena cheie const n modul n care
este executat procesarea. ntr-un proiect obinuit de analiz, analiza poate fi efectuat cu un
instrument de business intelligence instalat pe un sistem autonom, cum ar fi un desktop sau un
laptop. Deoarece Big Data reprezint un volum mare prin definiie, procesarea este defalcat i
executat pe noduri multiple. n timp ce noiunile de procesare distribuit nu sunt noi i au existat
de zeci de ani, utilizarea lor n analizarea seturilor de date foarte mari este relativ nou, companiile
ncepnd s acceseze depozitele de date pentru a obine o perspectiv s ia decizii n cunotin de
cauz.

n plus, disponibilitatea platformelor open-source, cum ar fi Hadoop / MapReduce, n cloud


a ncurajat aplicarea Big Data Analytics n diverse domenii.

n al treilea rnd, n timp ce algoritmii i modelele sunt similare, interfeele utilizatorilor


sunt complet diferite n acest moment. Instrumentele clasice de analiz a afacerilor au devenit
foarte uor de utilizat i transparente. Pe de alt parte, instrumentele de analiz a datelor sunt
extrem de complexe, folosesc programare intensiv i necesit o varietate de aptitudini.

O component primar este reprezentat de datele n sine. Datele pot fi din surse interne i
externe, adesea n mai multe formate, din mai multe locaii. Toate aceste date trebuie colectate cu
scopul analizei lor. Datele sunt nc n stare brut i trebuie transformate. Aici sunt disponibile mai
multe opiuni. O posibilitate este abordarea arhitectural orientat spre servicii combinat cu
serviciile web (middleware). [4] Datele continu s fie n aceeai stare, iar serviciile sunt utilizate
pentru a apela, a prelua i a procesa datele. Depozitarea datelor este o alt abordare n care toate
datele din diferitele surse sunt agregate i pregtite pentru procesare. Cu toate acestea, datele nu
sunt disponibile n timp real. Prin etapele extragerii, transformrii i ncrcrii (ETL), datele din
diverse surse sunt curate i pregtite.

7
Figura 4 Arhitectura Big Data Analytics, sursa [4]

n etapa urmtoare a cadrului conceptual, se iau mai multe decizii privind abordarea
introducerii datelor, designul distribuit, selecia instrumentului i modelele de analiz. [6] n cele
din urm, n partea dreapt din Figura 4 sunt afiate cele patru aplicaii tipice ale analizelor de date
mari. Acestea includ interogri, rapoarte, procesare analitic online (OLAP) i extragere de date.
Vizualizarea este o tem important n cele patru aplicaii. O mare varietate de tehnici i tehnologii
au fost dezvoltate i adaptate pentru a agrega, manipula, analiza i vizualiza date mari. Aceste
tehnici i tehnologii se bazeaz pe mai multe domenii, inclusiv statistici, informatic, matematic
aplicat i economie.

Platform Descriere
Hadoop Manipuleaz volume mari de date i distribuie ncrcarea datelor prelucrate n
clustere de servere. Se compune din dou module: MapReduce i DFS
(manager de fiiere distribuit).
PIG Este un limbaj de nivel nalt pentru fluxul de date i paralelizeaz volume mari
de date. Realizeaz secven de programe de tip Map-Reduce care pot fi
interpretate de Hadoop.

8
MAHOUT Este o bibliotec scalabil pentru realizarea minieritului de date i maini de
nvare. Algoritmii sunt compatibili cu Apache Spark, H2O i Apache Flink.
Suport multiplicri vectoriale mari, mediul su pentru experimente este
similar cu limbajul de programare R.
HBase Este un administrator de baze de date distribuite, cu gestionarea datelor
structurate pe scar larg, iar tabelele pot conine miliarde de rnduri i
milioane de coloane. Acesta conine un API uor de folosit pentru partea de
client.
Spark Este un motor de management al datelor care utilizeaz Hadoop, are suport
pentru aplicaii de nvare automat, procesarea i vizualizarea fluxului de
date. Este compatibil cu limbi precum Python i R. De asemenea, combin
SQL i analize complexe.
Cassandra Este un manager de baze de date pe scar larg pentru date cu misiune critic.
Permite scalabilitatea liniar i tolerana dovedit a erorilor. Replic n mai
multe centre de date.
Tabelul 1 Platforme pentru Big Data Analytics

Unele dintre beneficiile pe care Big Data Analytics le pot genera unei organizaii
sunt:

mbuntirea capacitii de achiziie i organizare a datelor.


mbuntirea capacitii de analiz, descoperire, predicie i planificare.
mai bun decizie, o reacie rapid, o mai mare inovare i un avantaj competitiv.
Obinerea unei imagini complete a clienilor actuali i poteniali prin intermediul
mai multe canale.
Implementarea analizei predictive pentru a fi mai eficient i mai proactiv
Crearea de strategii de marketing personalizate folosind analize avansate.
Reducerea latenei proceselor critice ale organizaiei pentru a lua n considerare n timp
real comportamentul variabilelor necesare pentru luarea decizilor.
nelegerea datelor pentru a mbunti luarea deciziilor.
Viziune de 360 de grade
9
Securitate, reducerea riscurilor i detectarea fraudelor
Analiza datelor pentru mbuntirea rezultatelor afacerii
Integrarea Big Data n depozitul de date pentru a crete eficiena

Unele dintre avantajele care pot fi obinute la utilizarea datelor mari (fr a se limita
la acestea) sunt:

Sector Avantaj
Divertisment Analiza reelelor sociale
Identificarea tendinelor
Medicin i sntate Analiza studiilor clinice
Prevenirea bolilor
Servicii publice Previzionarea consumului electric
Finainte Detectarea fraudei
Modele de comportament ale cardurilor de credit
Comer Marketing
Programe de fidelizare a clienilor
Ofertele personalizate
Guvern Securitate
Antitero
Telecomunicaii Analiza CDRs
Reele sociale i tranzacii
Tehnologie Dezvoltarea de noi produse
Tabelul 2 Avantajele Big Data n diferite sectoare

10
4. Concluzii

Tehnologia i informaia sunt eseniale n funcionarea i ndeplinirea obiectivelor


strategice ale unei organizaii. Este necesar s se implementeze tehnologii pentru a lua decizii n
timp real i care asigur calitatea informaiilor.

Informaiile vor fi fora cea mai vizibil pentru utilizatorii finali. Analiza avansat a Big
Data va fi cheia pentru a permite transformarea modelelor de afaceri.

Big Data se refer la orice set de date care, datorit caracteristicilor, depesc n mare
msur capacitatea de procesare a sistemelor tradiionale de gestionare a datelor, avnd n vedere
volumele mari generate de vitez mare, prin mai multe canale i n diferite formate.

Analiza datelor poate dezvlui noi surse de venit, ofer idei noi n comportamentul
clienilor i identific tendinele pieei, ceea ce reprezint o provocare pentru departamentele IT,
deoarece sunt necesare instrumente tehnologice pentru colectarea, stocarea, cutarea, partajarea,
analizarea, vizualizarea, procesarea i nelegerea diferitelor tipuri de date, cu comportamente
nenormalizate .

Big Data Analytics transform modul n care companiile utilizeaz tehnologii sofisticate
de informare pentru a obine o perspectiv din registrele de date pentru a lua decizii n cunotin
de cauz. Aceast abordare bazat pe date este fr precedent. n viitor, vom vedea implementarea
rapid, pe scar larg i utilizarea unor analize de date de mare anvergur n cadrul organizaiei i
al industriei. Pe msur ce devin mai importante, problemele precum garantarea vieii private,
protejarea securitii, stabilirea standardelor i a guvernrii i mbuntirea continu a
instrumentelor i tehnologiilor ar atrage atenia. Analizele i aplicaiile mari de date se afl ntr-o
etap n curs de dezvoltare, dar progresele rapide n platforme i instrumente pot accelera procesul
de maturare. Una dintre cele mai relevante tehnologii cu o mai mare proiecie n cadrul
ecosistemului Big Data este Hadoop.

11
5. Bibliografie

[1] A. ALEXANDRU i D. COARDO, Big Data Concepte, arhitecturi i tehnologii, Revista Romn de
Informatic i Automatic, 2017.

[2] Y. L. Prasad, Big Data Analytics Made Easy, Notion Press, 2016.

[3] P. RUSSOM, Big Data Analytics, TDWI BEST PRACTICES REPORT , 2011.

[4] S. KUDYBA, Big Data, Mining, and Analytics, CRC Press, 2014.

[5] O'Reilly, Big data now, O'Reilly Media , 2012.

[6] G. V. REYES, E. B. THOMPSON, J. A. R. VANOYE i A. F. PENNA, Modelos de tecnologas del Big Data
Analytics y su aplicacin en salud, Pistas Educativas, vol. 128, 2017.

[7] Z. SUN, L. L. SUN i K. STRANG, Big Data Analytics Services for Enhancing Business Intelligence,
Journal of Computer Information Systems (JCIS), pp. 162-169, 2018.

[8] H. J. WATSON, Tutorial: Big Data Analytics: Concepts,Technologies, and Applications,


Communications of the Associationfor Information Systems, p. Article 65, 2014.

[9] J. ZAKIR, T. SEYMOUR i K. BERG, Big Data Analytics, Issues in Information Systems, pp. 81-90,
2015.

12