Sunteți pe pagina 1din 14

ACADEMIA DE STUDII ECONOMICE DIN BUCUREȘTI

FACULTATEA DE CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ

Big Data
Analytics
Ancuța-Roxana Vochescu
grupa 1086, Master IE, an I

București
2018
Cuprins

1. Introducere în Big Data .................................................................................. 1


2. Big Data Analytics .......................................................................................... 5
3. Arhitecturi, metode și instrumente ................................................................. 7
4. Concluzii ....................................................................................................... 11
5. Bibliografie ................................................................................................... 12

I
1. Introducere în Big Data

Francis Diebold a fost primul care a utilizat termenul de „Big Data” în anul 2003 pentru a
explica fenomenul de creștere a cantității de date [1]. Big data se referă la seturi mari de date care
nu au un singur format și care conțin date atât structurate cât și nestructurate. Ca exemplu, avem
cautarile pe internet, adresele electronice, documentele text, tranzacțiile comerciale, etc.
Conceptul Big Data se aplică pentru toate acele informații care nu pot fi procesate și analizate
utilizând procese sau instrumente tradiționale. Acesta nu se referă la o anumită cantitate specifică,
deși este des utilizat atunci când se vorbește în termeni de petabytes1 și exabytes2 de date.

Contribuția la acumularea masivă de date poate fi găsită în diverse industrii. Companiile


mențin cantități mari de date tranzacționate, reunind informații despre clienții, furnizorii,
operațiunile etc., la fel se întâmplă în sectorul public. În multe țări se administrează baze de date
uriașe. Ele conțin date privind recensământul populației, dosare medicale, taxe etc. Dacă la toate
acestea adăugăm tranzacții financiare efectuate online sau prin dispozitive mobile, analiza de rețele
sociale (pe Twitter sunt aproximativ 12 terabyte de tweets create zilnic și Facebook stochează în
jur de 100 de petabytes de fotografii și videoclipuri), locația geografică prin coordonatele GPS,
toate acele activități pe care le efectuăm de câteva ori pe zi cu smartphone-urile noastre, despre
care vorbim care sunt generate în jurul valorii de 2,5 nonillion3 de octeți zilnic în lume.

Dar nu numai ființele umane contribuie la această creștere enormă a cantității de informații.
Există, de asemenea, comunicarea numită mașină la mașină (M2M - machine-to-machine) a căror
valoare în crearea de cantități mari de date este foarte importantă. Senzori digitali instalați în
containere pentru a determina ruta generată în timpul livrării unui pachet și această informație este
trimisă companiilor de transport, senzori în contoare electrice pentru a determina consumul de
energie la intervale regulate, astfel încât aceste informații să fie trimise la companii din sectorul
energetic. Se estimează că există mai mult de 30 de milioane de senzori interconectați în diferite
sectoare cum ar fi industria auto, transport, servicii industriale, comerciale, etc. Acest număr este
așteptat să crească cu 30% anual.

1
Petabyte = 10^15 = 1,000,000,000,000,000
2
Exabyte = 10^18 = 1,000,000,000,000,000,000
3
1 nonillion = 10^30 = 1,000,000,000,000,000,000,000,000,000,000

1
Definiții pentru Big Data: Perspective

Big Data se numește orice set de date care, datorită caracteristicilor sale, depășește
capacitatea de procesare a sistemelor tradiționale de gestionare a datelor din cauza volumelor mari
care sunt generate la viteză mare, prin multiple canale și în diferite formate. „Big Data a explodat
în sectorul tehnologiei informației pentru că este cea mai bună soluție pentru a le colecta, a le stoca,
a le căuta, a le împărtăși, a le analiza, a le vizualiza, a le procesa și a le înțelege”.

Vor fi prezentate diferite definiții ale Big Data recunoscute de către producători pentru a
stabili puncte comune.

IDC4: „Big Data este o nouă generație de tehnologii și arhitecturi concepute pentru a
extrage valoarea economică a volumelor mari de date pentru a permite captarea, descoperirea
și/sau analiza de mare viteză. ”

Cloudera5: „În termeni generali, Big Data se referă la toate datele care din orice motiv (nu
numai volumul) nu pot fi gestionate de către sistemele lor tradiționale. Datele mari sunt un concept
relativ și sunt extrem de interpretabile. De exemplu, chiar dacă organizația dvs. nu acumulează
date pe o scară similară cu Facebook, sau chiar dacă colectați în principal doar un singur tip de
date, puteți oricum avea provocări cu date mari, precum și oportunități.”

Teradata6: „Dacă este făcută corect, este unirea dintre domeniului IT și domeniul
afacerilor care produce rezultate ce diferențiază puterea de înaintare și reducerea costurilor. Big
Data sunt mai puțin despre mărimea datelor și mai mult despre capacitatea gestiona o mulțime de
tipuri diferite de date și aplicarea tehnicilor de analiză puternică.”

IBM7: „În fiecare zi creăm 2.5 trilioane de octeți de date - atât de mult încât 90% din
datele din lumea de astăzi au fost create în ultimii doi ani. Aceste date provin din toate părțile:
senzori utilizați pentru a culege informații despre vreme, mesaje pe site-uri de social media,

4
IDC este o companie de cercetare, analiză și consiliere, specializată în tehnologia informației, telecomunicații și
tehnologie.
5
Cloudera este o companie de software cu sediul în America care oferă, pe baza software-ului Hadoop Apache,
suport și servicii de formare pentru clienții de afaceri.
6
Teradata este o companie americană specializată în instrumente de depozite de date și instrumente de analiză a
afacerii.
7
IBM este o corporație americană producătoare de tehnologie avansată.

2
fotografii și clipuri video digitale, înregistrări de tranzacții de cumpărare și GPS semnale de
telefon celular pentru a numi câteva. Aceste date sunt date mari.”

În lucrarea [1] și în cartea [2] se disting cinci caracteristici pentru Big Data: veridicitate
(se referă la cât de încredere și cât de relevante sunt datele), viteză (se referă la rapiditatea de
colectare sau generare a datelor), valoare (se leagă de utilitatea datelor), varietate (acoperă diferite
tipuri, conținuturi și formate de date), volum (se referă la cantități mari de date).

O altă perspectivă utilă este aceea de a caracteriza Big Data ca având un volum mare, o
viteză mare și o mare varietate - cei trei V [3]:

 Volum mare - cantitatea de date


 Viteza mare - rata la care sunt create datele
 Varietate mare - diferitele tipuri de date

Figura 1 Dimensiunile Big Data

În general, Big Data Analytics a fost aplicat în domenii precum luarea decizilor în afaceri,
analiza fluxurilor de date în timp real precum twits, Facebook, vânzări, etc., analiza volumelor
mari de date în investigarea piețelor comerciale, precum și în altele.

3
În continuare este prezentată analiza căutărilor termenului folosind Google Trends8 pentru
a susține interesul continuu al pieței pentru termenii Big Data și Analytics.

Figura 2 Analiza popularității termenilor cu Google Trends

Dacă analizăm comportamentul și căutările conceptelor cu Google Trends în România


găsim că termenul Big Data și termenul Analytics prezintă o cerștere în ultimii ani.

Cu utilizarea platformelor Big Data, în locul bazelor de date relaționale, este permis un
răspuns foarte rapid al datelor, însă răspunsul nu este imediat. [4] Scopul Big Data nu este de a
analiza date mici la o viteză mare, ci de a analiza cantități importante de date fără a fi nevoie de
un răspuns imediat, într-un timp mai scurt decât cel utilizat în baza de date relațională. Obținerea
răspunsurilor într-o perioadă minimă de timp se datorează datelor cu o valoare adăugată, cu
ajutorul cărora se poate obține o utilizare adecvată și de success în contextul în care au fost extrase.
Dacă această analiză se produce cu baze de date relaționale, prin luarea mai mult timp în procesare,
atunci rezultatul analizei își poate pierde valoarea.

8
Google Trends este un instrument al Google Labs care arată cei mai populari termeni căutați în trecutul apropiat

4
2. Big Data Analytics

Una dintre etapele inițiale ale oricărui cercetări analitice este introducerea unui studiu
pentru investigarea resurselor de date. Cu alte cuvinte, înainte de a începe generarea sau modelarea
cantitativă a oricărui raport, analistul trebuie să înțeleagă cât mai bine ce se află în fișierul de date.

Majoritatea datelor brute, în particular Big Data, nu oferă prea multă valoare dacă nu sunt
procesate. Dar aplicând instrumentele și tehnicile adecvate, putem extrage idei valoroase. De
aceea, independent de tipul de anliză Big Data folosit, primul pas este întotdeauna obținerea unei
cantități mari de informație. [5]

Analytics este procesul de rupere a problemei în părți mai simple și folosind inferențe
bazate pe date pentru a lua decizii. Analiza nu este un instrument sau o tehnologie, ci mai degrabă
o modalitate de gândire și acțiune.

Big Data Analytics este noul termen folosit pentru analiza date nestructurate și date mari,
cum ar fi terabytes sau chiar petabytes de date. Datele mari sunt orice set de date care nu pot fi
analizate cu instrumente convenționale. Big Data Analytics poate fi de trei tipuri: descriptivă,
predictivă și prescriptivă.

Figura 3 Big Data Analytics - Tipuri

Big Data Analytics descriptivă: este cel mai simplu tip de analiză, cel care permite ca datele
mari să fie condensate în date mai mici, cu informații mai ușor de gestionat. Cele mai multe date
brute nu sunt potrivite pentru "consumul" uman, dar informațiile derivate din acestea sunt. Prin

5
urmare, scopul analizei descriptive este de a rezuma ceea ce sa întâmplat. Și tocmai asta analizează
majoritatea companiilor.

Big Data Analytics predictivă: reprezintă următorul pas pentru a "reduce" datele. Utilizează
o mare varietate de statistici, modele, tehnici de extragere a datelor și tehnici de învățare a
mașinilor pentru a studia datele recente și istorice. În acest fel, analiștii fac predicții despre viitor.
Obiectivul acestui tip de analiză nu este însă acela de a arăta ce se va întâmpla în viitor. Acesta
este un lucru pe care analizele nu îl pot atinge. Dar poate prezenta un scenariu care ar putea apărea,
deoarece toate analizele predictive sunt probabiliste în natură. În cele mai multe cazuri reale din
companii, analiza predictivă este utilizată pentru a prezice date pe care companiile nu le au
bazându-se pe datele pe care le au.

Big Data Analytics prescriptivă: tehnologia sa depășește modelele descriptive și predictive,


recomandând unul sau mai multe itinerarii de acțiune și arătând posibilele consecințe ale fiecărei
decizii. Nu se prezice un viitor posibil, ci mai multe variante care depind de acțiuni și de luarea
deciziilor. Prin urmare, acest tip de analiză necesită un model predictiv cu două componente
suplimentare: date procesabile și un sistem de feedback care urmărește consecințele acțiunilor
sugerate. Un model prescriptiv este capabil să prezică consecințele bazate pe diferite opțiuni de
acțiune; dar poate recomanda și cea mai bună cale pentru orice consecință prestabilită.

Ciclul de viață al analizei are etape diferite și mulți oameni îl descriu în multe feluri, dar
ideea generală rămâne aceeași. Să luăm în considerare următoarele etape ale ciclului de viață ale
unui proiect Analytics:

1. Identificarea problemei
2. Formularea ipotezelor
3. Colectarea datelor
4. Explorarea datelor
5. Pregătirea/manipularea datelor
6. Planificarea modelului/Construirea
7. Validitatea modelului
8. Evaluarea/Monitorizarea rezultatelor

6
3. Arhitecturi, metode și instrumente

Cadrul conceptual pentru un mare proiect de analiză a datelor este similar cu cel al unui
proiect tradițional de business intelligence sau de analiză. Diferența cheie constă în modul în care
este executată procesarea. Într-un proiect obișnuit de analiză, analiza poate fi efectuată cu un
instrument de business intelligence instalat pe un sistem autonom, cum ar fi un desktop sau un
laptop. Deoarece Big Data reprezintă un volum mare prin definiție, procesarea este defalcată și
executată pe noduri multiple. În timp ce noțiunile de procesare distribuită nu sunt noi și au existat
de zeci de ani, utilizarea lor în analizarea seturilor de date foarte mari este relativ nouă, companiile
începând să acceseze depozitele de date pentru a obține o perspectivă să ia decizii în cunoștință de
cauză.

În plus, disponibilitatea platformelor open-source, cum ar fi Hadoop / MapReduce, în cloud


a încurajat aplicarea Big Data Analytics în diverse domenii.

În al treilea rând, în timp ce algoritmii și modelele sunt similare, interfețele utilizatorilor


sunt complet diferite în acest moment. Instrumentele clasice de analiză a afacerilor au devenit
foarte ușor de utilizat și transparente. Pe de altă parte, instrumentele de analiză a datelor sunt
extrem de complexe, folosesc programare intensivă și necesită o varietate de aptitudini.

O componentă primară este reprezentată de datele în sine. Datele pot fi din surse interne și
externe, adesea în mai multe formate, din mai multe locații. Toate aceste date trebuie colectate cu
scopul analizei lor. Datele sunt încă în stare brută și trebuie transformate. Aici sunt disponibile mai
multe opțiuni. O posibilitate este abordarea arhitecturală orientată spre servicii combinată cu
serviciile web (middleware). [4] Datele continuă să fie în aceeași stare, iar serviciile sunt utilizate
pentru a apela, a prelua și a procesa datele. Depozitarea datelor este o altă abordare în care toate
datele din diferitele surse sunt agregate și pregătite pentru procesare. Cu toate acestea, datele nu
sunt disponibile în timp real. Prin etapele extragerii, transformării și încărcării (ETL), datele din
diverse surse sunt curățate și pregătite.

7
Figura 4 Arhitectura Big Data Analytics, sursa [4]

În etapa următoare a cadrului conceptual, se iau mai multe decizii privind abordarea
introducerii datelor, designul distribuit, selecția instrumentului și modelele de analiză. [6] În cele
din urmă, în partea dreaptă din Figura 4 sunt afișate cele patru aplicații tipice ale analizelor de date
mari. Acestea includ interogări, rapoarte, procesare analitică online (OLAP) și extragere de date.
Vizualizarea este o temă importantă în cele patru aplicații. O mare varietate de tehnici și tehnologii
au fost dezvoltate și adaptate pentru a agrega, manipula, analiza și vizualiza date mari. Aceste
tehnici și tehnologii se bazează pe mai multe domenii, inclusiv statistici, informatică, matematică
aplicată și economie.

Platformă Descriere
Hadoop Manipulează volume mari de date și distribuie încărcarea datelor prelucrate în
clustere de servere. Se compune din două module: MapReduce și DFS
(manager de fișiere distribuit).
PIG Este un limbaj de nivel înalt pentru fluxul de date și paralelizează volume mari
de date. Realizează secvență de programe de tip Map-Reduce care pot fi
interpretate de Hadoop.

8
MAHOUT Este o bibliotecă scalabilă pentru realizarea minieritului de date și mașini de
învățare. Algoritmii sunt compatibili cu Apache Spark, H2O și Apache Flink.
Suportă multiplicări vectoriale mari, mediul său pentru experimente este
similar cu limbajul de programare R.
HBase Este un administrator de baze de date distribuite, cu gestionarea datelor
structurate pe scară largă, iar tabelele pot conține miliarde de rânduri și
milioane de coloane. Acesta conține un API ușor de folosit pentru partea de
client.
Spark Este un motor de management al datelor care utilizează Hadoop, are suport
pentru aplicații de învățare automată, procesarea și vizualizarea fluxului de
date. Este compatibil cu limbi precum Python și R. De asemenea, combină
SQL și analize complexe.
Cassandra Este un manager de baze de date pe scară largă pentru date cu misiune critică.
Permite scalabilitatea liniară și toleranța dovedită a erorilor. Replică în mai
multe centre de date.
Tabelul 1 Platforme pentru Big Data Analytics

Unele dintre beneficiile pe care Big Data Analytics le pot genera unei organizații
sunt:

 Îmbunătățirea capacității de achiziție și organizare a datelor.


 Îmbunătățirea capacității de analiză, descoperire, predicție și planificare.
 mai bună decizie, o reacție rapidă, o mai mare inovare și un avantaj competitiv.
 Obținerea unei imagini complete a clienților actuali și potențiali prin intermediul
 mai multe canale.
 Implementarea analizei predictive pentru a fi mai eficientă și mai proactivă
 Crearea de strategii de marketing personalizate folosind analize avansate.
 Reducerea latenței proceselor critice ale organizației pentru a lua în considerare în timp
real comportamentul variabilelor necesare pentru luarea decizilor.
 Înțelegerea datelor pentru a îmbunătăți luarea deciziilor.
 Viziune de 360 de grade
9
 Securitate, reducerea riscurilor și detectarea fraudelor
 Analiza datelor pentru îmbunătățirea rezultatelor afacerii
 Integrarea Big Data în depozitul de date pentru a crește eficiența

Unele dintre avantajele care pot fi obținute la utilizarea datelor mari (fără a se limita
la acestea) sunt:

Sector Avantaj
Divertisment Analiza rețelelor sociale
Identificarea tendințelor
Medicină și sănătate Analiza studiilor clinice
Prevenirea bolilor
Servicii publice Previzionarea consumului electric
Finainte Detectarea fraudei
Modele de comportament ale cardurilor de credit
Comerț Marketing
Programe de fidelizare a clienților
Ofertele personalizate
Guvern Securitate
Antitero
Telecomunicații Analiza CDRs
Rețele sociale și tranzacții
Tehnologie Dezvoltarea de noi produse
Tabelul 2 Avantajele Big Data în diferite sectoare

10
4. Concluzii

Tehnologia și informația sunt esențiale în funcționarea și îndeplinirea obiectivelor


strategice ale unei organizații. Este necesar să se implementeze tehnologii pentru a lua decizii în
timp real și care asigură calitatea informațiilor.

Informațiile vor fi forța cea mai vizibilă pentru utilizatorii finali. Analiza avansată a Big
Data va fi cheia pentru a permite transformarea modelelor de afaceri.

Big Data se referă la orice set de date care, datorită caracteristicilor, depășesc în mare
măsură capacitatea de procesare a sistemelor tradiționale de gestionare a datelor, având în vedere
volumele mari generate de viteză mare, prin mai multe canale și în diferite formate.

Analiza datelor poate dezvălui noi surse de venit, oferă idei noi în comportamentul
clienților și identifică tendințele pieței, ceea ce reprezintă o provocare pentru departamentele IT,
deoarece sunt necesare instrumente tehnologice pentru colectarea, stocarea, căutarea, partajarea,
analizarea, vizualizarea, procesarea și înțelegerea diferitelor tipuri de date, cu comportamente
nenormalizate .

Big Data Analytics transformă modul în care companiile utilizează tehnologii sofisticate
de informare pentru a obține o perspectivă din registrele de date pentru a lua decizii în cunoștință
de cauză. Această abordare bazată pe date este fără precedent. În viitor, vom vedea implementarea
rapidă, pe scară largă și utilizarea unor analize de date de mare anvergură în cadrul organizației și
al industriei. Pe măsură ce devin mai importante, problemele precum garantarea vieții private,
protejarea securității, stabilirea standardelor și a guvernării și îmbunătățirea continuă a
instrumentelor și tehnologiilor ar atrage atenția. Analizele și aplicațiile mari de date se află într-o
etapă în curs de dezvoltare, dar progresele rapide în platforme și instrumente pot accelera procesul
de maturare. Una dintre cele mai relevante tehnologii cu o mai mare proiecție în cadrul
ecosistemului Big Data este Hadoop.

11
5. Bibliografie

[1] A. ALEXANDRU și D. COARDOŞ, „Big Data – Concepte, arhitecturi şi tehnologii,” Revista Română de
Informatică şi Automatică, 2017.

[2] Y. L. Prasad, Big Data Analytics Made Easy, Notion Press, 2016.

[3] P. RUSSOM, „Big Data Analytics,” TDWI BEST PRACTICES REPORT , 2011.

[4] S. KUDYBA, Big Data, Mining, and Analytics, CRC Press, 2014.

[5] O'Reilly, Big data now, O'Reilly Media , 2012.

[6] G. V. REYES, E. B. THOMPSON, J. A. R. VANOYE și A. F. PENNA, „Modelos de tecnologías del Big Data
Analytics y su aplicación en salud,” Pistas Educativas, vol. 128, 2017.

[7] Z. SUN, L. L. SUN și K. STRANG, „Big Data Analytics Services for Enhancing Business Intelligence,”
Journal of Computer Information Systems (JCIS), pp. 162-169, 2018.

[8] H. J. WATSON, „Tutorial: Big Data Analytics: Concepts,Technologies, and Applications,”


Communications of the Associationfor Information Systems, p. Article 65, 2014.

[9] J. ZAKIR, T. SEYMOUR și K. BERG, „Big Data Analytics,” Issues in Information Systems, pp. 81-90,
2015.

12