Sunteți pe pagina 1din 7

BIG DATA

&
ANALYTICS
DESCRIEREA CONCEPTELOR CHEIE.
A R H I T E C T U R Ă , P L AT F O R M E Ș I I N S T R U M E N T E
BIG DATA
Big Data se numește orice set de date care, datorită caracteristicilor sale,
depășește capacitatea de procesare a sistemelor tradiționale de
gestionare a datelor din cauza volumelor mari care sunt generate la
viteză mare, prin multiple canale și în diferite formate.

B I G D ATA - 5 C A R AC T E R I S T I C I CEI TREI „V”

º veridicitate: cât de încredere și cât de


relevante sunt datele
º viteză: rapiditatea de colectare/generare a
datelor
º valoare: utilitatea datelor
º varietate: acoperă diferite tipuri,
P. RUSSOM, „Big Data Analytics”, IBM - TDWI BEST PRACTICES REPORT ,
conținuturi și formate de date 2011.

º volum: cantități mari de date


BIG DATA ANALYTICS
Analytics
- procesul de rupere a problemei în părți mai simple pentru a lua decizii
- nu este un instrument sau o tehnologie, ci mai degrabă o modalitate de gândire și acțiune.

Big Data Analytics - analiza de date nestructurate și date mari, terabytes sau chiar petabytes de date.
- poate fi de trei tipuri: descriptivă, predictivă și prescriptivă
ARHITECTURĂ
METODE ȘI INSTRUMENTE
Platformă Descriere
Manipulează volume mari de date și distribuie încărcarea datelor prelucrate în clustere de servere. Se compune din
Hadoop două module: MapReduce și DFS
(manager de fișiere distribuit).
Este un limbaj de nivel înalt pentru fluxul de date și paralelizează volume mari de date. Realizează secvență de programe
PIG
de tip Map-Reduce care pot fi interpretate de Hadoop.

Este o bibliotecă scalabilă pentru realizarea minieritului de date și mașini de învățare. Algoritmii sunt compatibili cu
MAHOUT Apache Spark, H2O și Apache Flink. Suportă multiplicări vectoriale mari, mediul său pentru experimente este similar cu
limbajul de programare R.
Este un administrator de baze de date distribuite, cu gestionarea datelor structurate pe scară largă, iar tabelele pot
HBase conține miliarde de rânduri și milioane de coloane. Acesta conține un API ușor de folosit pentru partea de client.

Este un motor de management al datelor care utilizează Hadoop, are suport pentru aplicații de învățare automată,
Spark procesarea și vizualizarea fluxului de date. Este compatibil cu limbi precum Python și R. De asemenea, combină SQL și
analize complexe.
Este un manager de baze de date pe scară largă pentru date cu misiune critică. Permite scalabilitatea liniară și toleranța
Cassandra
dovedită a erorilor. Replică în mai multe centre de date.
BENEFICII PENTRU ORGANIZATII
Sector Avantaj
Analiza rețelelor sociale
Divertisment
Identificarea tendințelor
Analiza studiilor clinice
Medicină și sănătate
Prevenirea bolilor
Servicii publice Previzionarea consumului electric
Detectarea fraudei
Finainte
Modele de comportament ale cardurilor de credit
Marketing
Comerț Programe de fidelizare a clienților
Ofertele personalizate
Securitate
Guvern
Antitero
Analiza CDRs
Telecomunicații
Rețele sociale și tranzacții
Tehnologie Dezvoltarea de noi produse
Q&A
MULȚUMESC!