Sunteți pe pagina 1din 36

PRELUCRAREA 

VOLUMELOR MARI DE 
DATE
CURS 1:
BIG DATA ȘI ANALIZA BIG 
DATA 

Conf. Univ. Dr. Habil. Marc FRÎNCU
marc.frincu@e­uvt.ro 
STRUCTURA CURSULUI
 1 oră de curs + 2 ore laborator per săptămână (Bioinformatică)
 2 ore curs + 1 oră laborator per săptămână (IACD, IASTE)
 Cursul este comun între cele 3
 La IACD și IASTE la fiecare două săptămâni (când Bioinformatica nu are curs) 
discutăm o serie de lucrări științifice

 Ce vom învăța la curs?
 Importanța analizei Big Data
 Impactul Big Data în științe (ex. bioinformatică)
 Arhitecturi paralele și distribuite
 Paralelizarea algoritmilor de calcul
 Importanța arhitecturii hardware și a structurii datelor în design­ul 
algoritmilor pentru procesare Big Data
 Analiza datelor independente, dependente și a fluxurilor de date omogene și 
eterogene
 Practic (laborator)
 Folosirea Google Cloud pentru a analiza date în bioinformatică
 Paralelizarea unor algoritmi secvențiali elementari în bioinformatică
 Design, testare, evaluare
CERINȚE MINIMALE
 Nota 5
 1 algoritm paralel implementat (într­un singur 
limbaj/tehnologie) și evaluat
 O prezentare (10 min prezentare + 2 întrebări) despre o 
lucrare științifică (publicată sau raport tehnic) cu tematică 
Big Data, bioinformatică, calcul pe cloud sau paralel
 Nota 10
 Toți algoritmii de la laborator implementați și evaluați, 
raportul final fiind prezentat sub forma unui raport tehnic
 O prezentare (10 min prezentare + 2 întrebări) despre o 
lucrare științifică din reviste/conferințe de top (IPDPS, 
Supercomputing, Europar, CCGrid, ICDCS, IEEE Trans. PDC, 
IEEE Trans. Computing, FGCS, TPDS) cu tematică Big Data, 
bioinformatică, calcul pe cloud sau paralel
O LUME TOT MAI 
INTERCONECTATĂ ȘI COMPLEXĂ
Je Suis Charlie: 6500 retweet­uri per minut
O LUME TOT MAI 
INTERCONECTATĂ ȘI COMPLEXĂ
Sisteme ciberfizice: IT + comunicare + inteligență
CUNOAȘTERE = PUTERE = DATE
Date: decizie  control  autonomie  inteligență 
CE ESTE BIG DATA?
 Oxford English Dictionary (OED)
 data of a very large size, typically to the extent that its manipulation and management present 
significant logistical challenges
 Wikipedia
 an all­encompassing term for any collection of data sets so large  and complex that it becomes difficult 
to process using on­hand data management tools or traditional data processing applications
 datasets whose size is beyond the ability of typical database software tools to capture, 
store, manage, and analyze
 The ability of society to harness information in novel ways to produce useful insights or 
goods and services of significant value” and “…things one can do at a large scale that cannot be 
done at a smaller one, to extract new insights or create new forms of value.
 The broad range of new and massive data types that have appeared over the last decade or so

 The new tools helping us find relevant data and analyze its implications

 The convergence of enterprise and consumer IT

 The shift (for enterprises) from processing internal data to mining external data

 The shift (for individuals) from consuming data to creating data.

 The merger of Madame Olympe Maxime and Lieutenant Commander Data

 The belief that the more data you have the more insights and answers will rise automatically 
from the pool of ones and zeros
A new attitude by businesses, non­profits, government agencies, and individuals that 
https://www.forbes.com/sites/gilpress/2014/09/03/12­big­data­definitions­whats­yours/#66e783be13ae 
combining data from multiple sources could lead to better decisions.
CE ESTE BIG DATA?
 Volum
 Viteză

 Varietate

 ...
CE ESTE BIG DATA?
Big Data Small Data
TB sau PB de date
>TB, PB GB
30 KiB ­ 30 GiB / secundă Date fixe

În plus, Big Data înseamnă:
 Folosirea mai multor surse de date
 Ambiguități în date, erori umane sau de calculator

Big Data != Better Data

Datele neprocesate nu au valoare!

Analiza datelor crește valoarea lor!
BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
RELEVANȚA BIG DATA ÎN CONTEXTUL 
ACTUAL
DE CE ACUM?
 ”We could have gotten started a lot earlier. We 
simply weren’t stepping  back and looking at how 
to use the data” – Brad Smith, Intuit
 Datele sunt prea prețioanse pentru a fi șterse!

Hardware/preț Tehnologii

• Cost redus de stocare • O înțelere mai bună a distribuției 
• Procesoare multi­core puternice proceselor
• Latență redusă datorită calculului  • MapReduce
distribuit • Sisteme de baze de date noi
• Rețele rapide: 40 Gbps, 100 Gbps • NoSQL (Key­value store, columnar): 
• Virtualizare/containere Redis, Cassandra, Dinamo, MonetDB
• Izolarea resurselor dedicate unui  • Tehnici avansate de analiză
anumit calcul •  Machine Learning
• VMWare, VirtualBox, Docker • Platforme de Big Data ușor accesibile
• Acces ieftin la resurse • Google Cloud, Amazon Web Service
• Calculul pe Cloud • Software open­source
• OpenStack, OpenNebula, HDFS
CE FACEM CU DATELE?

Atenție la principiile etice!
 Date private
 Date sensibile
EXTRAGEREA DE INFORMAȚII
 Exploratorie
 Teorie bazată pe observația unor fenomene

 Constructivă
 Teorie bazată pe axiome și implicații deduse

Modelare 
(teorie)

Analiză Ipoteze

Experimen
t
A PATRA PARADIGMĂ

 Big Data + analiză
 Predicția viitorului

 Analiză
 Urmează o abordare exploratorie și studiază datele
 Deduce cunoștințe pe baza statisticii sau tehnicilor 
de machine learning
 Construirea de modele și validarea lor pe baza 
datelor
ANALIZA DATELOR
 Procesul de studiu al datelor de diverse tipuri 
cu scopul de a identifica corelații necunoscute 
precum și alte informații utile și folositoare
 Bazat de regulă pe data mining
Fluxul de analiză
TIPURI DE ANALIZĂ DE DATE

 Descriptivă
 Ce s­a întâmplat?

 De diagnoză Nivelul de înțelegere 
a datelor și 
 De ce s­a întâmplat?
valorea acestora
 Predictivă
 Ce se va întâmpla?

 Prescriptivă
 Ce ar trebui să fie făcut și de ce?
CÂTEVA EXEMPLE
 Monitorizarea medicală a copiilor pentru a alerta atunci 
când este nevoie de o intervenție

 Prezicerea stricării unor utilaje în industrie
 Prevenirea ambuteiajelor, economisirea de carburant, 
reducerea poluării
VALOAREA DATELOR
FLUXUL DE ANALIZĂ A DATELOR
 Achiziția de date
 Curățarea, anotarea și extragerea datelor relevante
 Valori lipsă, aberante (outliere), duplicate
 Între 50­70% din efortul de analiză este focalizat aici!

 Integrarea și reprezentarea datelor eterogeneîntr­un format comun
 Analiza datelor
 Interpretarea automată și vizuală a rezultatelor
 Oamenii văd deseori șabloane pe care programele nu le identifică!
 Luarea de decizii
ROLURI ÎN ANALIZA BIG DATA
 Data scientist
 Data science = metodă sistematică dedicată descoperirii de cunoștințe prin 
intermediul analizei datelor
 În afaceri
 optimizarea proceselor organizatorice pentru creșterea eficienței
 În știință
 analizează date experimentale/observate pentru a trage anumite concluzii
 Cerințe
 Statistică
 Programare Java, Python, R, ....
 Cunoștiințe de domeniu

 Data engineer
 Data engineering = domeniu ce dezvoltă și oferă sisteme pentru gestiunea și analiza 
Big Data
 Creează platforme scalabile și modulare pentru data scientisti
 Instalează soluții Big Data
 Cerințe
 Baze de date, software engineering, procesare paralelă și cloud, procesare în timp real
 Programare  C++, Java, Python

 Înțelerea factorilor de performanță precum și limitările sistemelor
DOMENII DE INTERES

Bioinformatica
BIG DATA ÎN BIOINFORMATICĂ
 200 GB (43 DVD­uri)
 Un singur genom uman

 Institutul European de 
Bioinformatică (EBI)
 40 PB (2014)
 Informații despre gene, 
proteine, molecule mici
 Cantitatea de date se 
dublează anual
 Doar unul dintre institulele 
din lume din domeniu

https://arxiv.org/pdf/1506.05101.pdf 
CE FACE BIG DATA ÎN 
BIOINFORMATICĂ SPECIALĂ?
 Datele sunt eterogene
 Numeroase probleme necesită date eterogene din 
diverse surse
 Datele sunt generate de organizații, fiecare cu 
propriul format de stocare
 Datele sunt distribuite geografic
 O mică parte este transferabilă
 Restul trebuie să rămână local
 Cost mare de transfer
 Politici de confidențialitate și securitate

 Norme etice

 Procesarea trebuie efectuată in situ!
EXEMPLE DE PROBLEME BIG DATA 
ÎN BIOINFORMATICĂ

 Analiza expresiei genelor (gene expression)
 Secvențierea ADN­ul, ARN­ul și a proteinelor

 Interacțiuni proteină­proteină (PPI)

 Pathway analysis

 Ontologia genelor (GO)
ANALIZA EXPRESIEI GENELOR
 Procesul prin care informații dintr­o genă sunt folosite pentru a sintetiza 
un produs genetic funcțional (ARN, proteină)
 Determinarea șablonului genelor în diverse circumstanțe sau celule 
specifice
 Poate identifica gene afectate de anumiți patogeni sau viruși
 Rezultatele pot fi folosite pentru a sugera anumiți biomarkeri pentru 
identificarea/prevenirea bolilor 
 Problema Big Data
 Volumul mare de date și numărul de scenarii
SECVENȚIEREA ADN­UL, ARN­UL ȘI 
A PROTEINELOR
 Secvențe de ADN, ARN sau peptide sunt procesate folosind diverse 
metode analitice pentru a înțelege proprietățile, funcțiile, structura și 
evoluția lor
 Problema Big Data
 PB de date ADN  arhitecturi și platforme scalabile noi pentru secvențierea rapidă
 Secvențierea ARN   folosirea de unelte machine learning pentru a extrage și procesa 
informații deseori omise din date
INTERACȚIUNI PROTEINĂ­
PROTEINĂ (PPI)
 Oferă informații despre procese biologice
 Ajută la înțelegerea funcțiilor proteinelor
 PPI­uri anormale stau la baza detecției unor boli precum cancerul sau 
Alzheimer­ul
 Problema Big Data
 Date mari, eterogene și care sosesc constant

https://www.researchgate.net/publication/260839098_Genomic_convergence_and_network_analysis_ap
proach_to_identify_candidate_genes_in_Alzheimer%27s_disease/figures?lo=1&utm_source=google&utm
_medium=organic
 
PATHWAY ANALYSIS
 Folosită pentru a înțelege cauzele moleculare ale unei boli
 Identifică genele și proteinele asociate cu etiologia unei boli
 Problema Big Data
 Datele genetice, genomice protoemice au crescut atât de mult încât e nevoie de noi 
soluții pentru procesarea volumelor în timpi utili

https://www.researchgate.net/publication/257072511_A_Helicopter_Per
spective_on_TB_Biomarkers_Pathway_and_Process_Based_Analysis_of_Gen
e_Expression_Data_Provides_New_Insight_into_TB_Pathogenesis/figures
?lo=1&utm_source=google&utm_medium=organic
 
ONTOLOGIA GENELOR
 Conține ontologii genetice independente de specii pentru procese biologice 
asociate, componente celulare și funcții moleculare
 Problema Big Data
 Platforme pentru procesarea volumelor mari de date în timp util

http://chicas.lancaster­university.uk/projects/gene_ontology.html
DATE VS. VITEZĂ DE PROCESARE

 Date
 
 Anotate: L
 Neanotate: U
 Algoritm de învățare: Φ
 f = Φ(L + U)
 Minimizează eroarea funcției
 Evită supra­antrenarea
 Rezultate: 
 Scalabilitate: 
 Învățare supervizată: f = Φ(L)
 Datele de antrenare sunt voluminoase dar insuficiente !!!
 Câteva milioane sunt prea multe dar insuficiente

 Învățare semi­supervizată: f = Φ(L* + U)
 L* datele de antrenare cele mai relevante
 L* + U este voluminos
 Învățare nesupervizată: f = Φ(U)
 Nearest Neighbor, rețele neuronale convoluționare, mașini Bolzmann restricționate, Deep 
Learning
EXEMPLU CONCRET
CLASIFICARE ÎN STUDII ADN 
MICROARRAY
 Clasificarea și predicția categoriei de 
diagnostic a mostrei pe baza 
profilului expresiei genei
 Măsurători ale expresiei pe o mostră 
de 4026 de gene de la 59 de pacienți 
(39 pentru antrenare) cu limfom 
împărțiți în 3 clase în funcție de tipul 
limfomului
 Problemă
 Clase puține, date de clasificat 
numeroase (volum)
 Algoritm
 Găsirea centroidului (expresia medie a 
fiecărei gene) fiecărui tip de limfom
http://statweb.stanford.edu/~tibs/ftp/ncshrink2.pdf 
 Găsirea genelor care aparțin acestuia
SURSE CURS
 http://www.comp.nus.edu.sg/~tankl/cs5344/slides/2016/intro.pdf 
 http://infolab.stanford.edu/~
echang/BigDat2015/BigDat2015­Lecture1­Edward­Chang.pdf 
 https://wr.informatik.uni­hamburg.de/_
media/teaching/wintersemester_2015_2016/bd­1516­einfuehrung.p
df
 
 https://www.ee.columbia.edu/~
cylin/course/bigdata/EECS6893­BigDataAnalytics­Lecture1.pdf 
CURSUL VIITOR
 Arhitecturi paralele și distribuite
 Sisteme paralele
 Cu memorie partajată
 Cu memorie distribuită

 Sisteme distribuite
 Cloud­ul

S-ar putea să vă placă și