Documente Academic
Documente Profesional
Documente Cultură
VOLUMELOR MARI DE
DATE
CURS 1:
BIG DATA ȘI ANALIZA BIG
DATA
Conf. Univ. Dr. Habil. Marc FRÎNCU
marc.frincu@euvt.ro
STRUCTURA CURSULUI
1 oră de curs + 2 ore laborator per săptămână (Bioinformatică)
2 ore curs + 1 oră laborator per săptămână (IACD, IASTE)
Cursul este comun între cele 3
La IACD și IASTE la fiecare două săptămâni (când Bioinformatica nu are curs)
discutăm o serie de lucrări științifice
Ce vom învăța la curs?
Importanța analizei Big Data
Impactul Big Data în științe (ex. bioinformatică)
Arhitecturi paralele și distribuite
Paralelizarea algoritmilor de calcul
Importanța arhitecturii hardware și a structurii datelor în designul
algoritmilor pentru procesare Big Data
Analiza datelor independente, dependente și a fluxurilor de date omogene și
eterogene
Practic (laborator)
Folosirea Google Cloud pentru a analiza date în bioinformatică
Paralelizarea unor algoritmi secvențiali elementari în bioinformatică
Design, testare, evaluare
CERINȚE MINIMALE
Nota 5
1 algoritm paralel implementat (întrun singur
limbaj/tehnologie) și evaluat
O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică (publicată sau raport tehnic) cu tematică
Big Data, bioinformatică, calcul pe cloud sau paralel
Nota 10
Toți algoritmii de la laborator implementați și evaluați,
raportul final fiind prezentat sub forma unui raport tehnic
O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică din reviste/conferințe de top (IPDPS,
Supercomputing, Europar, CCGrid, ICDCS, IEEE Trans. PDC,
IEEE Trans. Computing, FGCS, TPDS) cu tematică Big Data,
bioinformatică, calcul pe cloud sau paralel
O LUME TOT MAI
INTERCONECTATĂ ȘI COMPLEXĂ
Je Suis Charlie: 6500 retweeturi per minut
O LUME TOT MAI
INTERCONECTATĂ ȘI COMPLEXĂ
Sisteme ciberfizice: IT + comunicare + inteligență
CUNOAȘTERE = PUTERE = DATE
Date: decizie control autonomie inteligență
CE ESTE BIG DATA?
Oxford English Dictionary (OED)
data of a very large size, typically to the extent that its manipulation and management present
significant logistical challenges
Wikipedia
an allencompassing term for any collection of data sets so large and complex that it becomes difficult
to process using onhand data management tools or traditional data processing applications
datasets whose size is beyond the ability of typical database software tools to capture,
store, manage, and analyze
The ability of society to harness information in novel ways to produce useful insights or
goods and services of significant value” and “…things one can do at a large scale that cannot be
done at a smaller one, to extract new insights or create new forms of value.
The broad range of new and massive data types that have appeared over the last decade or so
The new tools helping us find relevant data and analyze its implications
The convergence of enterprise and consumer IT
The shift (for enterprises) from processing internal data to mining external data
The shift (for individuals) from consuming data to creating data.
The merger of Madame Olympe Maxime and Lieutenant Commander Data
The belief that the more data you have the more insights and answers will rise automatically
from the pool of ones and zeros
A new attitude by businesses, nonprofits, government agencies, and individuals that
https://www.forbes.com/sites/gilpress/2014/09/03/12bigdatadefinitionswhatsyours/#66e783be13ae
combining data from multiple sources could lead to better decisions.
CE ESTE BIG DATA?
Volum
Viteză
Varietate
...
CE ESTE BIG DATA?
Big Data Small Data
TB sau PB de date
>TB, PB GB
30 KiB 30 GiB / secundă Date fixe
În plus, Big Data înseamnă:
Folosirea mai multor surse de date
Ambiguități în date, erori umane sau de calculator
Big Data != Better Data
Datele neprocesate nu au valoare!
Analiza datelor crește valoarea lor!
BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
RELEVANȚA BIG DATA ÎN CONTEXTUL
ACTUAL
DE CE ACUM?
”We could have gotten started a lot earlier. We
simply weren’t stepping back and looking at how
to use the data” – Brad Smith, Intuit
Datele sunt prea prețioanse pentru a fi șterse!
Hardware/preț Tehnologii
• Cost redus de stocare • O înțelere mai bună a distribuției
• Procesoare multicore puternice proceselor
• Latență redusă datorită calculului • MapReduce
distribuit • Sisteme de baze de date noi
• Rețele rapide: 40 Gbps, 100 Gbps • NoSQL (Keyvalue store, columnar):
• Virtualizare/containere Redis, Cassandra, Dinamo, MonetDB
• Izolarea resurselor dedicate unui • Tehnici avansate de analiză
anumit calcul • Machine Learning
• VMWare, VirtualBox, Docker • Platforme de Big Data ușor accesibile
• Acces ieftin la resurse • Google Cloud, Amazon Web Service
• Calculul pe Cloud • Software opensource
• OpenStack, OpenNebula, HDFS
CE FACEM CU DATELE?
Atenție la principiile etice!
Date private
Date sensibile
EXTRAGEREA DE INFORMAȚII
Exploratorie
Teorie bazată pe observația unor fenomene
Constructivă
Teorie bazată pe axiome și implicații deduse
Modelare
(teorie)
Analiză Ipoteze
Experimen
t
A PATRA PARADIGMĂ
Big Data + analiză
Predicția viitorului
Analiză
Urmează o abordare exploratorie și studiază datele
Deduce cunoștințe pe baza statisticii sau tehnicilor
de machine learning
Construirea de modele și validarea lor pe baza
datelor
ANALIZA DATELOR
Procesul de studiu al datelor de diverse tipuri
cu scopul de a identifica corelații necunoscute
precum și alte informații utile și folositoare
Bazat de regulă pe data mining
Fluxul de analiză
TIPURI DE ANALIZĂ DE DATE
Descriptivă
Ce sa întâmplat?
De diagnoză Nivelul de înțelegere
a datelor și
De ce sa întâmplat?
valorea acestora
Predictivă
Ce se va întâmpla?
Prescriptivă
Ce ar trebui să fie făcut și de ce?
CÂTEVA EXEMPLE
Monitorizarea medicală a copiilor pentru a alerta atunci
când este nevoie de o intervenție
Prezicerea stricării unor utilaje în industrie
Prevenirea ambuteiajelor, economisirea de carburant,
reducerea poluării
VALOAREA DATELOR
FLUXUL DE ANALIZĂ A DATELOR
Achiziția de date
Curățarea, anotarea și extragerea datelor relevante
Valori lipsă, aberante (outliere), duplicate
Între 5070% din efortul de analiză este focalizat aici!
Integrarea și reprezentarea datelor eterogeneîntrun format comun
Analiza datelor
Interpretarea automată și vizuală a rezultatelor
Oamenii văd deseori șabloane pe care programele nu le identifică!
Luarea de decizii
ROLURI ÎN ANALIZA BIG DATA
Data scientist
Data science = metodă sistematică dedicată descoperirii de cunoștințe prin
intermediul analizei datelor
În afaceri
optimizarea proceselor organizatorice pentru creșterea eficienței
În știință
analizează date experimentale/observate pentru a trage anumite concluzii
Cerințe
Statistică
Programare Java, Python, R, ....
Cunoștiințe de domeniu
Data engineer
Data engineering = domeniu ce dezvoltă și oferă sisteme pentru gestiunea și analiza
Big Data
Creează platforme scalabile și modulare pentru data scientisti
Instalează soluții Big Data
Cerințe
Baze de date, software engineering, procesare paralelă și cloud, procesare în timp real
Programare C++, Java, Python
Înțelerea factorilor de performanță precum și limitările sistemelor
DOMENII DE INTERES
Bioinformatica
BIG DATA ÎN BIOINFORMATICĂ
200 GB (43 DVDuri)
Un singur genom uman
Institutul European de
Bioinformatică (EBI)
40 PB (2014)
Informații despre gene,
proteine, molecule mici
Cantitatea de date se
dublează anual
Doar unul dintre institulele
din lume din domeniu
https://arxiv.org/pdf/1506.05101.pdf
CE FACE BIG DATA ÎN
BIOINFORMATICĂ SPECIALĂ?
Datele sunt eterogene
Numeroase probleme necesită date eterogene din
diverse surse
Datele sunt generate de organizații, fiecare cu
propriul format de stocare
Datele sunt distribuite geografic
O mică parte este transferabilă
Restul trebuie să rămână local
Cost mare de transfer
Politici de confidențialitate și securitate
Norme etice
Procesarea trebuie efectuată in situ!
EXEMPLE DE PROBLEME BIG DATA
ÎN BIOINFORMATICĂ
Analiza expresiei genelor (gene expression)
Secvențierea ADNul, ARNul și a proteinelor
Interacțiuni proteinăproteină (PPI)
Pathway analysis
Ontologia genelor (GO)
ANALIZA EXPRESIEI GENELOR
Procesul prin care informații dintro genă sunt folosite pentru a sintetiza
un produs genetic funcțional (ARN, proteină)
Determinarea șablonului genelor în diverse circumstanțe sau celule
specifice
Poate identifica gene afectate de anumiți patogeni sau viruși
Rezultatele pot fi folosite pentru a sugera anumiți biomarkeri pentru
identificarea/prevenirea bolilor
Problema Big Data
Volumul mare de date și numărul de scenarii
SECVENȚIEREA ADNUL, ARNUL ȘI
A PROTEINELOR
Secvențe de ADN, ARN sau peptide sunt procesate folosind diverse
metode analitice pentru a înțelege proprietățile, funcțiile, structura și
evoluția lor
Problema Big Data
PB de date ADN arhitecturi și platforme scalabile noi pentru secvențierea rapidă
Secvențierea ARN folosirea de unelte machine learning pentru a extrage și procesa
informații deseori omise din date
INTERACȚIUNI PROTEINĂ
PROTEINĂ (PPI)
Oferă informații despre procese biologice
Ajută la înțelegerea funcțiilor proteinelor
PPIuri anormale stau la baza detecției unor boli precum cancerul sau
Alzheimerul
Problema Big Data
Date mari, eterogene și care sosesc constant
https://www.researchgate.net/publication/260839098_Genomic_convergence_and_network_analysis_ap
proach_to_identify_candidate_genes_in_Alzheimer%27s_disease/figures?lo=1&utm_source=google&utm
_medium=organic
PATHWAY ANALYSIS
Folosită pentru a înțelege cauzele moleculare ale unei boli
Identifică genele și proteinele asociate cu etiologia unei boli
Problema Big Data
Datele genetice, genomice protoemice au crescut atât de mult încât e nevoie de noi
soluții pentru procesarea volumelor în timpi utili
https://www.researchgate.net/publication/257072511_A_Helicopter_Per
spective_on_TB_Biomarkers_Pathway_and_Process_Based_Analysis_of_Gen
e_Expression_Data_Provides_New_Insight_into_TB_Pathogenesis/figures
?lo=1&utm_source=google&utm_medium=organic
ONTOLOGIA GENELOR
Conține ontologii genetice independente de specii pentru procese biologice
asociate, componente celulare și funcții moleculare
Problema Big Data
Platforme pentru procesarea volumelor mari de date în timp util
http://chicas.lancasteruniversity.uk/projects/gene_ontology.html
DATE VS. VITEZĂ DE PROCESARE
Date
Anotate: L
Neanotate: U
Algoritm de învățare: Φ
f = Φ(L + U)
Minimizează eroarea funcției
Evită supraantrenarea
Rezultate:
Scalabilitate:
Învățare supervizată: f = Φ(L)
Datele de antrenare sunt voluminoase dar insuficiente !!!
Câteva milioane sunt prea multe dar insuficiente
Învățare semisupervizată: f = Φ(L* + U)
L* datele de antrenare cele mai relevante
L* + U este voluminos
Învățare nesupervizată: f = Φ(U)
Nearest Neighbor, rețele neuronale convoluționare, mașini Bolzmann restricționate, Deep
Learning
EXEMPLU CONCRET
CLASIFICARE ÎN STUDII ADN
MICROARRAY
Clasificarea și predicția categoriei de
diagnostic a mostrei pe baza
profilului expresiei genei
Măsurători ale expresiei pe o mostră
de 4026 de gene de la 59 de pacienți
(39 pentru antrenare) cu limfom
împărțiți în 3 clase în funcție de tipul
limfomului
Problemă
Clase puține, date de clasificat
numeroase (volum)
Algoritm
Găsirea centroidului (expresia medie a
fiecărei gene) fiecărui tip de limfom
http://statweb.stanford.edu/~tibs/ftp/ncshrink2.pdf
Găsirea genelor care aparțin acestuia
SURSE CURS
http://www.comp.nus.edu.sg/~tankl/cs5344/slides/2016/intro.pdf
http://infolab.stanford.edu/~
echang/BigDat2015/BigDat2015Lecture1EdwardChang.pdf
https://wr.informatik.unihamburg.de/_
media/teaching/wintersemester_2015_2016/bd1516einfuehrung.p
df
https://www.ee.columbia.edu/~
cylin/course/bigdata/EECS6893BigDataAnalyticsLecture1.pdf
CURSUL VIITOR
Arhitecturi paralele și distribuite
Sisteme paralele
Cu memorie partajată
Cu memorie distribuită
Sisteme distribuite
Cloudul