Documente Academic
Documente Profesional
Documente Cultură
MARI DE DATE
CURS 1:
BIG DATA ȘI ANALIZA BIG
DATA
Practic (laborator)
Folosirea Google Cloud pentru a analiza date în bioinformatică
Paralelizarea unor algoritmi secvențiali elementari în bioinformatică
Design, testare, evaluare
CERINȚE MINIMALE
Nota 5
1 algoritm paralel implementat (într-un singur
limbaj/tehnologie) și evaluat
O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică (publicată sau raport tehnic) cu tematică Big
Data, bioinformatică, calcul pe cloud sau paralel
Nota 10
Toți algoritmii de la laborator implementați și evaluați,
raportul final fiind prezentat sub forma unui raport tehnic
O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică din reviste/conferințe de top (IPDPS,
Supercomputing, Europar, CCGrid, ICDCS, IEEE Trans. PDC,
IEEE Trans. Computing, FGCS, TPDS) cu tematică Big Data,
bioinformatică, calcul pe cloud sau paralel
O LUME TOT MAI INTERCONECTATĂ ȘI
COMPLEXĂ
Je Suis Charlie: 6500 retweet-uri per minut
O LUME TOT MAI INTERCONECTATĂ ȘI
COMPLEXĂ
Sisteme ciberfizice: IT + comunicare + inteligență
CUNOAȘTERE = PUTERE = DATE
Date: decizie control autonomie inteligență
CE ESTE BIG DATA?
Oxford English Dictionary (OED)
data of a very large size, typically to the extent that its manipulation and management present significant logistical
challenges
Wikipedia
an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using
on-hand data management tools or traditional data processing applications
datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and
analyze
The ability of society to harness information in novel ways to produce useful insights or goods and
services of significant value” and “…things one can do at a large scale that cannot be done at a smaller one,
to extract new insights or create new forms of value.
The broad range of new and massive data types that have appeared over the last decade or so
The new tools helping us find relevant data and analyze its implications
The shift (for enterprises) from processing internal data to mining external data
The belief that the more data you have the more insights and answers will rise automatically from the pool of
ones and zeros
A new attitude by businesses, non-profits, government agencies, and individuals that combining data from
https://www.forbes.com/sites/gilpress/2014/09/03/12-big-data-definitions-whats-yours/#66e783be13ae
multiple sources could lead to better decisions.
CE ESTE BIG DATA?
Volum
Viteză
Varietate
...
CE ESTE BIG DATA?
Big Data Small Data
TB sau
>TB,
PBPB
de date GB
30 KiB - 30 GiB / secundă Date fixe
Hardware/preț Tehnologii
Modelare
(teorie)
Analiză Ipoteze
Experiment
A PATRA PARADIGMĂ
Descriptivă
Ce s-a întâmplat?
De diagnoză Nivelul de înțelegere a
De
datelor și
ce s-a întâmplat? valorea acestora
Predictivă
Ce se va întâmpla?
Prescriptivă
Ce ar trebui să fie făcut și de ce?
CÂTEVA EXEMPLE
Monitorizarea medicală a copiilor pentru a alerta atunci când este
nevoie de o intervenție
Cunoștiințe de domeniu
Data engineer
Data engineering = domeniu ce dezvoltă și oferă sisteme pentru gestiunea și analiza Big Data
Creează platforme scalabile și modulare pentru data scientisti
Instalează soluții Big Data
Cerințe
Baze de date, software engineering, procesare paralelă și cloud, procesare în timp real
Programare C++, Java, Python
Bioinformatica
BIG DATA ÎN BIOINFORMATICĂ
200 GB (43 DVD-uri)
Un singur genom uman
Institutul European de
Bioinformatică (EBI)
40 PB (2014)
Informații despre gene, proteine,
molecule mici
Cantitatea de date se dublează
anual
Doar unul dintre institulele din
lume din domeniu
https://arxiv.org/pdf/1506.05101.pdf
CE FACE BIG DATA ÎN BIOINFORMATICĂ
SPECIALĂ?
Datele sunt eterogene
Numeroase probleme necesită date eterogene din diverse
surse
Datele sunt generate de organizații, fiecare cu propriul format
de stocare
Datele sunt distribuite geografic
O mică parte este transferabilă
Restul trebuie să rămână local
Cost mare de transfer
Politici de confidențialitate și securitate
Norme etice
Pathway analysis
https://www.researchgate.net/publication/260839098_Genomic_convergence_and_network_analysis_approach_to_ident
ify_candidate_genes_in_Alzheimer%27s_disease/figures?lo=1&utm_source=google&utm_medium=organic
PATHWAY ANALYSIS
Folosită pentru a înțelege cauzele moleculare ale unei boli
Identifică genele și proteinele asociate cu etiologia unei boli
Problema Big Data
Datele genetice, genomice protoemice au crescut atât de mult încât e nevoie de noi soluții pentru
procesarea volumelor în timpi utili
https://www.researchgate.net/publication/257072511_A_Helicopter_Perspective_on_
TB_Biomarkers_Pathway_and_Process_Based_Analysis_of_Gene_Expression_Data
_Provides_New_Insight_into_TB_Pathogenesis/figures?lo=1&utm_source=google&
utm_medium=organic
ONTOLOGIA GENELOR
Conține ontologii genetice independente de specii pentru procese biologice asociate,
componente celulare și funcții moleculare
Problema Big Data
Platforme pentru procesarea volumelor mari de date în timp util
http://chicas.lancaster-university.uk/projects/gene_ontology.html
DATE VS. VITEZĂ DE PROCESARE
Date
Anotate: L
Neanotate: U
Algoritm de învățare: Φ
f = Φ(L + U)
Minimizează eroarea funcției
Evită supra-antrenarea
Rezultate:
Scalabilitate:
Învățare supervizată: f = Φ(L)
Datele de antrenare sunt voluminoase dar insuficiente !!!
Câteva milioane sunt prea multe dar insuficiente
Sisteme distribuite
Cloud-ul