Sunteți pe pagina 1din 36

PRELUCRAREA VOLUMELOR

MARI DE DATE
CURS 1:
BIG DATA ȘI ANALIZA BIG
DATA

Conf. Univ. Dr. Habil. Marc FRÎNCU


marc.frincu@e-uvt.ro
STRUCTURA CURSULUI
 1 oră de curs + 2 ore laborator per săptămână (Bioinformatică)
 2 ore curs + 1 oră laborator per săptămână (IACD, IASTE)
 Cursul este comun între cele 3
 La IACD și IASTE la fiecare două săptămâni (când Bioinformatica nu are curs) discutăm
o serie de lucrări științifice

 Ce vom învăța la curs?


 Importanța analizei Big Data
 Impactul Big Data în științe (ex. bioinformatică)
 Arhitecturi paralele și distribuite
 Paralelizarea algoritmilor de calcul
 Importanța arhitecturii hardware și a structurii datelor în design-ul algoritmilor pentru
procesare Big Data
 Analiza datelor independente, dependente și a fluxurilor de date omogene și eterogene

 Practic (laborator)
 Folosirea Google Cloud pentru a analiza date în bioinformatică
 Paralelizarea unor algoritmi secvențiali elementari în bioinformatică
 Design, testare, evaluare
CERINȚE MINIMALE
 Nota 5
1 algoritm paralel implementat (într-un singur
limbaj/tehnologie) și evaluat
 O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică (publicată sau raport tehnic) cu tematică Big
Data, bioinformatică, calcul pe cloud sau paralel
 Nota 10
 Toți algoritmii de la laborator implementați și evaluați,
raportul final fiind prezentat sub forma unui raport tehnic
 O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică din reviste/conferințe de top (IPDPS,
Supercomputing, Europar, CCGrid, ICDCS, IEEE Trans. PDC,
IEEE Trans. Computing, FGCS, TPDS) cu tematică Big Data,
bioinformatică, calcul pe cloud sau paralel
O LUME TOT MAI INTERCONECTATĂ ȘI
COMPLEXĂ
Je Suis Charlie: 6500 retweet-uri per minut
O LUME TOT MAI INTERCONECTATĂ ȘI
COMPLEXĂ
Sisteme ciberfizice: IT + comunicare + inteligență
CUNOAȘTERE = PUTERE = DATE
Date: decizie  control  autonomie  inteligență
CE ESTE BIG DATA?
 Oxford English Dictionary (OED)
 data of a very large size, typically to the extent that its manipulation and management present significant logistical
challenges
 Wikipedia
 an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using
on-hand data management tools or traditional data processing applications
 datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and
analyze
 The ability of society to harness information in novel ways to produce useful insights or goods and
services of significant value” and “…things one can do at a large scale that cannot be done at a smaller one,
to extract new insights or create new forms of value.
 The broad range of new and massive data types that have appeared over the last decade or so

 The new tools helping us find relevant data and analyze its implications

 The convergence of enterprise and consumer IT

 The shift (for enterprises) from processing internal data to mining external data

 The shift (for individuals) from consuming data to creating data.

 The merger of Madame Olympe Maxime and Lieutenant Commander Data

 The belief that the more data you have the more insights and answers will rise automatically from the pool of
ones and zeros
A new attitude by businesses, non-profits, government agencies, and individuals that combining data from
https://www.forbes.com/sites/gilpress/2014/09/03/12-big-data-definitions-whats-yours/#66e783be13ae
multiple sources could lead to better decisions.
CE ESTE BIG DATA?
 Volum
 Viteză

 Varietate

 ...
CE ESTE BIG DATA?
Big Data Small Data
TB sau
>TB,
PBPB
de date GB
30 KiB - 30 GiB / secundă Date fixe

În plus, Big Data înseamnă:


 Folosirea mai multor surse de date
 Ambiguități în date, erori umane sau de calculator

Big Data != Better Data

Datele neprocesate nu au valoare!

Analiza datelor crește valoarea lor!


BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
RELEVANȚA BIG DATA ÎN CONTEXTUL
ACTUAL
DE CE ACUM?
 ”We could have gotten started a lot earlier. We simply
weren’t stepping back and looking at how to use the
data” – Brad Smith, Intuit
 Datele sunt prea prețioanse pentru a fi șterse!

Hardware/preț Tehnologii

• Cost redus de stocare • O înțelere mai bună a distribuției proceselor


• Procesoare multi-core puternice • MapReduce
• Latență redusă datorită calculului distribuit • Sisteme de baze de date noi
• Rețele rapide: 40 Gbps, 100 Gbps • NoSQL (Key-value store, columnar):
• Virtualizare/containere Redis, Cassandra, Dinamo, MonetDB
• Izolarea resurselor dedicate unui anumit • Tehnici avansate de analiză
calcul • Machine Learning
• VMWare, VirtualBox, Docker • Platforme de Big Data ușor accesibile
• Acces ieftin la resurse • Google Cloud, Amazon Web Service
• Calculul pe Cloud • Software open-source
• OpenStack, OpenNebula, HDFS
CE FACEM CU DATELE?

Atenție la principiile etice!


 Date private
 Date sensibile
EXTRAGEREA DE INFORMAȚII
 Exploratorie
 Teorie bazată pe observația unor fenomene
 Constructivă
 Teorie bazată pe axiome și implicații deduse

Modelare
(teorie)

Analiză Ipoteze

Experiment
A PATRA PARADIGMĂ

 Big Data + analiză


 Predicția viitorului
 Analiză
 Urmează o abordare exploratorie și studiază datele
 Deduce cunoștințe pe baza statisticii sau tehnicilor de
machine learning
 Construirea de modele și validarea lor pe baza datelor
ANALIZA DATELOR
 Procesul de studiu al datelor de diverse tipuri cu scopul
de a identifica corelații necunoscute precum și alte
informații utile și folositoare
 Bazat de regulă pe data mining
Fluxul de analiză
TIPURI DE ANALIZĂ DE DATE

 Descriptivă
 Ce s-a întâmplat?
 De diagnoză Nivelul de înțelegere a
 De
datelor și
ce s-a întâmplat? valorea acestora
 Predictivă
 Ce se va întâmpla?
 Prescriptivă
 Ce ar trebui să fie făcut și de ce?
CÂTEVA EXEMPLE
 Monitorizarea medicală a copiilor pentru a alerta atunci când este
nevoie de o intervenție

 Prezicerea stricării unor utilaje în industrie


 Prevenirea ambuteiajelor, economisirea de carburant, reducerea
poluării
VALOAREA DATELOR
FLUXUL DE ANALIZĂ A DATELOR
 Achiziția de date
 Curățarea, anotarea și extragerea datelor relevante
 Valori lipsă, aberante (outliere), duplicate
 Între 50-70% din efortul de analiză este focalizat aici!
 Integrarea și reprezentarea datelor eterogeneîntr-un format comun
 Analiza datelor
 Interpretarea automată și vizuală a rezultatelor
 Oamenii văd deseori șabloane pe care programele nu le identifică!
 Luarea de decizii
ROLURI ÎN ANALIZA BIG DATA
 Data scientist
 Data science = metodă sistematică dedicată descoperirii de cunoștințe prin intermediul analizei
datelor
 În afaceri
 optimizarea proceselor organizatorice pentru creșterea eficienței
 În știință
 analizează date experimentale/observate pentru a trage anumite concluzii
 Cerințe
 Statistică
 Programare Java, Python, R, ....

 Cunoștiințe de domeniu

 Data engineer
 Data engineering = domeniu ce dezvoltă și oferă sisteme pentru gestiunea și analiza Big Data
 Creează platforme scalabile și modulare pentru data scientisti
 Instalează soluții Big Data
 Cerințe
 Baze de date, software engineering, procesare paralelă și cloud, procesare în timp real
 Programare C++, Java, Python

 Înțelerea factorilor de performanță precum și limitările sistemelor


DOMENII DE INTERES

Bioinformatica
BIG DATA ÎN BIOINFORMATICĂ
 200 GB (43 DVD-uri)
 Un singur genom uman
 Institutul European de
Bioinformatică (EBI)
 40 PB (2014)
 Informații despre gene, proteine,
molecule mici
 Cantitatea de date se dublează
anual
 Doar unul dintre institulele din
lume din domeniu

https://arxiv.org/pdf/1506.05101.pdf
CE FACE BIG DATA ÎN BIOINFORMATICĂ
SPECIALĂ?
 Datele sunt eterogene
 Numeroase probleme necesită date eterogene din diverse
surse
 Datele sunt generate de organizații, fiecare cu propriul format
de stocare
 Datele sunt distribuite geografic
O mică parte este transferabilă
 Restul trebuie să rămână local
 Cost mare de transfer
 Politici de confidențialitate și securitate

 Norme etice

 Procesarea trebuie efectuată in situ!


EXEMPLE DE PROBLEME BIG DATA ÎN
BIOINFORMATICĂ

 Analiza expresiei genelor (gene expression)


 Secvențierea ADN-ul, ARN-ul și a proteinelor

 Interacțiuni proteină-proteină (PPI)

 Pathway analysis

 Ontologia genelor (GO)


ANALIZA EXPRESIEI GENELOR
 Procesul prin care informații dintr-o genă sunt folosite pentru a sintetiza un produs
genetic funcțional (ARN, proteină)
 Determinarea șablonului genelor în diverse circumstanțe sau celule specifice
 Poate identifica gene afectate de anumiți patogeni sau viruși
 Rezultatele pot fi folosite pentru a sugera anumiți biomarkeri pentru
identificarea/prevenirea bolilor
 Problema Big Data
 Volumul mare de date și numărul de scenarii
SECVENȚIEREA ADN-UL, ARN-UL ȘI A
PROTEINELOR
 Secvențe de ADN, ARN sau peptide sunt procesate folosind diverse metode analitice
pentru a înțelege proprietățile, funcțiile, structura și evoluția lor
 Problema Big Data
 PB de date ADN  arhitecturi și platforme scalabile noi pentru secvențierea rapidă
 Secvențierea ARN  folosirea de unelte machine learning pentru a extrage și procesa informații
deseori omise din date
INTERACȚIUNI PROTEINĂ-PROTEINĂ
(PPI)
 Oferă informații despre procese biologice
 Ajută la înțelegerea funcțiilor proteinelor
 PPI-uri anormale stau la baza detecției unor boli precum cancerul sau Alzheimer-ul
 Problema Big Data
 Date mari, eterogene și care sosesc constant

https://www.researchgate.net/publication/260839098_Genomic_convergence_and_network_analysis_approach_to_ident
ify_candidate_genes_in_Alzheimer%27s_disease/figures?lo=1&utm_source=google&utm_medium=organic
PATHWAY ANALYSIS
 Folosită pentru a înțelege cauzele moleculare ale unei boli
 Identifică genele și proteinele asociate cu etiologia unei boli
 Problema Big Data
 Datele genetice, genomice protoemice au crescut atât de mult încât e nevoie de noi soluții pentru
procesarea volumelor în timpi utili

https://www.researchgate.net/publication/257072511_A_Helicopter_Perspective_on_
TB_Biomarkers_Pathway_and_Process_Based_Analysis_of_Gene_Expression_Data
_Provides_New_Insight_into_TB_Pathogenesis/figures?lo=1&utm_source=google&
utm_medium=organic
ONTOLOGIA GENELOR
 Conține ontologii genetice independente de specii pentru procese biologice asociate,
componente celulare și funcții moleculare
 Problema Big Data
 Platforme pentru procesarea volumelor mari de date în timp util

http://chicas.lancaster-university.uk/projects/gene_ontology.html
DATE VS. VITEZĂ DE PROCESARE

 Date
 
 Anotate: L
 Neanotate: U
 Algoritm de învățare: Φ
 f = Φ(L + U)
 Minimizează eroarea funcției
 Evită supra-antrenarea
 Rezultate:
 Scalabilitate:
 Învățare supervizată: f = Φ(L)
 Datele de antrenare sunt voluminoase dar insuficiente !!!
 Câteva milioane sunt prea multe dar insuficiente

 Învățare semi-supervizată: f = Φ(L* + U)


 L* datele de antrenare cele mai relevante
 L* + U este voluminos
 Învățare nesupervizată: f = Φ(U)
 Nearest Neighbor, rețele neuronale convoluționare, mașini Bolzmann restricționate, Deep Learning
EXEMPLU CONCRET
CLASIFICARE ÎN STUDII ADN
MICROARRAY
 Clasificarea și predicția categoriei de
diagnostic a mostrei pe baza profilului
expresiei genei
 Măsurători ale expresiei pe o mostră de
4026 de gene de la 59 de pacienți (39
pentru antrenare) cu limfom împărțiți în 3
clase în funcție de tipul limfomului
 Problemă
 Clase puține, date de clasificat numeroase
(volum)
 Algoritm
 Găsirea centroidului (expresia medie a fiecărei
gene) fiecărui tip de limfom
 Găsirea genelor care aparțin acestuia
http://statweb.stanford.edu/~tibs/ftp/ncshrink2.pdf
SURSE CURS
 http://www.comp.nus.edu.sg/~tankl/cs5344/slides/2016/intro.pdf
 http://infolab.stanford.edu/~
echang/BigDat2015/BigDat2015-Lecture1-Edward-Chang.pdf
 https://wr.informatik.uni-hamburg.de/_
media/teaching/wintersemester_2015_2016/bd-1516-einfuehrung.pdf
 https://www.ee.columbia.edu/~
cylin/course/bigdata/EECS6893-BigDataAnalytics-Lecture1.pdf
CURSUL VIITOR
 Arhitecturi paralele și distribuite
 Sisteme paralele
 Cu memorie partajată
 Cu memorie distribuită

 Sisteme distribuite
 Cloud-ul

S-ar putea să vă placă și