Big Data Course

PRELUCRAREA
VOLUMELOR MARI DE
DATE
CURS 1:
BIG DATA ȘI ANALIZA BIG
DATA
Conf. Univ. Dr. Habil. Marc FRÎNCU
marc.frincu@euvt.ro
STRUCTURA CURSULUI
 1 oră de curs + 2 ore laborator per săptămână (Bioinformatică)
 2 ore curs + 1 oră laborator per săptămână (IACD, IASTE)
 Cursul este comun între cele 3
 La IACD și IASTE la fiecare două săptămâni (când Bioinformatica nu are curs)
discutăm o serie de lucrări științifice
 Ce vom învăța la curs?
 Importanța analizei Big Data
 Impactul Big Data în științe (ex. bioinformatică)
 Arhitecturi paralele și distribuite
 Paralelizarea algoritmilor de calcul
 Importanța arhitecturii hardware și a structurii datelor în designul
algoritmilor pentru procesare Big Data
 Analiza datelor independente, dependente și a fluxurilor de date omogene și
eterogene
 Practic (laborator)
 Folosirea Google Cloud pentru a analiza date în bioinformatică
 Paralelizarea unor algoritmi secvențiali elementari în bioinformatică
 Design, testare, evaluare
CERINȚE MINIMALE
 Nota 5
 1 algoritm paralel implementat (întrun singur
limbaj/tehnologie) și evaluat
 O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică (publicată sau raport tehnic) cu tematică
Big Data, bioinformatică, calcul pe cloud sau paralel
 Nota 10
 Toți algoritmii de la laborator implementați și evaluați,
raportul final fiind prezentat sub forma unui raport tehnic
 O prezentare (10 min prezentare + 2 întrebări) despre o
lucrare științifică din reviste/conferințe de top (IPDPS,
Supercomputing, Europar, CCGrid, ICDCS, IEEE Trans. PDC,
IEEE Trans. Computing, FGCS, TPDS) cu tematică Big Data,
bioinformatică, calcul pe cloud sau paralel
O LUME TOT MAI
INTERCONECTATĂ ȘI COMPLEXĂ
Je Suis Charlie: 6500 retweeturi per minut
O LUME TOT MAI
INTERCONECTATĂ ȘI COMPLEXĂ
Sisteme ciberfizice: IT + comunicare + inteligență
CUNOAȘTERE = PUTERE = DATE
Date: decizie  control  autonomie  inteligență
CE ESTE BIG DATA?
 Oxford English Dictionary (OED)
 data of a very large size, typically to the extent that its manipulation and management present
significant logistical challenges
 Wikipedia
 an allencompassing term for any collection of data sets so large and complex that it becomes difficult
to process using onhand data management tools or traditional data processing applications
 datasets whose size is beyond the ability of typical database software tools to capture,
store, manage, and analyze
 The ability of society to harness information in novel ways to produce useful insights or
goods and services of significant value” and “…things one can do at a large scale that cannot be
done at a smaller one, to extract new insights or create new forms of value.
 The broad range of new and massive data types that have appeared over the last decade or so
 The new tools helping us find relevant data and analyze its implications
 The convergence of enterprise and consumer IT
 The shift (for enterprises) from processing internal data to mining external data
 The shift (for individuals) from consuming data to creating data.
 The merger of Madame Olympe Maxime and Lieutenant Commander Data
 The belief that the more data you have the more insights and answers will rise automatically
from the pool of ones and zeros
A new attitude by businesses, nonprofits, government agencies, and individuals that
https://www.forbes.com/sites/gilpress/2014/09/03/12bigdatadefinitionswhatsyours/#66e783be13ae
combining data from multiple sources could lead to better decisions.
CE ESTE BIG DATA?
 Volum
 Viteză
 Varietate
 ...
CE ESTE BIG DATA?
Big Data Small Data
TB sau PB de date
>TB, PB GB
30 KiB 30 GiB / secundă Date fixe
În plus, Big Data înseamnă:
 Folosirea mai multor surse de date
 Ambiguități în date, erori umane sau de calculator
Big Data != Better Data
Datele neprocesate nu au valoare!
Analiza datelor crește valoarea lor!
BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
BIG DATA ÎN CIFRE
RELEVANȚA BIG DATA ÎN CONTEXTUL
ACTUAL
DE CE ACUM?
 ”We could have gotten started a lot earlier. We
simply weren’t stepping back and looking at how
to use the data” – Brad Smith, Intuit
 Datele sunt prea prețioanse pentru a fi șterse!
Hardware/preț Tehnologii
• Cost redus de stocare • O înțelere mai bună a distribuției
• Procesoare multicore puternice proceselor
• Latență redusă datorită calculului • MapReduce
distribuit • Sisteme de baze de date noi
• Rețele rapide: 40 Gbps, 100 Gbps • NoSQL (Keyvalue store, columnar):
• Virtualizare/containere Redis, Cassandra, Dinamo, MonetDB
• Izolarea resurselor dedicate unui • Tehnici avansate de analiză
anumit calcul • Machine Learning
• VMWare, VirtualBox, Docker • Platforme de Big Data ușor accesibile
• Acces ieftin la resurse • Google Cloud, Amazon Web Service
• Calculul pe Cloud • Software opensource
• OpenStack, OpenNebula, HDFS
CE FACEM CU DATELE?
Atenție la principiile etice!
 Date private
 Date sensibile
EXTRAGEREA DE INFORMAȚII
 Exploratorie
 Teorie bazată pe observația unor fenomene
 Constructivă
 Teorie bazată pe axiome și implicații deduse
Modelare
(teorie)
Analiză Ipoteze
Experimen
t
A PATRA PARADIGMĂ
 Big Data + analiză
 Predicția viitorului
 Analiză
 Urmează o abordare exploratorie și studiază datele
 Deduce cunoștințe pe baza statisticii sau tehnicilor
de machine learning
 Construirea de modele și validarea lor pe baza
datelor
ANALIZA DATELOR
 Procesul de studiu al datelor de diverse tipuri
cu scopul de a identifica corelații necunoscute
precum și alte informații utile și folositoare
 Bazat de regulă pe data mining
Fluxul de analiză
TIPURI DE ANALIZĂ DE DATE
 Descriptivă
 Ce sa întâmplat?
 De diagnoză Nivelul de înțelegere
a datelor și
 De ce sa întâmplat?
valorea acestora
 Predictivă
 Ce se va întâmpla?
 Prescriptivă
 Ce ar trebui să fie făcut și de ce?
CÂTEVA EXEMPLE
 Monitorizarea medicală a copiilor pentru a alerta atunci
când este nevoie de o intervenție
 Prezicerea stricării unor utilaje în industrie
 Prevenirea ambuteiajelor, economisirea de carburant,
reducerea poluării
VALOAREA DATELOR
FLUXUL DE ANALIZĂ A DATELOR
 Achiziția de date
 Curățarea, anotarea și extragerea datelor relevante
 Valori lipsă, aberante (outliere), duplicate
 Între 5070% din efortul de analiză este focalizat aici!
 Integrarea și reprezentarea datelor eterogeneîntrun format comun
 Analiza datelor
 Interpretarea automată și vizuală a rezultatelor
 Oamenii văd deseori șabloane pe care programele nu le identifică!
 Luarea de decizii
ROLURI ÎN ANALIZA BIG DATA
 Data scientist
 Data science = metodă sistematică dedicată descoperirii de cunoștințe prin
intermediul analizei datelor
 În afaceri
 optimizarea proceselor organizatorice pentru creșterea eficienței
 În știință
 analizează date experimentale/observate pentru a trage anumite concluzii
 Cerințe
 Statistică
 Programare Java, Python, R, ....
 Cunoștiințe de domeniu
 Data engineer
 Data engineering = domeniu ce dezvoltă și oferă sisteme pentru gestiunea și analiza
Big Data
 Creează platforme scalabile și modulare pentru data scientisti
 Instalează soluții Big Data
 Cerințe
 Baze de date, software engineering, procesare paralelă și cloud, procesare în timp real
 Programare C++, Java, Python
 Înțelerea factorilor de performanță precum și limitările sistemelor
DOMENII DE INTERES
Bioinformatica
BIG DATA ÎN BIOINFORMATICĂ
 200 GB (43 DVDuri)
 Un singur genom uman
 Institutul European de
Bioinformatică (EBI)
 40 PB (2014)
 Informații despre gene,
proteine, molecule mici
 Cantitatea de date se
dublează anual
 Doar unul dintre institulele
din lume din domeniu
https://arxiv.org/pdf/1506.05101.pdf
CE FACE BIG DATA ÎN
BIOINFORMATICĂ SPECIALĂ?
 Datele sunt eterogene
 Numeroase probleme necesită date eterogene din
diverse surse
 Datele sunt generate de organizații, fiecare cu
propriul format de stocare
 Datele sunt distribuite geografic
 O mică parte este transferabilă
 Restul trebuie să rămână local
 Cost mare de transfer
 Politici de confidențialitate și securitate
 Norme etice
 Procesarea trebuie efectuată in situ!
EXEMPLE DE PROBLEME BIG DATA
ÎN BIOINFORMATICĂ
 Analiza expresiei genelor (gene expression)
 Secvențierea ADNul, ARNul și a proteinelor
 Interacțiuni proteinăproteină (PPI)
 Pathway analysis
 Ontologia genelor (GO)
ANALIZA EXPRESIEI GENELOR
 Procesul prin care informații dintro genă sunt folosite pentru a sintetiza
un produs genetic funcțional (ARN, proteină)
 Determinarea șablonului genelor în diverse circumstanțe sau celule
specifice
 Poate identifica gene afectate de anumiți patogeni sau viruși
 Rezultatele pot fi folosite pentru a sugera anumiți biomarkeri pentru
identificarea/prevenirea bolilor
 Problema Big Data
 Volumul mare de date și numărul de scenarii
SECVENȚIEREA ADNUL, ARNUL ȘI
A PROTEINELOR
 Secvențe de ADN, ARN sau peptide sunt procesate folosind diverse
metode analitice pentru a înțelege proprietățile, funcțiile, structura și
evoluția lor
 PB de date ADN  arhitecturi și platforme scalabile noi pentru secvențierea rapidă
 Secvențierea ARN  folosirea de unelte machine learning pentru a extrage și procesa
informații deseori omise din date
INTERACȚIUNI PROTEINĂ
PROTEINĂ (PPI)
 Oferă informații despre procese biologice
 Ajută la înțelegerea funcțiilor proteinelor
 PPIuri anormale stau la baza detecției unor boli precum cancerul sau
Alzheimerul
 Date mari, eterogene și care sosesc constant
https://www.researchgate.net/publication/260839098_Genomic_convergence_and_network_analysis_ap
proach_to_identify_candidate_genes_in_Alzheimer%27s_disease/figures?lo=1&utm_source=google&utm
_medium=organic

PATHWAY ANALYSIS
 Folosită pentru a înțelege cauzele moleculare ale unei boli
 Identifică genele și proteinele asociate cu etiologia unei boli
 Datele genetice, genomice protoemice au crescut atât de mult încât e nevoie de noi
soluții pentru procesarea volumelor în timpi utili
https://www.researchgate.net/publication/257072511_A_Helicopter_Per
spective_on_TB_Biomarkers_Pathway_and_Process_Based_Analysis_of_Gen
e_Expression_Data_Provides_New_Insight_into_TB_Pathogenesis/figures
?lo=1&utm_source=google&utm_medium=organic

ONTOLOGIA GENELOR
 Conține ontologii genetice independente de specii pentru procese biologice
asociate, componente celulare și funcții moleculare
 Platforme pentru procesarea volumelor mari de date în timp util
http://chicas.lancasteruniversity.uk/projects/gene_ontology.html
DATE VS. VITEZĂ DE PROCESARE

 Date

 Anotate: L
 Neanotate: U
 Algoritm de învățare: Φ
 f = Φ(L + U)
 Minimizează eroarea funcției
 Evită supraantrenarea
 Rezultate:
 Scalabilitate:
 Învățare supervizată: f = Φ(L)
 Datele de antrenare sunt voluminoase dar insuficiente !!!
 Câteva milioane sunt prea multe dar insuficiente
 Învățare semisupervizată: f = Φ(L* + U)
 L* datele de antrenare cele mai relevante
 L* + U este voluminos
 Învățare nesupervizată: f = Φ(U)
 Nearest Neighbor, rețele neuronale convoluționare, mașini Bolzmann restricționate, Deep
Learning
EXEMPLU CONCRET
CLASIFICARE ÎN STUDII ADN
MICROARRAY
 Clasificarea și predicția categoriei de
diagnostic a mostrei pe baza
profilului expresiei genei
 Măsurători ale expresiei pe o mostră
de 4026 de gene de la 59 de pacienți
(39 pentru antrenare) cu limfom
împărțiți în 3 clase în funcție de tipul
limfomului
 Problemă
 Clase puține, date de clasificat
numeroase (volum)
 Algoritm
 Găsirea centroidului (expresia medie a
fiecărei gene) fiecărui tip de limfom
http://statweb.stanford.edu/~tibs/ftp/ncshrink2.pdf
 Găsirea genelor care aparțin acestuia
SURSE CURS
 http://www.comp.nus.edu.sg/~tankl/cs5344/slides/2016/intro.pdf
 http://infolab.stanford.edu/~
echang/BigDat2015/BigDat2015Lecture1EdwardChang.pdf
 https://wr.informatik.unihamburg.de/_
media/teaching/wintersemester_2015_2016/bd1516einfuehrung.p
df

 https://www.ee.columbia.edu/~
cylin/course/bigdata/EECS6893BigDataAnalyticsLecture1.pdf
CURSUL VIITOR
 Arhitecturi paralele și distribuite
 Sisteme paralele
 Cu memorie partajată
 Cu memorie distribuită
 Sisteme distribuite
 Cloudul

Big Data Course

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Big Data Course

Încărcat de

Drepturi de autor:

Formate disponibile

PRELUCRAREA

S-ar putea să vă placă și