Sunteți pe pagina 1din 44

CURSUL 8

1
conf. dr. mat. Corina Vernic
moodle.umft.ro
cvernic@umft.ro

2
Biologia
computaționala și
Bioinformatica
Obiective
Bioinformatică: cercetarea, dezvoltarea sau aplicarea instrumentelor și
abordărilor de calcul pentru extinderea utilizării datelor biologice, medicale,
comportamentale sau de sănătate, inclusiv a celor pentru a achiziționa, stoca,
organiza, arhiva, analiza sau vizualiza astfel de date.
Bioinformatica aplică principiile științelor și tehnologiilor informației pentru a
face mai ușor de înțeles și mai utile datele vaste, diverse și complexe ale științelor
vieții.

Biologie Computațională: Dezvoltarea și aplicarea metodelor analitice și


teoretice de date, modelare matematică și tehnici de simulare computațională la
studiul sistemelor biologice, comportamentale și sociale.
Biologia computațională utilizează metode matematice și de calcul pentru a
aborda întrebări teoretice și experimentale în biologie.
Deși bioinformatica și biologia computațională sunt distincte, există, de asemenea,
suprapunere și activitate semnificativă la interfața dintre ele.
• Istoric
BIOLOGIA COMPUTAŢIONALĂ

NOŢIUNI INTRODUCTIVE
6
Definiţie
 Aplicarea teoriilor biologice prin utilizarea modelelor
matematice, statistice, fizice şi a calculatorului în
analiza sistemelor complexe biologice

 Simularea experimentelor biologice cu ajutorul


calculatorului (neurobiologia, prelucrarea imaginii,
etc.)

7
Biologia Computaţională
Bioinformatica și biologia computațională au rădăcini atât în științele vieții, cât și
în științele și tehnologiile computerului și informației. Ambele abordări
interdisciplinare se bazează pe discipline specifice, cum ar fi matematica, fizica,
informatica și ingineria, biologia și știința comportamentului. Bioinformatica și
biologia computațională mențin fiecare interacțiuni strânse cu științele vieții pentru
a-și realiza întregul potențial.

8
Biologia Computaţională …
 Biologia computaţională
 Biologia moleculară computaţională

• Biologia sistemelor
–Genomică structurală
–Proteomică
–Genomică
–Bioinformatică

 Genomică & Bioinformatică & Biologie Computaţională


 Inteligenţa artificială – Robotică

 Baze de date – Teoria informaţiei

 Teoria grafurilor – Algoritmi

 Statistică - Probabilităţi
9
Biologia Computaţională …
Biologia sistemelor este analiza și modelarea computațională și matematică a
sistemelor biologice complexe. Ca domeniu de studiu, este considerată a reprezenta
studiul interacțiunilor dintre componentele sistemelor biologice și modul în care aceste
interacțiuni dau naștere funcției și comportamentului sistemului respectiv (de exemplu,
enzimele și metaboliții dintr-o cale metabolică sau bătăile inimii ).
Genomica structurală urmărește să descrie structura tridimensională a fiecărei proteine
codificate de un anumit genom. Această abordare bazată pe genom permite o metodă cu
viteză mare de determinare a structurii printr-o combinație de abordări experimentale și
de modelare.
Proteomica este studiul pe scară largă al proteinelor. Proteinele sunt părți vitale ale
organismelor vii, cu multiple funcții specifice.
Proteomul este întregul set de proteine care este produs sau modificat de un organism
sau sistem.
Proteomica a permis identificarea unui număr tot mai mare de proteine. Acest lucru
variază în funcție de timp și de cerințele distincte, sau de stres, pe care le suferă o celulă
sau un organism. Proteomica se referă, în general, la analiza experimentală pe scară
largă a proteinelor și proteomilor, dar este adesea utilizată în mod specific cu referire la
purificarea proteinelor și spectrometria de masă.

10
Biologia Computaţională …
Genomica este un domeniu interdisciplinar al biologiei axat pe structura, funcția, evoluția,
cartografierea și editarea genomilor. Spre deosebire de genetică, care se referă la studiul
genelor individuale și a rolurilor lor în moștenirea genetică, genomica vizează caracterizarea
și cuantificarea colectivă a tuturor genelor unui organism, relațiile lor și influența asupra
organismului. Genomica implică, de asemenea, secvențierea și analiza genomurilor prin
utilizarea secvențierii ADN cu randament ridicat și a bioinformaticii pentru a asambla și
analiza funcția și structura întregului genom.

Genomul este setul complet de ADN al unui organism, incluzând toate genele sale. Genele
pot direcționa producția de proteine ​cu ajutorul enzimelor și moleculelor mesager. La rândul
lor, proteinele alcătuiesc structurile corpului, cum ar fi organele și țesuturile, precum și
controlează reacțiile chimice și transportă semnale între celule.

11
Bioinformatică: scopuri computaţionale
 Învăţare şi Generalizare: identificare de modele în
secvenţe, structuri, interacţiuni, metabolism, etc. prin
studierea unor exemple bine studiate.

 Predicţie: obţinerea de informaţii structurale sau funcţionale


a secvenţelor noi de gene (genom, proteine, etc.) din
modelele de generalizare

 Organizare şi Integrare: dezvoltarea de abordări


sistematice şi genomice a interacţiunilor moleculare,
metabolice, semnale celulare, expresie de gene, …
12
Bioinformatică: scopuri computaţionale
 Simulare: a modelelor de expresie genetică, reglare
genetică, interacţiune proteină-proteină, etc. …

 Inginerie: crearea de organisme sau funcţii noi, a noi


metode de reglare genetică sau proteică

 Terapie genică: gene cu ţintă specifică, mutaţii sau


recombinări RNAi pentru a schimba fenotipul bolii.

13
Biologia moleculară/Bioinformatică

 Paradigma centrală:
 Biologia moleculară:
 DNA  RNA  Proteina  Fenotip

 Biologia moleculară a genei: James Watson

 Bioinformatic:
 Informaţia genetică  Structura moleculară 

Funcţia biochimică  Fenotip


14
Bioinformatica

 Provocări în înţelegerea informaţiei genetice:


 Informaţia genetică este redundantă (surplus de informaţie

faţă de strictul necesar / abundenţă inutilă de informaţie)


 Informaţia structurală este redundantă

 Genele şi proteinele sunt metastabile

• Metastabilitatea: concept al sistemelor complexe:


 Genele au funcţii multiple

 Genele sunt unidimensionale dar funcţia depinde de


structura tri-dimensională …
15
Biologia computaţională
 Biologia computaţională se dezvoltă rapid prin îmbinarea
interdisciplinară a aplicării cunoştinţelor domeniului ştiinţei
calculatoarelor, statisticii şi matematicii aplicate în rezolvarea
problemelor biologice.
 Bioinformatica: matematica aplicată, statistica şi teoria
probabilităţilor sunt utilizate în rezolvarea unor probleme de
biologie moleculară şi proteomică:
 Genomul uman ← puterea de procesare a
calculatoarelor
• 1989 – start → 13 ani (2001)
• 3 bilioane de dolari americani
Biologia computaţională

 Biofizica, biochimia şi biologia


structurală: ramură a biologiei
moleculare, biochimiei şi
biofizicii care se ocupă de
structura moleculară a
macromoleculelor - proteine,
acizi nucleici, carbohidraţi şi
lipide
Biologia computaţională
 Modelarea şi vizualizarea sunt două componente esenţiale în
înţelegerea fenomenelor biologice. Modelarea este în relaţie cu
totalitatea tehnicilor şi metodelor de predicţie a structurilor
genetice şi/sau proteice.

Modelarea este frecvent folosită ca instrument:


 De analiză a structurilor tridimensionale: ARN, interacţiunea
proteică.
 De predicţie: modele de predicţie a interacţiunii proteină-ligant,
tehnici moderne de predicţie a proteinelor.
Biologia computaţională: Istoric
 Matematicianul Charles Lutwidge Didgson (1832-1898)
cunoscut sub numele de Lewis Carrol (autorul cărţii Alice) este
cel ale cărui soluţii implementate în jocuri se regăsesc în
biologia computaţională.

Lewis Carrol a arătat că două cuvinte ('APE' şi 'MAN') pot fi


conectate printr-un lanţ (APE  ARE  ERE  ERR  EAR
 MAR  MAN), parsimonia în şirul de litere stând la baza
algoritmilor filogenetici utilizaţi în biologia computaţională.
Biologia computaţională şi Informatica
 Există diferenţe culturale enorme între cercetătorii în ştiinţele vieţii
şi cei în ştiinţele de calcul iar aceste diferenţe trebuie să-şi găsească
numitorul comun când e vorba de biologia computaţională:
 nimic nu e niciodată complet adevărat sau fals în ştiinţele vieţii pe
când totul este fie adevărat fie fals în informatică şi matematică;
 cercetătorii în ştiinţele vieţii încearcă să înţeleagă fenomenele
naturale în timp ce informaticienii încearcă să construiască propria
lor lume virtuală;
 cercetătorii în ştiinţele vieţii sunt cei care colectează/produc date în
timp ce informaticienii sunt cei care crează algoritmi;
 cercetătorii în ştiinţele vieţii sunt obsedaţi în a descoperii primii
ceva în timp ce informaticienii inventează ceva nu descoperă;
 cercetătorii în ştiinţele vieţii sunt conştienţi de faptul că toate
datele au erori - informaticienii nu
 …
Biologia computaţională:
descoperiri
 1970: Primul algoritm de aliniere al secvenţelor
 1969: Modele pentru selecţia liberă a evoluţiei moleculare
 1967 & 1970: Substituţia preferenţială a reziduurilor de amino
acizi în secvenţa proteică
 1967: Studiile formale ale structurii primare a proteinelor
 1969 & 1970: Preferinţele reziduurilor de aminoacizi în
structura secundară
 1967 & 1968: Reprezentarea helicoidală a secvenţelor de
proteine
 1969 & 1970: Utilizarea datelor moleculare în studii ale
evoluţiei
 1970: Originea vieţii
 1970: Teoria evoluţiei duplicării genetice
Biologia computaţională
Noţiuni de bază în biologia computaţională
 Informaţia genetică: informaţia codificată în materialul genetic
cu care este înzestrat orice organism viu (unicelular sau
pluricelular). Aceasta este stocată în structura macromoleculară
a ADN-ului (acidul dezoxiribonucleic), la nivelul ADN-ului
nuclear (rol principal în stocarea informaţiei genetice) şi a
ADN-ului extracelular.

 Genotipul: totalitatea informaţiei genetice dintr-un organism.

 Genomul (nuclear, celular): întreaga material genetic dintr-un


organism. Genomul uman are o lungime de ~ 3 bilioane de
perechi de baze şi conţine toate informaţia necesară pentru a
crea toate proteinele.
Noţiuni de bază în biologia computaţională

 Codul genetic: Set de reguli prin care informaţia


din materialul genetic (ADN, ARNm - acidul
ribonucleic mesager) este transformată în proteine
(secvenţe de aminoacizi) în celulele vii.
 Secvenţa ADN (acidul dezoxiribonucleic) este
formată din înşiruirea a 4 baze azotate:
2 purinice (A = adenina şi G = guanina) şi
2 pirimidinice (C = citozina şi T = timina).
În cazul ARN - acidul ribonucleic) în loc de
timină există U = uracilul).
În lanțul dublu helicolidal, fiecare bază se
leagă de complementul său (la ADN: A-T şi
C-G, la ARN: A-U şi C-G), astfel încât se
formează secvenţe cu o complementaritate
unică.
Noţiuni de bază în biologia computaţională
 Codonul: secvenţele de câte trei nucleotide din macromolecula de
ADN, care, prin succesiunea lor, codifică un aminoacid specific.
Tabelul de codoni standard ARN
Prima A doua baza A treia
baza U C A G baza
UUU Fenyl- UCU UAU UGU U
Tyrosină Cysteină
UUC alanină UCC UAC UGC C
U Serină
UUA UCA UAA Stop UGA Stop A
UUG UCG UAG Stop UGG Tryptophan G
CUU CCU CAU CGU U
CUC Leucină Histidină
C CCC CAC CGC C
CUA Prolină Arginină
CCA CAA CGA A
CUG Glutamină
CCG CAG CGG G
AUU ACU AAU AGU Serină U
Isoleucină Asparagină
AUC ACC Threonină AAC AGC C
A
AUA ACA AAA AGA A
Lysină Arginină
AUG Methionină ACG AAG AGG G
GUU GCU GAU GGU U
Acid Aspartic
GUC GCC GAC GGC Glycină C
G Valină Alanină
GUA GCA GAA GGA A
Acid glutamic
GUG GCG GAG GGG G
Noţiuni de bază în biologia computaţională

 Proteinele sunt secvenţe de aminoacizi; orice proteină poate să


fie reprezentate ca un şir de aminoacizi.

 Evoluţia apare datorită schimbărilor genomice care pot fi de tip


mutaţie sau recombinare. Mutaţiile sunt evenimente rare (pot
apărea la nivelul unei singure baze) care pot determina
evenimente importante. Recombinarea este modalitatea prin
care genomul a fost construit plecând de la informaţia genetică
primită de la părinte/părinţi. Prin selecţia naturală în genom tind
să se acumuleze schimbările favorabile.

 Algoritmii trebuie să fie corecţi şi eficienţi. De interes sunt acei


algoritmi care sunt capabili să identifice cea mai bună soluţie
posibilă la o problemă complexă bine definită.
Bioinformatica
= domeniu interdisciplinar al stiintei aflat la intersectia dintre
biologie moleculara, genetica, stiinta calculatoarelor, matematica,
statistica.
Abordeaza sisteme biologice ce necesita prelucrare intensiva de
date, la scara mare, dintr-o perspectiva computationala.
Schema de lucru pentru rezolvarea bioinformatica a unei probleme
include:
Colectarea datelor statistice referitoare la sistemul biologic

studiat
Construirea unui model computational dependent de multi

parametri
Rezolvarea problemei de modelare computationala cu fittingul

datelor reale pe model


Testarea si evaluarea modelului computational

27
De ce este necesara bioinformatica ?

Analiza actuala a sistemelor biologice genereaza cantitati imense


de date
→ secventa genomului uman contine 3 miliarde de baze
Exista interactiuni complexe intre multiple tipuri de variabile
→ dificultatea de a integra si analiza datele
Probleme organizatorice
→ nu este suficient ca biologii sa invete algoritmi de programare
Cerere imensa in mediul academic si industrie
→ multe locuri de munca disponibile

28
Exemple de aplicatii ale bioinformaticii

29
Exemple de aplicatii ale bioinformaticii

Este o metodă de secvențiere a ADN bazată pe


încorporarea selectivă de către ADN-polimeraza a
dideoxinucleotidelor care termină lanțul, în timpul
replicării ADN in vitro. După ce a fost dezvoltat pentru
prima dată de Frederick Sanger și colegii săi în 1977,
a devenit cea mai utilizată metodă de secvențiere timp
de aproximativ 40 de ani. Metoda Sanger rămâne în
largă utilizare, pentru proiecte la scară mai mică şi are
avantajul, față de tehnologiile de secvențiere cu citire
Parte a unui gel scurtă (cum ar fi Illumina), prin faptul că poate
de secvențiere produce citiri de secvențe ADN mai mari de 500
marcat radioactiv
nucleotide.
30
Exemple de aplicatii ale bioinformaticii

Secvențierea prin coloranţi fluorescenţi utilizează


marcarea dideoxinucleotidelor care termină lanțul. În
secvențierea prin colorarea terminatorilor de lanţ,
fiecare dintre cei patru terminatori ai lanțului de
dideoxinucleotidă este marcat cu coloranți
fluorescenți, care emit lumină de lungimi de undă
diferite.

Scara de secvență prin secvențierea Ilustrare de la începutul unui exemplu de citire


radioactivă, comparativ cu vârfurile a coloraţiilor prin fluorescenţă 31
de fluorescenţă
Exemple de aplicatii ale bioinformaticii

Secvențierea microfluidică Sanger este o


aplicație de laborator pentru secvențierea
ADN-ului, în care etapele de secvențiere
Sanger (ciclu termic, purificare eșantion
și electroforeză capilară) sunt integrate pe
un microcip, folosind volume de probă la
scară de nanolitri. Această tehnologie
generează citiri secvențiale lungi și
precise, evitând în același timp multe
dintre neajunsurile semnificative ale
metodei convenționale Sanger (consum
ridicat de reactivi scumpi, dependență de
echipamente scumpe, manipulări
intensive de personal etc.) prin integrarea
și automatizarea etapelor de secvențiere
Schema secvenţierii capilare Sanger. Sanger.
32
Exemple de aplicatii ale bioinformaticii

Analizorul automat de secvenţiere a


genomului utilizează detectarea
fluorescenţei de înaltă sensibili-tate
obţinută cu ajutorul unei excitaţii
laser şi a unui sistem intern de
reflecţie. Lectura secvenţelor este
aliniată pe un genom de referinţă şi
diferenţele genetice sunt
evidenţiate prin intermediul unui
software de analiză de date special
dezvoltat, care realizează analiza
datelor în timp real.
Analizor automat de secvenţiere
Illumina GA IIx.
33
Exemple de aplicatii ale bioinformaticii

34
Exemple de aplicatii ale bioinformaticii

În biologia computațională,
predicția genelor sau găsirea
genelor se referă la procesul de
identificare a regiunilor ADN -
genomic care codifică genele.
Aceasta include gene care
codifică proteinele, precum și
gene ARN, dar pot include și
predicția altor elemente
funcționale, cum ar fi regiunile
de reglare. Găsirea genei este
unul dintre primii și cei mai
importanți pași în înțelegerea
genomului unei specii odată ce a
fost secvențiat. 35
Exemple de aplicatii ale bioinformaticii

Un lanț Markov (Andrey Markov – matematician rus) este un model stochastic,


care descrie o succesiune de evenimente posibile, în care probabilitatea fiecărui
eveniment depinde doar de starea atinsă în evenimentul anterior. 36
Exemple de aplicatii ale bioinformaticii

Metoda Ab-initio: folosește secvența ADN ca unica intrare. Deoarece nu folosește alte
informații, memtoda este denumită de obicei „intrinsecă”. Există mai multe elemente într-o
genă care pot fi localizate în secvența genomică, care sunt folosite pentru a identifica genele
pe bază de calcul. Aceste elemente sunt corelate cu semnalele care reglează mecanismele
biologice ale expresiei genelor și cu aceste tendințe de frecvență datorate codificării unui
ADN, care poate fi tradus în proteine. Se numesc senzori de semnal și respectiv senzori de
conținut.

37
Exemple de aplicatii ale bioinformaticii

Metodele comparative se mai numesc și extrinseci. Acestea includ două strategii:


• cele care utilizează omologii cu secvențe din alte gene, numite și homologice, și
• cele care fac comparații cu secvența genomică din alte genomi, numite și comparative.

Bazat pe omologie: aceste metode prezic o genă folosind alinierea unei proteine ​(sau a unei
secvențe de ARN) cu secvența de genom pe care dorim să o adnotăm. Secvența cunoscută
(numită și dovezi) ghidează predicția. Există mai multe modalități de a realiza acest lucru: cel
mai simplu mod constă în acceptarea alinierii secvenței cunoscute la genom ca predicție a
genei. Metode mai sofisticate folosesc secvența cunoscută ca ghid și încearcă să completeze
dovezile într-o structură genetică completă. Eficacitatea acestei metode depinde de numărul
de secvențe de gene cunoscute, prin urmare este limitată de cât de complete sunt bazele de
date biolodice.

Bazate pe genomică comparativă: Aceste metode se bazează pe ipoteza că secvențele


conservate între genomi relativ apropiate unele de altele sunt funcționale și, prin urmare, pot
codifica o genă.
38
Exemple de aplicatii ale bioinformaticii

Structura primară și interacțiunile dintre


aminoacizi vor determina împachetarea
acestora într-o manieră tridimensională.

Aspectul 3D al proteinelor este strâns corelat


cu activitatea biologică a acestora.

Predicția structurii proteinelor (numită și


inferența proteinelor) este deducția structurii
tridimensionale a unei proteine din secvența sa
de aminoacizi - adică predicția plierii sale și a
structurii sale secundare și terțiare din structura
sa primară.
39
Exemple de aplicatii ale bioinformaticii

40
Exemple de aplicatii ale bioinformaticii

 A fost introdusa ca tehnică computaționalăă din anii ’70.


 In anii ‘90 a apărut BLAST: Basic Local Alignment Search Tool, cea mai
citată tehnică bioinformatică din lume (blast.ncbi.nlm.nih.gov/Blast.cgi)

41
Exemple de aplicatii ale bioinformaticii
Conservarea secventei este corelata cu semnificatia biologica a proteinei

Situs activ

42
Exemple de aplicatii ale bioinformaticii
Predictia clinica a tipului de boala in functie de markeri genetici sau proteomici

43
conf. dr. mat. Corina Vernic

S-ar putea să vă placă și