Documente Academic
Documente Profesional
Documente Cultură
1.
Motivatia temei
2
caracterelor evolutive nrudite ale speciilor si populatiilor. Filogenia traditionala trateaza
modul n care speciile evolueaza, nca de la aparitia datelor despre genomi, pornind de la
cele fiziologice (structura osoasa de la fosile, etc). Vom aborda filogenetica dintr-o perspectiva diferita: vom analiza date de secvente ADN pentru a determina relatiile dintre si
ntre specii. In esenta, dorim sa evidentiem selectia naturala n populatii. Aceasta zona de
studiu din biologia computationala devine din ce n ce mai importanta, cu aplicatii comerciale n domeniul genomicii. Recent, s-a stabilit ca o companie afiliata MIT&Harvard sa
secventializeze genomi individuali pentru suma de 5000 de dolari.
Am abordat aceasta problema de biologie n termeni computationali, studiind doi algoritmi, UPGMA si Neighbor-Joining, ce construiesc specii sau arbori de gene din aceste date
relationale. Vom explica, n continuare, diferenta dintre specii si arborii de gene.
Printre multe alte probleme deschise din domeniul filogeneticii ce se pot rezolva cu
ajutorul genomicii, mai apar si altele: cat de mult se aseamana doua specii, gasirea speciei
din care a evoluat omul (cimpanzeii sau gorilele sau alta), dar si multe altele. Foarte multe
probleme fara raspuns din biologia evolutiva au fost descifrate si rezolvate de filogenetica
genomica. Una din aceste probleme este reprezentata de revelatia ca cel mai apropiat animal
nrudit cu balena este hipopotamul [3].
In filogenetica, informatia este reprezentata cel mai bine cu ajutorul arborilor, acestia
aratand, n detaliu, legaturile dintre specii sau dintre gene. Exista probleme importante
legate de necesitatea filogeniei atunci cand evolutia este simulata cu ajutorul arborilor, acestea fiind (conform Mount [4]):
nodurile ce unesc ramurile arborelui (tipul precis de ascendenti comuni);
semnificatia lungimilor ramurilor (masurate sau nu n timp);
tipul de mpartire a ramurilor arborelui (de obicei, este mpartire binara).
Ca o informatie aditionala la a treia chestiune de mai sus, profesorul Pavel Pevzner,
membru UCSD, a mentionat ca ordinea convergentei la problema daca oamenii sunt mai
apropiati de caini sau de soareci, necesita un model de trifurcatie (o mpartire n trei moduri).
Este important sa observam ca genele si speciile sunt doua lucruri distincte. Aceeasi
gena (sau usoara deformatie a ei) se poate gasi n specii diferite, adica n organisme care nu
se pot ncrucisa. Gandindu-ne ntr-un alt mod, un arbore de specii este un caz particular de
arbore de gene ce cuprinde o secventa de gene comune. Mai mult, ntr-un arbore de specii
poate exista un flux de gene ntre diferite ramuri ale arborelui. Daca fiecare frunza este
3
un organism, atunci arborele este un arbore de specii. Un arbore de gene cuprinde atat
formarea descendenta de specii noi cat si dublarea lor, lungimea dintre radacina si frunze
reprezentand numarul de mutatii dintre cele doua ([5]). Ordinul complexitatii arborelui
(ramificatia lungimilor si numarul de mutatii) arata ce tipuri de algoritmi trebuie folositi.
In acest studiu, ne concentram pe compararea secven telor, pentru a construi arbori de gene
si arbori de specii.
Sa luam, de exemplu, populatia umana: nca de cand specia noastra a plecat de pe
continentul african, rata mutatiei din cadrul genomului uman pare a fi devenit un eveniment
filogenetic. Mutatiile sunt rare, cel mult 1000 de mutatii (sau polimorfisme cu o singura
nucleotida, sau SNP) ntr-un total de trei miliarde de genomi cu nucleotide. Acesta este
motivul pentru care sunt realizate harti de arbori genealogici, datorita flexibilitatii acestei
complexitati.
Genele sunt produse prin doua mecanisme principale:
1. duplicarea: noi versiuni de gene vechi (este procesul cel mai frecvent);
2. gene noi: segmente de gene (ce decodifica), sau o conexiune de secvente de codificare
(nucleotide functionale), acestea aparand mai rar.
Am studiat doua tipuri de arbori: un arbore de specii, acestea avand trasaturi comune,
provenind de la o singura specie, frunzele arborelui reprezentand specii diferite (cladograma)
si un arbore filogenetic sau evolutiv ce reprezinta numarul schimbarilor caracterelor prin
lungimile ramurilor sale, neavand radacina . Aceste trei tipuri de arbori asociaza diferite
sensuri lungimilor ramurilor, n ordinea n care apar: schimbare genetica si timpul parcurs.
Speciile cu o durata de exploatare mult mai mica si cu perioade de reproducere mai mari au
tendinta de a arata schimbari genetice mult mai mari (de exemplu, genele de la soareci si
cele umane).
In bioinformatica, apare o dilema: putem sa cream un algoritm ce rezolva bine problema
data, sau putem sa cream un model mai potrivit (de exemplu, cum pot fi folosite schimbarile
frecvent observate ntr-o secventa, pentru a indica o distanta catre o alta secventa).
2.
Evolutia molecular
a
In mare parte, evolutia moleculara este un proces de evolutie la nivelul ADN-ului, ARNului si al proteinelor. Evolutia moleculara a aparut n anii 1960, ca un domeniu stiintific,
atunci cand cercetatorii din biologia moleculara, biologia evolutiva si din genetica populatiei
4
au cautat sa nteleaga structura si functia acizilor nucleici si ale proteinelor. Unele din
subiectele cheie ce au grabit dezvoltarea acestui domeniu au fost evolutia functiei enzimelor,
folosirea divergentei acidului nucleic ca un ceas molecular pentru studiul divergentei speciilor, precum si originea ADN-ului decodificant.
Progresul recent n domeniul genomicii, incluzand secventierea ntregului genom, caracterizarea puterii de trecere a proteinei si bioinformatica, a condus la o crestere dramatica
a studiilor referitoare la aceasta problema. In anii 2000, unele subiecte de disputa au fost:
duplicarea genelor n scopul aparitiei noii functii de gene, extinderea evolutiei adaptive moleculare versus procesele neutre de mutatie si de deplasare, precum si identificarea schimbarilor
moleculare responsabile ale caracteristicilor umane diferite, n special cele aferente infectiilor,
bolilor si perceptiilor.
Un domeniu important n studiul evolutiei moleculare l reprezinta folosirea datelor
moleculare pentru determinarea clasificarii biologice corecte a organismelor. Acest domeniu
se numeste sistematica moleculara sau filogenetica moleculara.
In studiul evolutiei moleculare, s-au dezvoltat unelte si concepte folosite pentru genomica
comparativa si genetica moleculara, pe langa faptul ca fluxul de date noi din aceste domenii
au dus la mbunatatirea evolutiei moleculare.
3.
Modelarea evolutiei
S=
r
s
s
s
s
r
s
s
s
s
r
s
s
s
s
r
5
Pentru perioade de timp scurte, perioada evolutiva este constanta: r = 13 si s = .
Pentru perioade mai lungi de timp, rata este reprezentata de o functie de timp: r = 0, 25(1 +
3e4t ) si s = 0, 25(1 e4t ). Modelul Kimura [4] continua luand n considerare faptul ca
transformarile sunt mai frecvente decat substitutiile. Matricea Kimura de substitutie AGCT
este:
r s u u
s r u u
S=
,
u u r s
u u s r
unde s = 0, 25(1 e4t ), u = 0, 25(1 + e4t e2(+)t ) si r = 1 2s u.
4.
De la distante la arbori
6
5.
UPGMA
UPGMA (Unweighted Pair Group Method using arithmetic Averages = metoda neponderata de grupare a perechilor folosind medii aritmetice) este cel mai simplu exemplu de
algoritm de construire a unui arbore. UPGMA contine un algoritm de clustering ierarhic
ce ncepe de la frunzele arborelui facandu-si drum pana la radacina. Ca valoare de intrare,
ia o matrice a distantelor si creaza un arbore ultrametric (adica, n concordanta cu ipoteza
moleculara a perioadelor evolutive egale dintre specii). Numai daca matricea distantelor
de la intrare este ultrametrica, atunci algoritmul UPGMA va crea arborele corect. Daca
matricea distantelor este aditiva, atunci nu avem nicio garantie ca perechile de distante ale
ramurilor arborilor sunt cele specificate n matricea distantelor.
In alta ordine de idei, se construieste un arbore, pornind de la grupuri (clustere) cu un
singur element, prin unirea a cate doua grupuri de similaritate maxima (distanta minima).
Distanta dintre doua clustere se defineste astfel:
dij =
1
d .
|Ci ||Cj | pC ,qC pq
i
j
7
P4. Se repeta pasii P2 si P3 pana cand matricea D devine goala.
Alti pasi ai algoritmului sunt urmatorii:
Initializare:
multimea clusterelor C = {}
for i = 1..n
Ci = {secventa
i }
C = C {Ci }
defineste o frunza i pentru secventa
i , plasata la naltime hi = 0
Iteratie:
gaseste clusterele Ci , Cj pentru care dij e minima
(n cazul cand exista mai multe astfel de perechi, se alege una aleator)
construieste Ck = Ci Cj
for all Cl n C
calculeaza dkl
defineste un nod k, parinte pentru i si j,
cu hk = dij /2
C = (C {Ci , Cj }) {Ck }
Terminare:
cand raman doar doua clustere Ci si Cj ,
construieste un nod radacina la naltimea hr = dij /2
5.2.
8
chiar si atunci cand matricea distantelor nu este aditiva.
Spre deosebire de algoritmul UPGMA, construieste arbori fara radacina, si elimina presupunerea ca divergenta secventelor fiice a avut loc la acelasi moment de timp (exprimata
prin drumuri de lungime egala de la radacina la orice frunza). La fiecare pas, se aleg cele
mai apropiat doua secvente, de data aceasta apropierea fiind exprimata nu doar n functie
de distanta propriu-zisa ntre secvente (care trebuie sa fie cat mai mica), ci si de media
distantelor fiecarui nod fata de celelalte noduri (care trebuie sa fie cat mai mare):
Dij = dij (ri + rj )
unde
ri =
1
d
|L|2 kL ik
Dik +Djk
N 2
unde N este numarul secventelor. Aceasta este metrica ajustata a distantelor, ce arata
ca Mij este minim daca si numai daca i si j sunt vecini.
P2. (similar cu P2 din UPGMA): Se gaseste perechea de secvente cu distanta minima din
noua matrice M . Aceasta pereche formeaza primul cluster, si putem desena prima
parte din arbore unind valorile din pereche. De exemplu, din matricea M , gasim
secvA si secvB care au distanta minima. Unim secvA cu secvB
prin noul nod
U.
Lungimea ramurii de la A la U se calculeaza astfel: DAU =
1
2
DAB +
DAk +DBk
N 2
. De
9
P4. Se repeta pasii P1, P2 si P3 pana cand matricea D se goleste.
Altfel scris, algoritmul devine:
Initializare:
multimea nodurilor frunza T = multimea secventelor
L=T
Iteratie:
alege i, j astfel ncat Dij sa fie minim
defineste un nou nod k
for all m in L
dkm = 1/2 (dim + djm dij )
dik = 1/2 (dij + ri rj )
djk = dij dik
T = T {k}, k parinte pentru i si j
L = (L {i, j}) {k}
Terminare:
cand raman doar doua noduri i si j n L,
adauga la T muchia dintre i si j de lungime dij
5.3.
Discutie
Metodele fara parametri ale distantelor au fost, initial, aplicate n datele omolog grupate, folosind o matrice de perechi de distante. Aceste distante sunt, apoi, unite pentru a
forma arborele (cu lungimi de ramuri informative). Matricea distantelor rezulta dintr-un
numar de surse diferite, cum ar fi: distanta masurata (de exemplu, din studiile imunologice),
sau analiza morfometrica, diferite formule ale perechilor de distante (de exemplu, distanta
euclidiana) aplicate caracterelor morfologice discrete, sau distanta genetica din secventa, din
fragmentele de restrangere si din datele allozime (enzime care reprezinta produsul genelor
allele din cadrul aceleiasi gene). Pentru datele filogenetice de tip caracter, valorile brute
ale distantelor se calculeaza prin simpla masurare a diferentelor de perechi din starile de
10
caracter (distanta Manhattan).
Exista multi algoritmi simpli care construiesc un arbore, direct din distantele perechilor,
cativa din acestia fiind descrisi mau sus, nsa ei nu formeaza neaparat cel mai bun arbore.
UPGMA presupune un arbore ultrametric (un arbore n care toate lungimile drumurilor de
la radacina la frunze sunt egale). Neighbor-Joining este o forma de descompunere de stea
si poate fi rapid n a forma arbori convenabili. Acest algoritm se foloseste de unul singur si
chiar, deseori, produce arbori rezonabili.
Estimarea filogeniei folosind metodele bazate pe distante a dus la foarte multe controverse [5]. Legatura dintre caracterele individuale si arbore se pierde n cadrul procesului
de reducere a caracterelor la distante. Din moment ce aceste metode nu folosesc n mod
direct datele de tip caracter, informatia blocata n distribuirea starilor de caracter se poate
pierde atunci cand perechile se compara ntre ele. De asemenea, unele legaturi filogenetice complexe pot duce la distante eronate. In ciuda acestor potentiale probleme, metodele
cu distante sunt extrem de rapide si, deseori, evalueaza rezonabil filogenia. Ele au cateva
avantaje fata de metodele ce folosesc n mod direct caracterele. Ceea ce este remarcabil este
faptul ca metodele cu distante permit utilizarea datelor ce nu se pot converti usor n date
de tip caracter, cum sunt testele de hibridizare ADN-ADN.
6.
Concluzii
11
REFERINT
E
[1] Ernst Haekel, The History of Creation, Editia a 6-a, New York, D. Appleton and Co.,
1914, http : //www.geology.19thcenturyscience.org/books/1876HaeckelHistCrea/V ol
I/htm/doc.html
[2] Gregory J. Morgan, Emile Zuckerkandl, Linus Pauling, and the Molecular Evolutionary Clock, 1959-1965, Journal of the History of Biology, Vol. 31 (1998), pp. 155-178.
[3] http://en.wikipedia.org/wiki/Molecular evolution
[4] David W. Mount, Bioinformatics. Sequence and Genome Analysis, Second Edition,
2004, Cold Spring Harbor Laboratorry Press, Cold Spring Harbor, New York
[5] Ron D. Appel, Ernest Feytmans, Bioinformatics. A Swiss Perspective, 2009, World
Scientific Publishing Co. Pte. Ltd. and the Swiss Institute of Bioinformatics