Documente Academic
Documente Profesional
Documente Cultură
Comparacin de Secuencias
Fundamentos de Informtica y Bioinformtica en
Biotecnologa
Curso 2015/2016
Departamento de Ciencias de la Computacin e
Inteligencia Artificial
ndice
Introduccin
Tipos de alineamientos
Puntuacin de alineamientos
Mtodos de alineamientos de secuencias a
pares
dot plot
programacin dinmica
blast (k-tuple)
Comparacin de secuencias
biolgicas
Seq 1:
actaccagttcatttgatacttctcaaa
Seq 2:
taccattaccgtgttaactgaaaggacttaaagact
Para que queremos comparar
secuencias?
La base biolgica:
Muchos genes y protenas son miembros de familias que
tienen una funcin similar o un origen comn en su
evolucin.
http://www.muyinteresante.es/ciencia/articulo/por-que-los-gemelos-identicos-se-vuelven-diferentes-a-medida-que-crecen-941368178627
Alineamiento de secuencias
actaccagttcatttgatacttctcaaa
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact
Sequence 1 actaccagttcatttgatacttctcaaa
Sequence 2 taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Sickle Cell Anemia
Mtodo Uso
Comparacin de secuencias con homologa parcial:
Realizacin de alineamientos de alta calidad
Alineamientos Locales Anlisis residuo a residuo
1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67
|||||||||||||| | | | |||| || | | | ||
1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70
14 TCAGAAGCAGCTAAAGCGT 32 39 AGGATTGGAAT 49
||||||||| ||||||||| |||||||||||
42 TCAGAAGCA.CTAAAGCGT 59 1 AGGATTGGAAT 11
62 AGACCG 67
1 AGGATTGGAATGCT 14 ||||||
|||||||||||||| 66 AGACCG 71
1 AGGATTGGAATGCT 14
Sistemas de puntuacin de
alineamientos
Como podemos
averiguarlo?
Secuencia 1 actaccagttcatttgatacttctcaaa
Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact
A G C T Match: 1
Mismatch: 0
A 1 0 0 0 Score = 5
G 0 1 0 0
C 0 0 1 0
T 0 0 0 1
Scoring de alineamientos
de ADN
Secuencia 1 actaccagttcatttgatacttctcaaa
Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact
A T C G Matches: 5
A 5 -4 -4 -4 Mismatches: 19
T -4 5 -4 -4 Score: 5 x 5 + 19 x (-4) = - 51
C -4 -4 5 -4
G -4 -4 -4 5
Scoring de alineamientos
de protenas
Variaciones en el grado de similaridad de los AAs
vara en funcin de:
o De su estructura
o similaridad fsico-qumica
Scoring de alineamientos
de protenas
Secuencia 1 PTHPLASKTQILPEDLASEDLTI
Secuenciae 2 PTHPLAGERAIGLARLAEEDFGM
Scoring
matrix
C S T P A G N D . . T:G = -2
C 9 T:T = 5
S -1 4 Score = 48
T -1 1 5
P -3 -1 -1 7
Son mas sofisticados
A 0 1 0 -1 4
Los scores tienen en
G -3 0 -2 -2 0 6
cuenta informacion
N -3 1 0 -2 -2 0 5
biolgica
D -3 0 -1 -1 -2 -1 1 6
.
.
Matrices de substitucin
Los amino cidos tienen diferentes propiedes
bioqumicas y fsican que condicionan su capacidad de ser
sustituidos en la evolucin.
BLOSUM 62
PAM 120
BLOSUM 80 BLOSUM 45
PAM 1 PAM 250
Secuencias Secuencias ms
menos divergentes divergentes
Trminos importantes
T A T G T G G A A T G A
A T G T - - A A T G C A
T A T G T G G A A T G A
insercin / deleccin
1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29
||| || | | | ||| || | | || || |
1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29
Porqu penalizar los Gaps?
A T G T - - - T A T A C
T A T G T G C G T A T A
insertion / deletion
Gap parameters:
d=3 (apertura de gap)
e = 0.1 (extensin gap) Total Score: 8 - 3.2 = 4.8
l=3 (longitud del gap) Total Score: 4
(l) = -3 - (3 -1) 0.1 = -3.2
Efecto de la modificacin de la
penalizacin por gap
(g) = -d - (g -1)e
apertura gap = 3 1 ...VLSPADKFLTNV 12
extensin gap = 0.1 ||||
score = 6.3 1 VFTELSPAKTV.... 11
Matriz de puntos
Programacin dinmica
Mtodos de longitud de palabra
(k-tuple FASTA and BLAST)
Alineamiento de secuencias
a pares: Matriz de puntos
Dotplot: La matriz de puntos
Cada secuencia se coloca en un
eje
Window / Stringency
T A C G G T A T G C
A C A G T A T C A
T A C G G T A T G
Tamao de ventana/estringencia
T A C G G T A T G Window = 5 / Stringency = 4
T C A G T A T C
C
T A C G G T A T G
T C A G T A T C T
A
T A C G G T A T G
T
T C A G T A T C G
A
T A C G G T A T G C
A
T C A G T A T C
T A C G G T A T G
Efecto de los parmetros
Comparacin de una secuencia consigo misma
Duplicacin en
Una inversion tandem
Puntos a tener en cuenta
El uso de tamao de ventana con estringencia es mas
sensible al permitir ambigedades.
Imagina buscar un
camino (desde
Origen
origen hasta fin) * *
que permita ver el
mayor numero de * * *
atracciones (*) (solo
se puede ir hacia el * *
*
sur y al este)
*
* * *Final
Manhattan Tourist Problem (MTP)
Imagina buscar un
camino (desde
Origen
origen hasta fin) * *
que permita ver el
mayor numero de * * **
atracciones (*) (solo
se puede ir hacia el * *
*
sur y al este)
*
* * *Final
Programacin dinmica (PD)
La solucin est en la PD
1 - Dividir el problema en subproblemas ms
pequeos.
Secuencia 1 actaccagttcatttgatacttctcaaa
Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaag
actaccagttcatttgatacttctcaaa
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Programacin dinmica (PD)
P -8
i= posicin de la secuencia 1
A -16 j= posicin de la secuencia 2
d = penalizacin por gap (8)
W -24 condiciones de frontera
F(i, 0) = -i d
H -32
F(j, 0) = -j d
E -40
A -48
E -56
From Durbin, Eddy, Krogh and Mitchison. Biological Sequence Analysis. ISBN:0521629713
Pasos bsicos de un algoritmo
basado en PD
1- Rellenar los scores de la matriz de alineamiento
o Elegir el mximo de tres posibilidades
E -56 -8 -2 = -10 -2 -1 = -3
F(1,2) = max -16 -8 = -24 = -10 F(2,2) = max -10 -8 = -18 = -3
-2 -8 = -10 -9 -8 = -17
From Durbin, Eddy, Krogh and Mitchison. Biological Sequence Analysis. ISBN:0521629713
Pasos bsicos de un algoritmo
basado en PD
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80
Dos diferencias:
0
F(i, j) = F(i-1, j-1) + s(xi ,yj)
1. F(i, j) = max F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d
P 0 0 0 0 0 0 0 0 0 0 0
A 0 0 0 5 0 5 0 0 0 0 0
W 0 0 0 0 2 0 20 12 4 0 0
H 0 10 2 0 0 0 12 18 22 14 6
E 0 2 16 8 0 0 4 10 18 28 20
A 0 0 8 21 13 5 0 4 10 20 27
E 0 0 6 13 18 12 4 0 4 16 26
related P(x,y| p p
i
xi yi xi yi
Odds ratio :
unrelated = =
M)P(x,y| q q
R)
q q
i
xi
i
yi
i xi yi
p ab
Log-odds ratio : S = s(x ,y ) where : s(a,b) =
i i
i log q q a b