Analisis de Secuencias I PDF

Tema 7:
Comparacin de Secuencias
Fundamentos de Informtica y Bioinformtica en
Biotecnologa
Curso 2015/2016
Departamento de Ciencias de la Computacin e
Inteligencia Artificial
ndice
Introduccin
Tipos de alineamientos
Puntuacin de alineamientos
Mtodos de alineamientos de secuencias a
pares
dot plot
programacin dinmica
blast (k-tuple)
Comparacin de secuencias
biolgicas
Dadas dos secuencias (ADN o protena) quermos

saber si se parecen o no
Seq 1:
actaccagttcatttgatacttctcaaa
Seq 2:
taccattaccgtgttaactgaaaggacttaaagact
Para que queremos comparar
secuencias?
La base biolgica:
Muchos genes y protenas son miembros de familias que
tienen una funcin similar o un origen comn en su
evolucin.
Una comparacin de secuencias suele ser

el punto de inicio para llevar a cabo otro
tipo de experimentos
Identificacin de funciones
Secuencias similares probablemente tengan la

misma funcin
Finding informative elements
Gene annotation
Encontrar motivos
Estudios evolutivos
Si las secuencias son similares, tienen entonces un
Origen comn???..o solo parecidos

razonables
Mark Zuckerberg y Felipe IV
http://www.muyinteresante.es/ciencia/articulo/por-que-los-gemelos-identicos-se-vuelven-diferentes-a-medida-que-crecen-941368178627
Alineamiento de secuencias
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
Sequence 1 actaccagttcatttgatacttctcaaa
Sequence 2 taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
Sickle Cell Anemia
Due to 1 swapping an A for a T, causing inserted amino

acid to be valine instead of glutamine in hemoglobin
Image source: http://www.cc.nih.gov/ccc/ccnews/nov99/

10
Hay muchos posibles alineamientos entre dos
secuencias.
Dos secuencias pueden ser siempre alineadas.
Es necesario puntuar los alineamientos de las

secuencias para obtener la calidad de los mismos
A menudo hay mas de un alineamiento con la misma

puntuacin.
Variaciones en el sistema de puntuacin darn lugar a

un ranking de alineamientos diferente.
Alineamiento de Secuencias
Un alineamiento muestra las similaridades y diferencias

entre las dos secuencias.
Un alineamiento OPTIMO es aquel con el mayor

nmero de correspondencias y el menor nmero de
diferencias.
Secuencias muy similares probablemente tienen la

misma funcin
Similaridad y Homologa
A diferencia de la similitud, la homologa no es un
trmino cuantitativo.
Dos secuencias slo son homlogas si derivan del

mismo ancestro.
Cuando ms similares sean dos secuencias ms

similares tendern a ser las funciones codificadas por
ellas.
CUIDADO una alta similaridad entre secuencias

puede deberse simplemente al azar (en las
secuencias cortas, Barden vs Morgan por ejemplo).
Tipos de Alineamientos
Mtodo Uso
Comparacin de secuencias con homologa parcial:
Realizacin de alineamientos de alta calidad
Alineamientos Locales Anlisis residuo a residuo
Comparacin de secuencias en toda su longitud:

Comprobar la calidad de los datos
iden8cacin de mutaciones en secuencias.
Alineamientos Globales
Alineamiento Global vs Local
a pares: conceptos bsicos
Dos secuencias pueden
Tener un alineamiento Global
1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67
|||||||||||||| | | | |||| || | | | ||
1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70
Muchos buenos alineamientos locales
14 TCAGAAGCAGCTAAAGCGT 32 39 AGGATTGGAAT 49
||||||||| ||||||||| |||||||||||
42 TCAGAAGCA.CTAAAGCGT 59 1 AGGATTGGAAT 11
62 AGACCG 67
1 AGGATTGGAATGCT 14 ||||||
|||||||||||||| 66 AGACCG 71
1 AGGATTGGAATGCT 14
Sistemas de puntuacin de
alineamientos
Como podemos
averiguarlo?
Necesario el uso de medidas objetivas para puntuar.
Scoring: puntuacin numrica para cada

emparejamiento de smbolos
Penalizacin por Gap (hueco):

o Apertura de Gap
o Extensin del Gap
Scoring de alineamientos
de ADN
Secuencia 1 actaccagttcatttgatacttctcaaa
Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact
A G C T Match: 1
Mismatch: 0
A 1 0 0 0 Score = 5
G 0 1 0 0
C 0 0 1 0
T 0 0 0 1
de ADN
Valores negativos de puntuacin para penalizar las no coincidencias

pueden mejorar el score del alineamiento.
A T C G Matches: 5
A 5 -4 -4 -4 Mismatches: 19
T -4 5 -4 -4 Score: 5 x 5 + 19 x (-4) = - 51
C -4 -4 5 -4
G -4 -4 -4 5
de protenas
Variaciones en el grado de similaridad de los AAs
vara en funcin de:
o De su estructura
o similaridad fsico-qumica
de protenas
Secuencia 1 PTHPLASKTQILPEDLASEDLTI
Secuenciae 2 PTHPLAGERAIGLARLAEEDFGM
Scoring
matrix
C S T P A G N D . . T:G = -2
C 9 T:T = 5
S -1 4 Score = 48
T -1 1 5
P -3 -1 -1 7
Son mas sofisticados
A 0 1 0 -1 4
Los scores tienen en
G -3 0 -2 -2 0 6
cuenta informacion
N -3 1 0 -2 -2 0 5
biolgica
D -3 0 -1 -1 -2 -1 1 6
.
.
Matrices de substitucin
Los amino cidos tienen diferentes propiedes
bioqumicas y fsican que condicionan su capacidad de ser
sustituidos en la evolucin.
Las matrices de substitucin representan:

o propabilidades de substitucin mutua
o probabilidades de ocurrencia de cada amino
Las matrices de substitucin ms usadas son:

o PAM
o BLOSUM
Matriz BLOSUM
(Block substitution matrix)
A
Derivada de alineamientos locales de protenas distantes, con A
un mximo del 62% de similaridad total. (Henikoff & Henikoff,1992)
C.
E
C
A
A
C
E
C
Las secuencias dentro de los bloques se agruparon segn su nivel de

identidad
Se contaron las ocurrencias de cada par
A-C =4
de aa en cada columna del alineamiento A-E =2
del bloque. C-E =2
A-A =1
Los conteos derivados de todos los bloques C-C =1
se utilizaron para calcular las matrices BLOSUM.
Matriz BLOSUM
(Block substitution matrix)
Importante
Cada matriz BLOSUM utiliza un porcentaje de identidad

diferente en la creacin de los agrupamientos de secuencias.
El nmero del nombre de la matriz (e.g. 62 BLOSUM62) se

refiere al porcentaje mximo de identidad entre las
secuencias utilizadas para construir la matriz
Nmeros grandes indican una menor distancia evolutiva

Matrices PAM
(Percent Accepted Mutations)
Derivada de alineamientos globales de familias de protenas
conocidas. Los miembros de cada familia tienen como
mnimo un 85% de similaridad. (Dayhoff et al., 1978).
Con esos alineamientos se construyeron rboles

filogenticos e identific el ancestro de cada familia de
proteinas.
Se calcul el nmero de cambios necesario para cada

cambio de amino cido.
Matrices PAM
(Percent Accepted Mutations)
El nmero de cambios obtenidos se us para clacular la

matriz PAM-.
La matriz PAM-1 matrix reflects an average change of 1% of

all amino acid positions. PAM matrices for larger evolutionary
distances can be extrapolated from the PAM-1 matrix.
PAM250 = 250 mutations per 100 residues.

!
.
Greater numbers mean bigger evolutionary distance
PAM 250
A R N D C
C Q E G H I L K M F P S T WY
W V B Z
A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1
R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2
N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3
D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4
C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4
Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5
E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5
G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1
H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3
I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1
L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1
K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2
M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0
F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4
P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1
S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1
T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1
W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4
W
Y -3 -4 -2 -4
-8
0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3
17
0 10 -2 -2 -3
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0
B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5
Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6
PAM250 = 250 mutations per 100

residues.!
Scoring Alignments and Substitution
Matrices
BLOSUM 62 PAM 120
[ Understanding Bioinformatics , M. Zvelebil, J. O. Baum]

Cuando usar cada matriz
Las matrices BLOSUM funcionan mejor que las PAM para
alineamientos locales.
Cuando se comparan proteinas muy cercanas se debera

usar una PAM baja o una BLOSUM alta. Al revs para
protenas muy distantes.
BLOSUM 62
PAM 120
BLOSUM 80 BLOSUM 45
PAM 1 PAM 250
Secuencias Secuencias ms
menos divergentes divergentes
Trminos importantes
Identidad: posiciones en el alineamiento

que tienen el mismo aa o nucletido
Similaridad: Se aplica a secuencias de aa.

Son las posiciones que presentan
sustituciones por amino acido con
propiedades similares.
Penalizacin por gap: inserciones y
delecciones
A T G T A A T G C A
T A T G T G G A A T G A
A T G T - - A A T G C A
T A T G T G G A A T G A
insercin / deleccin
La creacin de un gap se penaliza con un score negativo

Porqu penalizar los Gaps?
Match = 5
Mismatch = -4
Gaps no permitidos Score: 0

1 GTGATAGACACAGACCGGTGGCATTGTGG 29
||| | | ||| | || || |
1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29
Gaps permitidos pero no penalizados Score: 88
1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29
||| || | | | ||| || | | || || |
1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29
Porqu penalizar los Gaps?
Un alineamiento OPTIMO es aquel que:
maximiza el nmero de coincidencias

minimiza el nmero de gaps
Tipos de penalizacin por Gap
Hay varios aspectos que pueden penalizarse cuando se
crea un gap (l) de longitud l
penalizacin por apertura de gap (d)

penalizacin por extensin del gap (e)
longitud del gap (l)
podemos penalizar todos

(l) = - ld
los gaps por igual. Gap lineal
podemos penalizar mas la apertura

del gap y menos su extension. Gap (l) = -d (l -1)e
afn
Ejemplo de como puntuar una
insercin y una deleccin
Affine gap penalty score: A T G T T A T A C
(l) = -d (l -1)e T A T G T G C G T A T A
A T G T - - - T A T A C
T A T G T G C G T A T A
insertion / deletion
Gap parameters:
d=3 (apertura de gap)
e = 0.1 (extensin gap) Total Score: 8 - 3.2 = 4.8
l=3 (longitud del gap) Total Score: 4
(l) = -3 - (3 -1) 0.1 = -3.2
Efecto de la modificacin de la
penalizacin por gap
(g) = -d - (g -1)e
apertura gap = 3 1 ...VLSPADKFLTNV 12
extensin gap = 0.1 ||||
score = 6.3 1 VFTELSPAKTV.... 11
apertura gap = 0 1 V...LSPADKFLTNV 12

extensin gap = 0.1 | |||| | | |
score = 11.3 1 VFTELSPA.K..T.V 11
a pares
Mtodos de alineamiento de
secuencias a pares
Matriz de puntos
Programacin dinmica
Mtodos de longitud de palabra
(k-tuple FASTA and BLAST)
a pares: Matriz de puntos
Dotplot: La matriz de puntos
Cada secuencia se coloca en un
eje
Se coloca un punto en aquellas Secuencia 1

intersecciones donde coincidan
las letras en las dos secuencias. A G C T A G G A!
G!
Se buscan puntos consecutivos !
A!
en la matriz y se unen formando
!
diagonales C!
!
Cada diagonal es un T!
!
alineamiento sin huecos
A!
!
Da una visin de todos los G!
posibles alineamientos entre las !
G!
dos secuencias !
C!
1970 by A.J. Gibbs and G.A.McIntyre

Deslizamiento de Ventana
Parmetros
Word Size
Window / Stringency
Para evitar emparejamientos al azar hay que filtrar las

coincidencias (word size)
Se pintar un punto en la matriz solo cuando se cumpla el

nmero mnimo de coincidencias (estringencia)
Tamao de ventana para proteinas =4, ADN=11 (ventana)

Tamao de ventana
T A C G G T A T G
Word Size = 3
A C A G T A T C
C
T A C G G T A T G
T
A C A G T A T C
A
T A C G G T A T G T
G
A C A G T A T C
A
T A C G G T A T G C
A C A G T A T C A
T A C G G T A T G
Tamao de ventana/estringencia
T A C G G T A T G Window = 5 / Stringency = 4
T C A G T A T C
C
T A C G G T A T G

T C A G T A T C T
A
T A C G G T A T G
T

T C A G T A T C G
A
T A C G G T A T G C
A
T C A G T A T C
T A C G G T A T G
Efecto de los parmetros
Comparacin de una secuencia consigo misma
matriz de puntos muy matriz de puntos poco

estringente estringente
Ejemplos
Insercin
Dos secuencias
lejanamente
homlogas
Duplicacin en
Una inversion tandem
Puntos a tener en cuenta
El uso de tamao de ventana con estringencia es mas
sensible al permitir ambigedades.
Las ventanas de mayor tamaa reduce la posiblidad de

detectar secuencias cortas (pros/cons)
Inserciones/delecciones no se tratan de forma

especfica
a pares: programacin
dinmica
Manhattan Tourist Problem (MTP)
Los turistas tienen que conseguir ver

el mayor nuero de atracciones
Solo pueden ir al sur y al este
Como conseguir ver el mayor

nmero de atracciones?
Imagina buscar un
camino (desde
Origen
origen hasta fin) * *
que permita ver el
mayor numero de * * *
atracciones (*) (solo
se puede ir hacia el * *
*
sur y al este)
*
* * *Final
Imagina buscar un
camino (desde
Origen
origen hasta fin) * *
que permita ver el
mayor numero de * * **
atracciones (*) (solo
se puede ir hacia el * *
*
sur y al este)
*
* * *Final
Programacin dinmica (PD)
La solucin est en la PD
1 - Dividir el problema en subproblemas ms
pequeos.
2 - Resolver estos problemas de manera ptima

usando este proceso de tres pasos recursivamente.
3 - Usar estas soluciones ptimas para construir una

solucin ptima al problema original.
Programacin dinmica
Para un par de secuencias hay una gran cantidad
de alineamientos posibles.
2 secuencias de longitud 1000 pueden dar lugar a

aproximadamente 10600 alineamientos diferentes
actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaag
taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
Programacin dinmica (PD)
Procedimiento automtico que encuentra

el mejor alineamiento entre dos
secuencias con un score ptimo segn los
parmetros seleccionados
Algoritmo de Needleman & Wunsch

- Alineamiento Global -
Algoritmo Smith & Waterman

- Alineamiento Local -
Needleman & Wunsch
(alineamiento global)
Secuencia 1: H EA GAW G H E E
Secuencia 2: PAW H EA E
Parmetros de scoring: BLOSUM50 matrix

Penalizacin por gap: Linear gap penalty of 8
Pasos bsicos de un algoritmo
basado en PD
1- Inicializacin de la matriz de alineamiento

2- Rellenar la matriz
3- Rastrear el mejor alineamiento (Backtracking
evaluacin del path ptimo)
basado en PD
1- Inicializacin de la matriz de alineamiento

o colocar una secuencia en cada eje
o Colocar un score cero en la esquina superior
izquierda
o Rellenar la primera fila y columna con las
penalizaciones por gap
Inicializacin de la matriz
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80
P -8
i= posicin de la secuencia 1
A -16 j= posicin de la secuencia 2
d = penalizacin por gap (8)
W -24 condiciones de frontera
F(i, 0) = -i d
H -32
F(j, 0) = -j d
E -40
A -48
E -56
From Durbin, Eddy, Krogh and Mitchison. Biological Sequence Analysis. ISBN:0521629713
basado en PD
1- Rellenar los scores de la matriz de alineamiento
o Elegir el mximo de tres posibilidades
Movimiento vertical: M. Score + p. gap

Movimiento horizontal: M. Score + p. gap
Movimiento diagonal: M. Score + coincidencia/no coincidencia score
F(i, j) = F(i-1, j-1) + s(xi ,yj)

F(i, j) = max F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d
F(i, j) F(i, j)
From Durbin, Eddy, Krogh and Mitchison.

F(i,,j) max F(i, j)
Biological Sequence Analysis. ISBN:0521629713
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80
P -8 -2 -9 F(i, j) = F(i-1, j-1) + s(xi ,yj) P-H=-2

F(i, j) = max F(i, j) = F(i-1, j) - d
E-P=-1
A -16 -10 -3 F(i, j) = F(i, j-1) - d
H-A=-2
W -24 F(0,0) + s(xi ,yj) = 0 -2 = -2
E-A=-1
F(1,1) = max F(0,1) d = -8 -8= -16 = -2
H -32 F(1,0) d = -8 -8= -16
E -40 F(1,0) + s(xi ,yj) = -8 -1 = -9

F(2,1) = max F(1,1) d = -2 -8 = -10 = -9
A -48 F(2,0) - d = -16 -8= -24
E -56 -8 -2 = -10 -2 -1 = -3
F(1,2) = max -16 -8 = -24 = -10 F(2,2) = max -10 -8 = -18 = -3
-2 -8 = -10 -9 -8 = -17
From Durbin, Eddy, Krogh and Mitchison. Biological Sequence Analysis. ISBN:0521629713
basado en PD
3- Rastrear el mejor alineamiento (Backtracking

evaluacin del path ptimo)
o La puntuacin de alineamiento ptimo
la encontramos en la esquina inferior derecha
o Para reconstruir el alineamiento ptimo
seguimos los scores mximos en cada paso hasta llegar
al origen
Backtracking From Durbin. ISBN:0521629713
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80
P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73
A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60
W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37
H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19
E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5
A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2
E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

1
Optimal global alignment: HEAG AWGHE- E
--P- AW-HEA E
Smith and Waterman
(local alignment) From Durbin. ISBN:0521629713
Dos diferencias:
0
F(i, j) = F(i-1, j-1) + s(xi ,yj)
1. F(i, j) = max F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d
2. En este caso un alineamiento puede empezar en

cualquier sitio en la matriz
Example:
Sequence 1 HEAGAWGHEE
Sequence 2 PAW H EAE
Scoring parameters: BLOSUM50 matrix

Gap penalty: Linear gap penalty of 8
Smith Waterman
H E A G A W G H E E
0 0 0 0 0 0 0 0 0 0 0
P 0 0 0 0 0 0 0 0 0 0 0
A 0 0 0 5 0 5 0 0 0 0 0
W 0 0 0 0 2 0 20 12 4 0 0
H 0 10 2 0 0 0 12 18 22 14 6
E 0 2 16 8 0 0 4 10 18 28 20
A 0 0 8 21 13 5 0 4 10 20 27
E 0 0 6 13 18 12 4 0 4 16 26
Optimal local alignment: A WGH E

A W-H E
Tema 1: Introduccin a la informtica
Qu hemos visto en este

tema?
Introduccin
Para que sirven las comparaciones de
secuencias
Conceptos bsicos de alineamientos
o Similaridad y homologa
o Scoring de secuencias de ADN y proteinas
o Matrices de substitucin
o Penalizaciones por gap
Mtodos de alineamiento de
secuencias a pares
Matriz de puntos
tamao de ventana y estringencia
efecto de los parmetros
Programacin dinmica
Concepto
Needleman & Wunsch
Smith & Waterman
Mtodos de longitud de palabra
(k-tuple)
Blast
Matriz de puntos para comparar
protenas
Score = 11 Scoring Matrix Filtering
PTHPLASKTQILPEDLASEDLTI Matrix: PAM250

PTHPLAGERAIGLARLAEEDFGM
Window = 12
Score = 11
Stringency = 9
PTHPLASKTQILPEDLASEDLTI

PTHPLAGERAIGLARLAEEDFGM En estos casos la puntuacin de
Score = 7 la ventana es la suma de valores
que se asigna a cada par de aa
PTHPLASKTQILPEDLASEDLTI segn una matriz de substitucin
PTHPLAGERAIGLARLAEEDFGM seleccionada por el usuario
Log-odds Ratio
Given a pair of aligned sequences, we want to assign a score that gives a measure
of the relative likelyhood that the sequences are related as opposed to being
unrelated.
x,y = amino acids (A,C......Y) P = likelyhood
i = 1....n (sequence of lenght n) q = probability
Random model P(x,y|R) =q q i

xi
i
yi
(unrelated) :
Match model (related) : P(x,y|M) =p xi yi

i
related P(x,y| p p
i
xi yi xi yi
Odds ratio :
unrelated = =
M)P(x,y| q q
R)
q q
i
xi
i
yi
i xi yi
p ab
Log-odds ratio : S = s(x ,y ) where : s(a,b) =
i i
i log q q a b
s(a,b) is the log likelyhood ratio of the residue pair (a,b)

occurring as an aligned pair, as opposed to an unaligned pair.
Cystic Fibrosis
Cystic fibrosis (CF) is a chronic and frequently fatal genetic
disease of the body's mucus glands. CF primarily affects the
respiratory systems in children.
If a high % of cystic fibrosis (CF) patients have a certain mutation

in the gene and the normal patients don t, then that could be an
indicator of a mutation that is related to CF
A certain mutation was found in 70% of CF patients, convincing

evidence that it is a predominant genetic diagnostics marker for
CF
Cystic Fibrosis and CFTR Gene :

Analisis de Secuencias I PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis de Secuencias I PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Tema 7:

Dadas dos secuencias (ADN o protena) quermos

Una comparacin de secuencias suele ser

Secuencias similares probablemente tengan la

Origen comn???..o solo parecidos

Mark Zuckerberg y Felipe IV

Due to 1 swapping an A for a T, causing inserted amino

Image source: http://www.cc.nih.gov/ccc/ccnews/nov99/

Dos secuencias pueden ser siempre alineadas.

Es necesario puntuar los alineamientos de las

A menudo hay mas de un alineamiento con la misma

Variaciones en el sistema de puntuacin darn lugar a

Un alineamiento muestra las similaridades y diferencias

Un alineamiento OPTIMO es aquel con el mayor

Secuencias muy similares probablemente tienen la

Dos secuencias slo son homlogas si derivan del

Cuando ms similares sean dos secuencias ms

CUIDADO una alta similaridad entre secuencias

Comparacin de secuencias en toda su longitud:

Muchos buenos alineamientos locales

Necesario el uso de medidas objetivas para puntuar.

Scoring: puntuacin numrica para cada

Penalizacin por Gap (hueco):

Valores negativos de puntuacin para penalizar las no coincidencias

Las matrices de substitucin representan:

Las matrices de substitucin ms usadas son:

Las secuencias dentro de los bloques se agruparon segn su nivel de

Cada matriz BLOSUM utiliza un porcentaje de identidad

El nmero del nombre de la matriz (e.g. 62 BLOSUM62) se

Nmeros grandes indican una menor distancia evolutiva

Con esos alineamientos se construyeron rboles

Se calcul el nmero de cambios necesario para cada

El nmero de cambios obtenidos se us para clacular la

La matriz PAM-1 matrix reflects an average change of 1% of

PAM250 = 250 mutations per 100 residues.

PAM250 = 250 mutations per 100

BLOSUM 62 PAM 120

[ Understanding Bioinformatics , M. Zvelebil, J. O. Baum]

Cuando se comparan proteinas muy cercanas se debera

Identidad: posiciones en el alineamiento

Similaridad: Se aplica a secuencias de aa.

La creacin de un gap se penaliza con un score negativo

Gaps no permitidos Score: 0

Gaps permitidos pero no penalizados Score: 88

Un alineamiento OPTIMO es aquel que:

maximiza el nmero de coincidencias

penalizacin por apertura de gap (d)

podemos penalizar todos

podemos penalizar mas la apertura

apertura gap = 0 1 V...LSPADKFLTNV 12

Se coloca un punto en aquellas Secuencia 1

1970 by A.J. Gibbs and G.A.McIntyre

Para evitar emparejamientos al azar hay que filtrar las

Se pintar un punto en la matriz solo cuando se cumpla el

Tamao de ventana para proteinas =4, ADN=11 (ventana)

matriz de puntos muy matriz de puntos poco

Las ventanas de mayor tamaa reduce la posiblidad de

Inserciones/delecciones no se tratan de forma

Los turistas tienen que conseguir ver

Solo pueden ir al sur y al este

Como conseguir ver el mayor

2 - Resolver estos problemas de manera ptima

3 - Usar estas soluciones ptimas para construir una