Sunteți pe pagina 1din 71

Tema 7:

Comparacin de Secuencias
Fundamentos de Informtica y Bioinformtica en
Biotecnologa

Curso 2015/2016
Departamento de Ciencias de la Computacin e
Inteligencia Artificial
ndice
Introduccin
Tipos de alineamientos
Puntuacin de alineamientos
Mtodos de alineamientos de secuencias a
pares
dot plot
programacin dinmica
blast (k-tuple)
Comparacin de secuencias
biolgicas

Dadas dos secuencias (ADN o protena) quermos


saber si se parecen o no

Seq 1:
actaccagttcatttgatacttctcaaa
Seq 2:
taccattaccgtgttaactgaaaggacttaaagact
Para que queremos comparar
secuencias?

La base biolgica:
Muchos genes y protenas son miembros de familias que
tienen una funcin similar o un origen comn en su
evolucin.

Una comparacin de secuencias suele ser


el punto de inicio para llevar a cabo otro
tipo de experimentos
Identificacin de funciones

Secuencias similares probablemente tengan la


misma funcin
Finding informative elements
Gene annotation
Encontrar motivos
Estudios evolutivos
Si las secuencias son similares, tienen entonces un

Origen comn???..o solo parecidos


razonables

Mark Zuckerberg y Felipe IV

http://www.muyinteresante.es/ciencia/articulo/por-que-los-gemelos-identicos-se-vuelven-diferentes-a-medida-que-crecen-941368178627
Alineamiento de secuencias
actaccagttcatttgatacttctcaaa
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact

Sequence 1 actaccagttcatttgatacttctcaaa
Sequence 2 taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Sickle Cell Anemia

Due to 1 swapping an A for a T, causing inserted amino


acid to be valine instead of glutamine in hemoglobin

Image source: http://www.cc.nih.gov/ccc/ccnews/nov99/


10
Alineamiento de secuencias
Hay muchos posibles alineamientos entre dos
secuencias.

Dos secuencias pueden ser siempre alineadas.

Es necesario puntuar los alineamientos de las


secuencias para obtener la calidad de los mismos

A menudo hay mas de un alineamiento con la misma


puntuacin.

Variaciones en el sistema de puntuacin darn lugar a


un ranking de alineamientos diferente.
Alineamiento de Secuencias

Un alineamiento muestra las similaridades y diferencias


entre las dos secuencias.

Un alineamiento OPTIMO es aquel con el mayor


nmero de correspondencias y el menor nmero de
diferencias.

Secuencias muy similares probablemente tienen la


misma funcin
Similaridad y Homologa
A diferencia de la similitud, la homologa no es un
trmino cuantitativo.

Dos secuencias slo son homlogas si derivan del


mismo ancestro.

Cuando ms similares sean dos secuencias ms


similares tendern a ser las funciones codificadas por
ellas.

CUIDADO una alta similaridad entre secuencias


puede deberse simplemente al azar (en las
secuencias cortas, Barden vs Morgan por ejemplo).
Tipos de Alineamientos

Mtodo Uso
Comparacin de secuencias con homologa parcial:
Realizacin de alineamientos de alta calidad
Alineamientos Locales Anlisis residuo a residuo

Comparacin de secuencias en toda su longitud:


Comprobar la calidad de los datos
iden8cacin de mutaciones en secuencias.
Alineamientos Globales
Alineamiento Global vs Local
Alineamiento de secuencias
a pares: conceptos bsicos
Dos secuencias pueden
Tener un alineamiento Global

1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67
|||||||||||||| | | | |||| || | | | ||
1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70

Muchos buenos alineamientos locales

14 TCAGAAGCAGCTAAAGCGT 32 39 AGGATTGGAAT 49
||||||||| ||||||||| |||||||||||
42 TCAGAAGCA.CTAAAGCGT 59 1 AGGATTGGAAT 11

62 AGACCG 67
1 AGGATTGGAATGCT 14 ||||||
|||||||||||||| 66 AGACCG 71
1 AGGATTGGAATGCT 14
Sistemas de puntuacin de
alineamientos

Como podemos
averiguarlo?

Necesario el uso de medidas objetivas para puntuar.

Scoring: puntuacin numrica para cada


emparejamiento de smbolos

Penalizacin por Gap (hueco):


o Apertura de Gap
o Extensin del Gap
Scoring de alineamientos
de ADN

Secuencia 1 actaccagttcatttgatacttctcaaa

Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact

A G C T Match: 1
Mismatch: 0
A 1 0 0 0 Score = 5
G 0 1 0 0
C 0 0 1 0
T 0 0 0 1
Scoring de alineamientos
de ADN

Secuencia 1 actaccagttcatttgatacttctcaaa

Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact

Valores negativos de puntuacin para penalizar las no coincidencias


pueden mejorar el score del alineamiento.

A T C G Matches: 5
A 5 -4 -4 -4 Mismatches: 19

T -4 5 -4 -4 Score: 5 x 5 + 19 x (-4) = - 51
C -4 -4 5 -4
G -4 -4 -4 5
Scoring de alineamientos
de protenas
Variaciones en el grado de similaridad de los AAs
vara en funcin de:

o De su estructura
o similaridad fsico-qumica
Scoring de alineamientos
de protenas
Secuencia 1 PTHPLASKTQILPEDLASEDLTI
Secuenciae 2 PTHPLAGERAIGLARLAEEDFGM

Scoring
matrix
C S T P A G N D . . T:G = -2
C 9 T:T = 5
S -1 4 Score = 48
T -1 1 5
P -3 -1 -1 7
Son mas sofisticados
A 0 1 0 -1 4
Los scores tienen en
G -3 0 -2 -2 0 6
cuenta informacion
N -3 1 0 -2 -2 0 5
biolgica
D -3 0 -1 -1 -2 -1 1 6
.
.
Matrices de substitucin
Los amino cidos tienen diferentes propiedes
bioqumicas y fsican que condicionan su capacidad de ser
sustituidos en la evolucin.

Las matrices de substitucin representan:


o propabilidades de substitucin mutua
o probabilidades de ocurrencia de cada amino

Las matrices de substitucin ms usadas son:


o PAM
o BLOSUM
Matriz BLOSUM
(Block substitution matrix)
A
Derivada de alineamientos locales de protenas distantes, con A
un mximo del 62% de similaridad total. (Henikoff & Henikoff,1992)
C.
E
C
A
A
C
E
C

Las secuencias dentro de los bloques se agruparon segn su nivel de


identidad
Se contaron las ocurrencias de cada par
A-C =4
de aa en cada columna del alineamiento A-E =2
del bloque. C-E =2
A-A =1
Los conteos derivados de todos los bloques C-C =1
se utilizaron para calcular las matrices BLOSUM.
Matriz BLOSUM
(Block substitution matrix)
Importante

Cada matriz BLOSUM utiliza un porcentaje de identidad


diferente en la creacin de los agrupamientos de secuencias.

El nmero del nombre de la matriz (e.g. 62 BLOSUM62) se


refiere al porcentaje mximo de identidad entre las
secuencias utilizadas para construir la matriz

Nmeros grandes indican una menor distancia evolutiva


Matrices PAM
(Percent Accepted Mutations)
Derivada de alineamientos globales de familias de protenas
conocidas. Los miembros de cada familia tienen como
mnimo un 85% de similaridad. (Dayhoff et al., 1978).

Con esos alineamientos se construyeron rboles


filogenticos e identific el ancestro de cada familia de
proteinas.

Se calcul el nmero de cambios necesario para cada


cambio de amino cido.
Matrices PAM
(Percent Accepted Mutations)

El nmero de cambios obtenidos se us para clacular la


matriz PAM-.

La matriz PAM-1 matrix reflects an average change of 1% of


all amino acid positions. PAM matrices for larger evolutionary
distances can be extrapolated from the PAM-1 matrix.

PAM250 = 250 mutations per 100 residues.


!
.
Greater numbers mean bigger evolutionary distance
PAM 250
A R N D C
C Q E G H I L K M F P S T WY
W V B Z
A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1
R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2
N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3
D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4
C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4
Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5
E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5
G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1
H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3
I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1
L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1
K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2
M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0
F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4
P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1
S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1
T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1
W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4
W
Y -3 -4 -2 -4
-8
0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3
17
0 10 -2 -2 -3
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0
B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5
Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

PAM250 = 250 mutations per 100


residues.!
Scoring Alignments and Substitution
Matrices

BLOSUM 62 PAM 120

[ Understanding Bioinformatics , M. Zvelebil, J. O. Baum]


Cuando usar cada matriz
Las matrices BLOSUM funcionan mejor que las PAM para
alineamientos locales.

Cuando se comparan proteinas muy cercanas se debera


usar una PAM baja o una BLOSUM alta. Al revs para
protenas muy distantes.

BLOSUM 62
PAM 120
BLOSUM 80 BLOSUM 45
PAM 1 PAM 250

Secuencias Secuencias ms
menos divergentes divergentes
Trminos importantes

Identidad: posiciones en el alineamiento


que tienen el mismo aa o nucletido

Similaridad: Se aplica a secuencias de aa.


Son las posiciones que presentan
sustituciones por amino acido con
propiedades similares.
Penalizacin por gap: inserciones y
delecciones
A T G T A A T G C A

T A T G T G G A A T G A

A T G T - - A A T G C A

T A T G T G G A A T G A

insercin / deleccin

La creacin de un gap se penaliza con un score negativo


Porqu penalizar los Gaps?
Match = 5
Mismatch = -4

Gaps no permitidos Score: 0


1 GTGATAGACACAGACCGGTGGCATTGTGG 29
||| | | ||| | || || |
1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29

Gaps permitidos pero no penalizados Score: 88

1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29
||| || | | | ||| || | | || || |
1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29
Porqu penalizar los Gaps?

Un alineamiento OPTIMO es aquel que:

maximiza el nmero de coincidencias


minimiza el nmero de gaps
Tipos de penalizacin por Gap
Hay varios aspectos que pueden penalizarse cuando se
crea un gap (l) de longitud l

penalizacin por apertura de gap (d)


penalizacin por extensin del gap (e)
longitud del gap (l)

podemos penalizar todos


(l) = - ld
los gaps por igual. Gap lineal

podemos penalizar mas la apertura


del gap y menos su extension. Gap (l) = -d (l -1)e
afn
Ejemplo de como puntuar una
insercin y una deleccin
Affine gap penalty score: A T G T T A T A C
(l) = -d (l -1)e T A T G T G C G T A T A

A T G T - - - T A T A C

T A T G T G C G T A T A

insertion / deletion
Gap parameters:
d=3 (apertura de gap)
e = 0.1 (extensin gap) Total Score: 8 - 3.2 = 4.8
l=3 (longitud del gap) Total Score: 4
(l) = -3 - (3 -1) 0.1 = -3.2
Efecto de la modificacin de la
penalizacin por gap
(g) = -d - (g -1)e
apertura gap = 3 1 ...VLSPADKFLTNV 12
extensin gap = 0.1 ||||
score = 6.3 1 VFTELSPAKTV.... 11

apertura gap = 0 1 V...LSPADKFLTNV 12


extensin gap = 0.1 | |||| | | |
score = 11.3 1 VFTELSPA.K..T.V 11
Alineamiento de secuencias
a pares
Mtodos de alineamiento de
secuencias a pares

Matriz de puntos
Programacin dinmica
Mtodos de longitud de palabra
(k-tuple FASTA and BLAST)
Alineamiento de secuencias
a pares: Matriz de puntos
Dotplot: La matriz de puntos
Cada secuencia se coloca en un
eje

Se coloca un punto en aquellas Secuencia 1


intersecciones donde coincidan
las letras en las dos secuencias. A G C T A G G A!
G!
Se buscan puntos consecutivos !
A!
en la matriz y se unen formando
!
diagonales C!
!
Cada diagonal es un T!
!
alineamiento sin huecos
A!
!
Da una visin de todos los G!
posibles alineamientos entre las !
G!
dos secuencias !
C!

1970 by A.J. Gibbs and G.A.McIntyre


Deslizamiento de Ventana
Parmetros
Word Size

Window / Stringency

Para evitar emparejamientos al azar hay que filtrar las


coincidencias (word size)

Se pintar un punto en la matriz solo cuando se cumpla el


nmero mnimo de coincidencias (estringencia)

Tamao de ventana para proteinas =4, ADN=11 (ventana)


Tamao de ventana
T A C G G T A T G
Word Size = 3
A C A G T A T C
C
T A C G G T A T G
T
A C A G T A T C
A
T A C G G T A T G T
G
A C A G T A T C
A

T A C G G T A T G C
A C A G T A T C A

T A C G G T A T G
Tamao de ventana/estringencia

T A C G G T A T G Window = 5 / Stringency = 4
T C A G T A T C
C
T A C G G T A T G

T C A G T A T C T

A
T A C G G T A T G
T

T C A G T A T C G
A
T A C G G T A T G C
A
T C A G T A T C
T A C G G T A T G
Efecto de los parmetros
Comparacin de una secuencia consigo misma

matriz de puntos muy matriz de puntos poco


estringente estringente
Ejemplos
Insercin
Dos secuencias
lejanamente
homlogas

Duplicacin en
Una inversion tandem
Puntos a tener en cuenta
El uso de tamao de ventana con estringencia es mas
sensible al permitir ambigedades.

Las ventanas de mayor tamaa reduce la posiblidad de


detectar secuencias cortas (pros/cons)

Inserciones/delecciones no se tratan de forma


especfica
Alineamiento de secuencias
a pares: programacin
dinmica
Manhattan Tourist Problem (MTP)

Los turistas tienen que conseguir ver


el mayor nuero de atracciones

Solo pueden ir al sur y al este

Como conseguir ver el mayor


nmero de atracciones?
Manhattan Tourist Problem (MTP)

Imagina buscar un
camino (desde
Origen
origen hasta fin) * *
que permita ver el
mayor numero de * * *
atracciones (*) (solo
se puede ir hacia el * *
*
sur y al este)
*
* * *Final
Manhattan Tourist Problem (MTP)

Imagina buscar un
camino (desde
Origen
origen hasta fin) * *
que permita ver el
mayor numero de * * **
atracciones (*) (solo
se puede ir hacia el * *
*
sur y al este)
*
* * *Final
Programacin dinmica (PD)
La solucin est en la PD
1 - Dividir el problema en subproblemas ms
pequeos.

2 - Resolver estos problemas de manera ptima


usando este proceso de tres pasos recursivamente.

3 - Usar estas soluciones ptimas para construir una


solucin ptima al problema original.
Programacin dinmica
Para un par de secuencias hay una gran cantidad
de alineamientos posibles.

2 secuencias de longitud 1000 pueden dar lugar a


aproximadamente 10600 alineamientos diferentes

Secuencia 1 actaccagttcatttgatacttctcaaa
Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaag
actaccagttcatttgatacttctcaaa
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Programacin dinmica (PD)

Procedimiento automtico que encuentra


el mejor alineamiento entre dos
secuencias con un score ptimo segn los
parmetros seleccionados

Algoritmo de Needleman & Wunsch


- Alineamiento Global -

Algoritmo Smith & Waterman


- Alineamiento Local -
Needleman & Wunsch
(alineamiento global)
Secuencia 1: H EA GAW G H E E
Secuencia 2: PAW H EA E

Parmetros de scoring: BLOSUM50 matrix


Penalizacin por gap: Linear gap penalty of 8
Pasos bsicos de un algoritmo
basado en PD

1- Inicializacin de la matriz de alineamiento


2- Rellenar la matriz
3- Rastrear el mejor alineamiento (Backtracking
evaluacin del path ptimo)
Pasos bsicos de un algoritmo
basado en PD

1- Inicializacin de la matriz de alineamiento


o colocar una secuencia en cada eje
o Colocar un score cero en la esquina superior
izquierda
o Rellenar la primera fila y columna con las
penalizaciones por gap
Inicializacin de la matriz
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

P -8
i= posicin de la secuencia 1
A -16 j= posicin de la secuencia 2
d = penalizacin por gap (8)
W -24 condiciones de frontera
F(i, 0) = -i d
H -32
F(j, 0) = -j d
E -40

A -48

E -56

From Durbin, Eddy, Krogh and Mitchison. Biological Sequence Analysis. ISBN:0521629713
Pasos bsicos de un algoritmo
basado en PD
1- Rellenar los scores de la matriz de alineamiento
o Elegir el mximo de tres posibilidades

Movimiento vertical: M. Score + p. gap


Movimiento horizontal: M. Score + p. gap
Movimiento diagonal: M. Score + coincidencia/no coincidencia score

F(i, j) = F(i-1, j-1) + s(xi ,yj)


F(i, j) = max F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d
F(i, j) F(i, j)

From Durbin, Eddy, Krogh and Mitchison.


F(i,,j) max F(i, j)
Biological Sequence Analysis. ISBN:0521629713
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

P -8 -2 -9 F(i, j) = F(i-1, j-1) + s(xi ,yj) P-H=-2


F(i, j) = max F(i, j) = F(i-1, j) - d
E-P=-1
A -16 -10 -3 F(i, j) = F(i, j-1) - d
H-A=-2
W -24 F(0,0) + s(xi ,yj) = 0 -2 = -2
E-A=-1
F(1,1) = max F(0,1) d = -8 -8= -16 = -2

H -32 F(1,0) d = -8 -8= -16

E -40 F(1,0) + s(xi ,yj) = -8 -1 = -9


F(2,1) = max F(1,1) d = -2 -8 = -10 = -9
A -48 F(2,0) - d = -16 -8= -24

E -56 -8 -2 = -10 -2 -1 = -3
F(1,2) = max -16 -8 = -24 = -10 F(2,2) = max -10 -8 = -18 = -3
-2 -8 = -10 -9 -8 = -17

From Durbin, Eddy, Krogh and Mitchison. Biological Sequence Analysis. ISBN:0521629713
Pasos bsicos de un algoritmo
basado en PD

3- Rastrear el mejor alineamiento (Backtracking


evaluacin del path ptimo)
o La puntuacin de alineamiento ptimo
la encontramos en la esquina inferior derecha
o Para reconstruir el alineamiento ptimo
seguimos los scores mximos en cada paso hasta llegar
al origen
Backtracking From Durbin. ISBN:0521629713

H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73

A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60

W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37

H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19

E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5

A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2

E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1


1
Optimal global alignment: HEAG AWGHE- E
--P- AW-HEA E
Smith and Waterman
(local alignment) From Durbin. ISBN:0521629713

Dos diferencias:

0
F(i, j) = F(i-1, j-1) + s(xi ,yj)
1. F(i, j) = max F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d

2. En este caso un alineamiento puede empezar en


cualquier sitio en la matriz
Example:
Sequence 1 HEAGAWGHEE
Sequence 2 PAW H EAE

Scoring parameters: BLOSUM50 matrix


Gap penalty: Linear gap penalty of 8
Smith Waterman
H E A G A W G H E E
0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0 0 0

A 0 0 0 5 0 5 0 0 0 0 0

W 0 0 0 0 2 0 20 12 4 0 0

H 0 10 2 0 0 0 12 18 22 14 6

E 0 2 16 8 0 0 4 10 18 28 20

A 0 0 8 21 13 5 0 4 10 20 27

E 0 0 6 13 18 12 4 0 4 16 26

Optimal local alignment: A WGH E


A W-H E
Tema 1: Introduccin a la informtica

Qu hemos visto en este


tema?
Introduccin
Para que sirven las comparaciones de
secuencias
Conceptos bsicos de alineamientos
o Similaridad y homologa
o Scoring de secuencias de ADN y proteinas
o Matrices de substitucin
o Penalizaciones por gap
Mtodos de alineamiento de
secuencias a pares
Matriz de puntos
tamao de ventana y estringencia
efecto de los parmetros
Programacin dinmica
Concepto
Needleman & Wunsch
Smith & Waterman
Mtodos de longitud de palabra
(k-tuple)
Blast
Matriz de puntos para comparar
protenas
Score = 11 Scoring Matrix Filtering
PTHPLASKTQILPEDLASEDLTI Matrix: PAM250

PTHPLAGERAIGLARLAEEDFGM
Window = 12
Score = 11
Stringency = 9
PTHPLASKTQILPEDLASEDLTI

PTHPLAGERAIGLARLAEEDFGM En estos casos la puntuacin de
Score = 7 la ventana es la suma de valores
que se asigna a cada par de aa
PTHPLASKTQILPEDLASEDLTI segn una matriz de substitucin
PTHPLAGERAIGLARLAEEDFGM seleccionada por el usuario
Log-odds Ratio
Given a pair of aligned sequences, we want to assign a score that gives a measure
of the relative likelyhood that the sequences are related as opposed to being
unrelated.
x,y = amino acids (A,C......Y) P = likelyhood
i = 1....n (sequence of lenght n) q = probability

Random model P(x,y|R) =q q i


xi
i
yi
(unrelated) :

Match model (related) : P(x,y|M) =p xi yi


i

related P(x,y| p p
i
xi yi xi yi
Odds ratio :
unrelated = =
M)P(x,y| q q
R)
q q
i
xi
i
yi
i xi yi

p ab
Log-odds ratio : S = s(x ,y ) where : s(a,b) =
i i
i log q q a b

s(a,b) is the log likelyhood ratio of the residue pair (a,b)


occurring as an aligned pair, as opposed to an unaligned pair.
Cystic Fibrosis
Cystic fibrosis (CF) is a chronic and frequently fatal genetic
disease of the body's mucus glands. CF primarily affects the
respiratory systems in children.

If a high % of cystic fibrosis (CF) patients have a certain mutation


in the gene and the normal patients don t, then that could be an
indicator of a mutation that is related to CF

A certain mutation was found in 70% of CF patients, convincing


evidence that it is a predominant genetic diagnostics marker for
CF
Cystic Fibrosis and CFTR Gene :

S-ar putea să vă placă și