Documente Academic
Documente Profesional
Documente Cultură
Alinhamento de sequncias
O alinhamento de sequncias consiste no processo de comparar duas ou mais sequncias (de
nucleotdeos ou aminocidos) de forma a se observar seu nvel de similaridade. Pode ser
utilizado para comparar strings, por exemplo.
Por exemplo, com a sequncia ATGCACC e a sequencia CACG existem vrios tipos de
alinhamentos que podem ser realizados:
A T G C A C C
- - C A C G -
A T G C A C C
C - A C - G -
A T G C A C C
- - - C A C G
A T G C A C C
C A - - - C G
Criou-se uma estratgia para o melhor alinhamento. Quando queremos alinhar duas
sequencias, normalmente queremos achar a melhor posio possvel de cada nucleotdeo ou
cdon. Ento porque no priorizar essa estratgia? Para isso, toda vez que tivermos o
alinhamento entre duas bases iguais (match) a sua pontuao ser mais alta do que quando
alinharmos duas bases diferentes (mismatch) ou quando no alinharmos (gap).
Para os exemplos acima, qual seria o de maior pontuao se utilizar a pontuao: match=+2,
mismatch=-1 e gap=-2? Pontuao mais negativa para gaps.
A T G C A C C Pontuao
- - C A C G -
-2 -2 -1 -1 -1 -1 -2 -10
A T G C A C C Pontuao
C - A C - G -
-1 -2 -1 +2 -2 -1 -2 -7
A T G C A C C Pontuao
- - - C A C G
-2 -2 -2 +2 +2 +2 -1 -1
A T G C A C C Pontuao
C A - - - C G
-1 -1 -2 -2 -2 +2 -1 -7
Fase de inicializao:
A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2
A -4
C -6
G -8
Qual a melhor pontuao para a clula em destaque: Alinhar entre C e A, no alinhar vindo da
sequencia 1 ou no alinhar vindo da sequencia 2?
A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2
A -4
C -6
G -8
E a prxima?
A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2 -1
A -4
C -6
G -8
Vindo da diagonal: -2 + 2 = 0
A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2 -1
A -4 0
C -6
G -8
Completando a tabela (pode haver escolhas que empatem. Basta escolher seu valor):
A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2 -1 -3 -5 -4 -6 -8 -10
A -4 0 -2 -4 -6 -2 -4 -6
C -6 -2 -1 -3 -2 -4 0 -2
G -8 -4 -3 1 -1 -3 -2 -1
Ento temos que o melhor alinhamento entre as duas sequencia produz uma pontuao tima
de -1. Como ele composto por vrias subestruturas timas, ento podemos ter vrios
alinhamentos que nos levam a soluo tima. Como recuper-las? Basta anotar qual o
caminho voc tomou ao longo do algoritmo, se vindo da esquerda ou da direita ou diagonal,
e reconstruir de trs para frente. No exemplo abaixo temos um subalinhamento timo.
A T G C A C C Pontuao
- - - C A C G
-2 -2 -2 +2 +2 +2 -1 -1
E como iremos reconstruir os alinhamentos locais? Temos que mudar o algoritmo de
Needleman-Wunsch (chamado de algoritmo de SmithWaterman):
A T G C A C C
0 0 0 0 0 0 0 0
C 0 0 0 0 2 0 2 2
A 0 2 0 0 0 4 2 1
C 0 0 1 0 2 2 6 4
G 0 0 0 3 1 0 4 5
Existem um modelo que pode ser feito atravs da quantificao da expresso de cada gene. A
gerao destes dados pode ser feita atravs da tcnica de RNA-Seq, que gera os dados dos
transcritos expressos em determinadas condies.
Quando conhecemos o organismo estudado fica mais fcil conseguir seu genoma e um
arquivo GTF, que mostra as posies de todos os genes, mRNAs , xons e introns do
organismo. Os passos so:
[Martin,J.A et al 2011)
Vantagens:
Pode montar transcritos de baixa abundncia;
Pode usar computao paralela
Pode ser feita em mquinas com poucos Gb de RAM;
Descobrir novos transcritos que no esto em anotaes j existentes;
Desvantagens:
No possvel sem um genoma de referncia;
Depende da qualidade do genoma de referncia ;
Genomas podem no ser completos, ter regies no agrupadas e parcialmente
montadas.
2. Montagem de novo
Vantagens:
No depende de um genoma de referncia;
Pode providenciar um novo conjunto de dados de transcritos para genomas que no
apresenta alta qualidade;
Pode ser usado para encontrar transcritos exgenos ou que esto faltando no genoma;
No influenciado por longos introns
Desvantagens:
A montagem de organismos eucariotos complexos pode consumir muita memria
RAM
Grande quantidade de dados
Complexidade dos grficos de Brujin nescessrios para analizar os possveis splicings
Consome dias ou semanas de processamento
Exige maior cobertura
Suscetvel a erros de leitura, pode no diferenciar um erro do sequenciamento de um
splicing
Utilizao do RNA-Seq:
Curiosidades:
Todas as redes, incluindo redes biolgicas, redes sociais, redes tecnolgicas (por
exemplo, redes de computadores e circuitos eltricos) e outras, podem ser representadas
na forma de grafos, que incluem uma ampla variedade de subgrafos. Um local propriedade
importante das redes so os chamados network motifs, que so definidos como subgrafos
ou padres recorrentes e estatisticamente significativos.
Network motifs so subgrafos que se repetem em uma rede especfica ou mesmo entre
diferentes redes. Cada uma destas subgrafos, definidos por um determinado padro de
interaes entre vrtices, podem refletir um quadro em que funes especficas quando
alcanadas de forma eficiente. Na verdade, os motifs so de grande importncia, em
grande parte porque eles podem refletir propriedades funcionais. Embora network motifs
possam fornecer uma viso profunda sobre caractersticas funcionais da rede, sua
deteco um desafio computacionalmente.
Exemplos de subgrafos k-motifs. Cada um pode causar uma funo diferente a rede.
3. BLAST
Em bioinformtica, BLAST (Basic Local Alignment Search Tool), como o nome mesmo
diz, uma ferramenta de busca de alinhamentos locais. Ele um algoritmo para comparar
informaes de sequencia biolgica primria, tais como as sequncias de aminocidos de
protenas diferentes ou os nucletidos de sequncias de DNA. Uma pesquisa BLAST permite
que um pesquisador compare uma sequncia que ele deseja com uma biblioteca ou banco de
dados de sequncias, e identificar as sequncias desse banco que se assemelham a sequncia
de consulta, acima de certo limite de identidade.
Tipos de BLAST:
4. METAGENMICA
A metagenmica se tornou uma das ferramentas de bioinformtica
indispensveis na biologia microbiolgica nas ultimas duas dcadas, e uma nova
revoluo nos estudos de metagenmica est prestes a comear, com a ajuda dos
recentes avanos nas tcnicas de sequenciamento. A produo massiva de dados e
a reduo substancial de custos no sequenciamento de nova gerao levaram a um
rpido crescimento em pesquisas de metagenmica tanto quantitativamente
quanto qualitativamente. evidente que a metagenmica ser uma ferramenta
essencial no estudo da diversidade e da funo dos microbiomas no futuro, como
os mtodos de impresso digital tem feito at hoje. Ao passo que a velocidade de
acmulo de dados aumenta, ferramentas de bioinformtica e bancos de dados
associados para lidar com toda essa quantidade de dados so necessrios. (Kim M,
Lee KH et. al 2013).