Sunteți pe pagina 1din 14

1.

Alinhamento de sequncias
O alinhamento de sequncias consiste no processo de comparar duas ou mais sequncias (de
nucleotdeos ou aminocidos) de forma a se observar seu nvel de similaridade. Pode ser
utilizado para comparar strings, por exemplo.

Existem alguns tipos de alinhamentos. Podemos ter o alinhamento simples, que


compara duas sequencias de DNA ou protenas, ou o alinhamento mltiplo, que tenta
encontrar o melhor alinhamento entre trs ou mais sequencias. Os alinhamentos globais
alinham as sequencias de ponta a ponta, enquanto os alinhamentos locais alinham apenas
pedaos das sequencias. Outros tipos de alinhamento so os alinhamentos timos, que
produzem o melhor resultado computacionalmente possvel e os alinhamentos heursticos,
que produzem o resultado mais prximo possvel do resultado timo, mas, principalmente,
produz um resultado de maneira muito veloz.

Por exemplo, com a sequncia ATGCACC e a sequencia CACG existem vrios tipos de
alinhamentos que podem ser realizados:

A T G C A C C
- - C A C G -

A T G C A C C
C - A C - G -

A T G C A C C
- - - C A C G

A T G C A C C
C A - - - C G

Existem , no caso acima com n=7 e m=4, tipos


diferentes de alinhamentos entre as duas sequencias. Mas o detalhe : COMO ENCONTRAR O
ALINHAMENTO TIMO?

Criou-se uma estratgia para o melhor alinhamento. Quando queremos alinhar duas
sequencias, normalmente queremos achar a melhor posio possvel de cada nucleotdeo ou
cdon. Ento porque no priorizar essa estratgia? Para isso, toda vez que tivermos o
alinhamento entre duas bases iguais (match) a sua pontuao ser mais alta do que quando
alinharmos duas bases diferentes (mismatch) ou quando no alinharmos (gap).

Para os exemplos acima, qual seria o de maior pontuao se utilizar a pontuao: match=+2,
mismatch=-1 e gap=-2? Pontuao mais negativa para gaps.
A T G C A C C Pontuao
- - C A C G -
-2 -2 -1 -1 -1 -1 -2 -10

A T G C A C C Pontuao
C - A C - G -
-1 -2 -1 +2 -2 -1 -2 -7

A T G C A C C Pontuao
- - - C A C G
-2 -2 -2 +2 +2 +2 -1 -1

A T G C A C C Pontuao
C A - - - C G
-1 -1 -2 -2 -2 +2 -1 -7

Podemos notar que entre os alinhamentos citados acima o melhor o de pontuao -


1. Mas ser que ele timo? Para isso temos que realizar todos os alinhamentos possveis e
calcular todas as pontuaes. Um trabalho e tanto no, meu jovem? Para isso temos o
algoritmo de algoritmo de Needleman-Wunsch. O algoritmo foi proposto na dcada
de 1970 por Saul Needleman e Christian Wunsch e realiza um alinhamento global
entre duas sequencias e verifica, ao seu final, qual a melhor pontuao. Existem
variaes deste algoritmo, inclusive para realizar alinhamentos locais.

O algoritmo se baseia no conceito de programao dinmica para otimizao


com suas principais caractersticas: subestrutura tima e superposio de
subproblemas. Um problema apresenta uma subestrutura tima (pontuao final do
alinhamento) quando uma soluo tima para o problema contm em seu interior
solues timas para subproblemas (esses subproblemas so os subalinhamentos
timos). Ento uma subsequncia de alinhamentos timos levaria a subestrutura
tima.

O algoritmo funciona da seguinte maneira: construmos uma matriz m x n,


sendo m o tamanho da sequencia A e n o da sequencia B, para que tenhamos
posies e . A primeira linha inicializada com o
valor_do_gap*i e a primeira coluna so incializadas com o valor_do_gap*j. Para um
melhor entendimento adotaremos que a similaridade entre os caracteres i e j.
Ento a otimizao ser baseada na escolha de cada posio :
Um exemplo de algortimo em pseudo-cdigo seria:

for i=0 to length(A)-1


P(i,0) gap*i
for j=0 to length(B)-1
P(0,j) gap*j
for i=1 to length(A)
for j = 1 to length(B)
{
Choice1 P(i-1,j-1) + S(A(i-1), B(j-1))
Choice2 P(i-1, j) + gap
Choice3 P(i, j-1) + gap
P(i,j) max(Choice1, Choice2, Choice3)
}

Representao na matriz e seus casos A, B ou C:

Vamos fazer o alinhamento global entre as sequencias do exemplo anterior: ATGCACC e


CACG. Pontuao: match=+2, mismatch=-1 e gap=-2.

Fase de inicializao:

A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2
A -4
C -6
G -8
Qual a melhor pontuao para a clula em destaque: Alinhar entre C e A, no alinhar vindo da
sequencia 1 ou no alinhar vindo da sequencia 2?

A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2
A -4
C -6
G -8

Vindo de cima: -2 + (-2) = -4

Vindo da esquerda: -2 + (-2) = -4 Melhor caso: vir da diagonal = -1

Vindo da diagonal: 0 + (-1 ) = -1

E a prxima?

A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2 -1
A -4
C -6
G -8

Vindo de cima: -1 + (-2) = -3

Vindo da esquerda: -4 + (-2) = -6 Melhor caso: vir da diagonal = 0

Vindo da diagonal: -2 + 2 = 0

A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2 -1
A -4 0
C -6
G -8
Completando a tabela (pode haver escolhas que empatem. Basta escolher seu valor):

A T G C A C C
0 -2 -4 -6 -8 -10 -12 -14
C -2 -1 -3 -5 -4 -6 -8 -10
A -4 0 -2 -4 -6 -2 -4 -6
C -6 -2 -1 -3 -2 -4 0 -2
G -8 -4 -3 1 -1 -3 -2 -1

Ento temos que o melhor alinhamento entre as duas sequencia produz uma pontuao tima
de -1. Como ele composto por vrias subestruturas timas, ento podemos ter vrios
alinhamentos que nos levam a soluo tima. Como recuper-las? Basta anotar qual o
caminho voc tomou ao longo do algoritmo, se vindo da esquerda ou da direita ou diagonal,
e reconstruir de trs para frente. No exemplo abaixo temos um subalinhamento timo.

Esse alinhamento igual ao fornecido inicialmente:

A T G C A C C Pontuao
- - - C A C G
-2 -2 -2 +2 +2 +2 -1 -1
E como iremos reconstruir os alinhamentos locais? Temos que mudar o algoritmo de
Needleman-Wunsch (chamado de algoritmo de SmithWaterman):

Iniciao: Toda com zeros

E na hora da reconstruo da sequencia comeamos pelo maior valor na matriz paramos a


reconstruo at encontrar uma posio com o valor 0.

A T G C A C C
0 0 0 0 0 0 0 0
C 0 0 0 0 2 0 2 2
A 0 2 0 0 0 4 2 1
C 0 0 1 0 2 2 6 4
G 0 0 0 3 1 0 4 5

O score do alinhamento local timo +6. Vamos a reconstruo:

Notamos que o melhor alinhamento local o representado acima.

Alinhamentos podem ser utilizados para reconstruo de contigs, representaes


filogenticas, identificao de funes, predio de estruturas moleculares, etc.
2. Redes biolgicas
As redes biolgicas mostram as interaes entre os elementos biolgicos de um
sistema, como as substancias qumicas e suas reaes, relaes entre espcies de um
ecossistema, regulao gnica, interao entre protenas de uma clula, vias de
sinalizao celular, entre outras.

Uma rede basicamente assimilada a representao de um grafo. Um grafo G(V,E)


o conjunto de vrtices V e o conjunto A so as arestas que ligam os vrtices de V. Essas
arestas podem ser direcionadas ou no.

Figura X. Exemplo de um grafo direcionado e um no direcionado.

Abaixo est a descrio entre os tipos de redes biolgicas mais comuns.

2.1 Redes metablicas

Representao: os ns so os metablitos e as arestas suas reaes. Enzimas podem


ser representadas, mas so opcionais.

Exemplo de programa: MetaboAnalyst

Repositrio de vias: KEGG

Figura 2X. As setas direcionadas representam a reao e os ns os metablitos formados. Os


tringulos representam as enzimas da via.
Experimentos que queiram quantificar os metablitos formados durante uma reao em
adies de substratos ou enzimas requerem um modo de saber onde cada metablito
interfere na produo total da via. Para isso, o uso de redes a melhor forma, pois alem da
fcil visualizao, tambm podemos model-la, ou seja, alter-la e novamente executar a
produo da via verificando suas alteraes nos produtos finais. Precisamos de conhecimentos
experimentais e bioqumicos para sua anlise.

2.2 Redes protena-protena

Representao: Ns da rede so protenas e as arestas indicam a interao entre elas.

Exemplo de programas de anlise: Cytoscape, IIS (Interactome Integrated System)

Banco de dados: PubMed, Swiss-Prot, String, BioGrid ...

Mtodo de gerao de dados: mtodos usuais de espectrometria de massa (MS), Two-hybrid


screening (uso de presas para obteno de iscas).

2.3 Redes de regulao gnica

Representao: os ns da rede representam os genes/fatores de transcrio/protenas e as


arestas as interaes (regulao, expresso ou inibio) entre eles.

Redes de regulao gnica so um conjunto de reguladores moleculares que interagem uns


com os outros e com outras substncias na clula para regular os nveis de mRNA e protenas
de expresso de genes.
Exemplo de rede de regulao gnica.

Existem um modelo que pode ser feito atravs da quantificao da expresso de cada gene. A
gerao destes dados pode ser feita atravs da tcnica de RNA-Seq, que gera os dados dos
transcritos expressos em determinadas condies.

2.3.1 RNA-Seq ( j vou falar porque j viu, vai cair)

RNA-seq uma abordagem recentemente desenvolvida, para analisar o perfil de


transcriptoma (conjuntos do transcrito da clula), que utiliza tecnologias de deep-sequencing.

O entendimento do transcriptoma essencial para:


Interpretar os elementos funcionais do genoma
Revelar os constituintes moleculares de clulas e tecidos nos diferentes
estgios de desenvolvimento
Compreender os elementos presentes no desenvolvimento de doenas
O transcriptoma pretende catalogar todos os tipos de transcritos:
mRNAs (ESTUDE !)
RNAs no codificadores
pequenos RNAs.
Por que estudar o transcriptoma?
Para determinar a estrutura transcripcional dos genes, em termos de seus stios de
incio 5 e final 3;
Padres de splicing e outras modificaes ps-traducionais (ESTUDAR SPLICING
ALTERNATIVO);
Quantificar os nveis de mudanas de expresso de cada transcrito durante o
desenvolvimento e sob condies diferentes.
Encontrar microRNAs que possuem funo reguladora
Metagenmica
Montagem dos transcritos a partir dos dados sequenciados:

Para garantir uma alta qualidade na montagem do transcriptoma, cuidados


particulares devem ser tomados nos experimentos de RNA-Seq.

Na fase de anlise de dados, as reads geradas so pr-processadas para remover erros


de sequenciamento e outros artefatos.

As leituras so subsequentemente montadas nos RNAs originais e ento sua


abundncia avaliada.

A montagem do transcriptoma pode ser feita de trs estratgias diferentes:

1. Montagem utilizando referencia

Quando conhecemos o organismo estudado fica mais fcil conseguir seu genoma e um
arquivo GTF, que mostra as posies de todos os genes, mRNAs , xons e introns do
organismo. Os passos so:

Alinhamento das reads sobre o genoma de referncia


As reads sobrepostas em cada locus so agrupadas para construir um grfico de todas
as isoformas possveis.
O grfico analisado para resolver isoformas individuais. (ver figura)
Programas: Blat, TopHat e GSNAP

[Martin,J.A et al 2011)

Vantagens:
Pode montar transcritos de baixa abundncia;
Pode usar computao paralela
Pode ser feita em mquinas com poucos Gb de RAM;
Descobrir novos transcritos que no esto em anotaes j existentes;

Desvantagens:
No possvel sem um genoma de referncia;
Depende da qualidade do genoma de referncia ;
Genomas podem no ser completos, ter regies no agrupadas e parcialmente
montadas.
2. Montagem de novo

o No utiliza um genoma de referncia;


o Utiliza-se da redundncia das leituras para encontrar sobreposies entre as
leituras
o Programas usam o grfico De Brujin para reconstruir transcritos de uma ampla
faixa de nveis de expresso e ento processar a montagem de contigs e
remover redundancias.
o Semelhante montagem de genoma
o Exemplo de montadores: Trinity, Velvet, Oases, IDBA-Tran ...

Vantagens:
No depende de um genoma de referncia;
Pode providenciar um novo conjunto de dados de transcritos para genomas que no
apresenta alta qualidade;
Pode ser usado para encontrar transcritos exgenos ou que esto faltando no genoma;
No influenciado por longos introns

Desvantagens:
A montagem de organismos eucariotos complexos pode consumir muita memria
RAM
Grande quantidade de dados
Complexidade dos grficos de Brujin nescessrios para analizar os possveis splicings
Consome dias ou semanas de processamento
Exige maior cobertura
Suscetvel a erros de leitura, pode no diferenciar um erro do sequenciamento de um
splicing

Utilizao do RNA-Seq:

Descoberta de pequenos RNAs


Quantificao da expresso em diferentes momentos
Fuso de genes em cncer
Identificao de mutaes
Metagenmica
2.4 Redes ecolgicas

Aplicao a redes alimentares, redes de parasitismo...

Curiosidades:

Todas as redes, incluindo redes biolgicas, redes sociais, redes tecnolgicas (por
exemplo, redes de computadores e circuitos eltricos) e outras, podem ser representadas
na forma de grafos, que incluem uma ampla variedade de subgrafos. Um local propriedade
importante das redes so os chamados network motifs, que so definidos como subgrafos
ou padres recorrentes e estatisticamente significativos.

Network motifs so subgrafos que se repetem em uma rede especfica ou mesmo entre
diferentes redes. Cada uma destas subgrafos, definidos por um determinado padro de
interaes entre vrtices, podem refletir um quadro em que funes especficas quando
alcanadas de forma eficiente. Na verdade, os motifs so de grande importncia, em
grande parte porque eles podem refletir propriedades funcionais. Embora network motifs
possam fornecer uma viso profunda sobre caractersticas funcionais da rede, sua
deteco um desafio computacionalmente.

Exemplos de subgrafos k-motifs. Cada um pode causar uma funo diferente a rede.
3. BLAST
Em bioinformtica, BLAST (Basic Local Alignment Search Tool), como o nome mesmo
diz, uma ferramenta de busca de alinhamentos locais. Ele um algoritmo para comparar
informaes de sequencia biolgica primria, tais como as sequncias de aminocidos de
protenas diferentes ou os nucletidos de sequncias de DNA. Uma pesquisa BLAST permite
que um pesquisador compare uma sequncia que ele deseja com uma biblioteca ou banco de
dados de sequncias, e identificar as sequncias desse banco que se assemelham a sequncia
de consulta, acima de certo limite de identidade.

Diferentes tipos de BLAST esto disponveis de acordo com as sequncias de consulta.


Por exemplo, voc descobriu a sequencia de um gene previamente desconhecido em um
ratinho, ento normalmente um cientista realiza uma pesquisa BLAST do genoma humano
para ver se os seres humanos portadores de um gene similar; o BLAST identifica sequncias no
genoma humano que se assemelham ao gene de rato com base na similaridade de sequncia.
O algoritmo BLAST e o programa foram desenhados por Stephen Altschul, Warren Gish, Webb
Miller, Eugene Myers e David J. Lipman no National Institutes of Health e foi publicado no
Journal of Molecular Biology em 1990 e citou mais de 50.000 vezes. O algortimo BLAST uma
heurstica.

Tipos de BLAST:

Blastn: compara duas sequencias em nucleotdeo


Blastp: compara duas sequencias em protenas
Blastx: compara uma sequencia de nucleotdeos contra um banco de dados de
protenas (6 frames)
Tblastn: compara uma sequencia em protenas contra um banco de dados em
nucleotdeo (6 frames)

Voce pode fazer um alinhamento BLAST no site do NCBI


https://blast.ncbi.nlm.nih.gov/Blast.cgi ) escolhendo o tipo de alinhamento e o banco de dados
a ser utilizado.

4. METAGENMICA
A metagenmica se tornou uma das ferramentas de bioinformtica
indispensveis na biologia microbiolgica nas ultimas duas dcadas, e uma nova
revoluo nos estudos de metagenmica est prestes a comear, com a ajuda dos
recentes avanos nas tcnicas de sequenciamento. A produo massiva de dados e
a reduo substancial de custos no sequenciamento de nova gerao levaram a um
rpido crescimento em pesquisas de metagenmica tanto quantitativamente
quanto qualitativamente. evidente que a metagenmica ser uma ferramenta
essencial no estudo da diversidade e da funo dos microbiomas no futuro, como
os mtodos de impresso digital tem feito at hoje. Ao passo que a velocidade de
acmulo de dados aumenta, ferramentas de bioinformtica e bancos de dados
associados para lidar com toda essa quantidade de dados so necessrios. (Kim M,
Lee KH et. al 2013).

Pipeline WGS (A princiapal a anlise funcional):

A anlise de dados de metagenmica depende de como eles foram gerados.


Quando os dados so de WGS (Whole genome shotgun sequencing), toda a amostra
retirada sequenciada, assim, podemos reconstruir toda a parte funcional dos
organismos presentes, alm de fazer sua quantificao. J quando o
sequenciamento 16S (regio conservada de Archeas e bactrias), somente
podemos fazer a quantificao de cada organismo.

Vrios programas que podem ser utilizados para anlise de dados de


metagenmica, entre eles o QIIME, MG-RAST e Mothur. A diferena entre eles
que o MG-RAST uma plataforma online onde voc envia seus dados e eles
prprios fazem a anlise, que posteriormente ser liberada online; o QIIME e o
Mothur possuem algoritmos diferentes para a similaridade dos organismos (arvore
de similaridade vs matriz de similaridade), mas, inicialmente, o QIIME no necessita
que todos os reads tenham tamanhos iguais, j o Mothur sim.

S-ar putea să vă placă și