Sunteți pe pagina 1din 63

Dezembro - 2006

Bioinformática e Anotação

Eduardo Fernandes Formighieri


Laboratório de Genômica e Expressão / UNICAMP
Hoje

1. Introdução à Genômica
2. Introdução à Bioinformática
3. Introdução à Anotação
4. BLAST
Dezembro - 2006

1. Introdução à Genômica

Eduardo Fernandes Formighieri


Laboratório de Genômica e Expressão / UNICAMP
Conceitos

• O que é?
– Genômica
– Seqüenciamento
– Bioinformática
– Montagem (assembly ou clusterização)
– Bancos de dados
– BLAST
– Anotação
• E que importância isto tem para você?
Conceitos

Genômica

Ciência que estuda o genoma, ou o conjunto do


material genético de um organismo.

Ex.: Genoma da Xylella fastidiosa é composto pelo


DNA cromossomal mais o DNA plasmidial.
Conceitos

Seqüenciamento de DNA

Determinação da sua seqüência nucleotídica


(ACGTs).

A tecnologia de seqüenciamento atual exige que


se quebre o DNA em pequenos fragmentos de
cerca de 2.000 pares de bases (Sanger),
exigindo a montagem dos fragmentos.
(a montagem será detalhada posteriormente)
Introdução – seqüenciamento

denaturação

anelamento dos primers

extensão
Introdução – seqüenciamento
Conceitos – seqüenciamento

Exemplo de gel de eletroforese utilizado nos seqüenciadores de gel (ex.: 377).


A diferença de tamanho permite a separação dos grupos de fragmentos, e
esta “distribuição normal” da passagem dos fragmentos é representada
pelo eletroferograma (ou cromatograma) de cada seqüência (read).
Conceitos – nt

Estruturas e ligações. O RNA é composto por ribonucleotídeos, o DNA por


desoxiribonucleotídeos (sem o OH no C2), e o dideoxiribonucleotídeo
também não tem o OH do C3, impedindo a continuidade da ligação.
Conceitos – fita DNA

As seqüências são sempre descritas no sentido 5´=> 3´, salvo aviso em


contrário, e isto diz respeito à posição das ligações nos carbonos 5 e 3.
A lógica é a mesma para proteínas, de N-terminal para C-terminal.
Conceitos

O que é um projeto genoma?

Seqüenciamento de material genético de


organismo e anotação de estruturas e genes
encontrados

Ex.: Seqüenciamento do genoma humano; do


cromossomo IV de S. cerevisiae; de ESTs de
diferentes espécies de Eucalyptus.
Projetos Genoma

Tipos de projeto

DNA – seqüenciamento de estruturas do genoma


ou de trechos destas. Ex.: X. fastidiosa

ESTs – seqüenciamento de cDNA, feitos a partir de


bibliotecas de mRNA. Bibliotecas feitas para
diferentes situações. Ex.: ESTs de café
Projetos Genoma

Esquema muito resumido para projetos genoma.


O seqüenciamento pode ser total ou parcial. A montagem feita por diferentes
programas. O objetivo final pode ser um produto, publicações ou respostas.
Projetos Genoma

Estratégias de seqüenciamento

• DNA
– Shotgun de genoma inteiro
– Shotgun de pedaços do genoma (cosmídeos)
– Primer walking
• ESTs
– Convencional
– Orestes
Projetos Genoma – genoma humano
Exemplo de shotgun
orientado

www.nature.com\genomics\human\
Dezembro - 2006

2. Introdução à Bioinformática

Eduardo Fernandes Formighieri


Laboratório de Genômica e Expressão / UNICAMP
Conceitos

Bioinformática

Aplicação da “informática” na
biologia molecular.

Utilização e desenvolvimento de ferramentas


computacionais para estudo e resolução de
problemas biológicos.
Conceitos

Gerenciamento de informações

Armazenar dados genéticos e disponibilizá-los de


forma maleável e facilitada.
Gerenciar a troca de informações.

Inclui bancos de dados, páginas de serviços via


internet, listas de correio eletrônico, submissão e
busca de dados etc.
Conceitos

Bancos de Dados (BDs)

Armazenamento organizado de informações que


possibilita fácil, preciso e rápido acesso às
mesmas.
Bancos de dados - exemplo
Bancos de dados

Alguns dos principais BDs biológicos

• NCBI (link) – National Center for Biotechnology Information


• EBI (link) – European Bioinformatics Institute
• KEGG (link) – Kyoto Encyclopedia of Genes and Genomes
• GO (link) – Gene Ontology Consortium
• COG (link) – Clusters of Orthologous Groups of proteins
Conceitos

Desenvolvimento

Desenvolvimento, em bioinformática, é a área


onde são criadas ferramentas computacionais
para resolução de problemas da biologia
molecular.
E ainda...

• Manutenção de sistema (precisa, né?)


• Gerenciamento de dados
• Adaptação e desenvolvimento de ferramentas
• Segurança de dados
• Etc.
Bioinformática – montagem
Phred/Phrap/Consed

• Phred – valores de qualidade para bases


• Cross-match – comparação e marcação
• Phrap e CAP3 – montagem
• Phrapview e Consed - visualização
Bioinformática – montagem

Região de qualidade alta

• Picos bem definidos e grandes.


• Linha de base boa.
• Distância entre picos anterior e posterior constante (há exceções).
Bioinformática – montagem

Região de qualidade média – poucas ambigüidades

• Picos razoavelmente bem definidos e de tamanho médio.


• Linha de base boa a razoável.
• Distância entre picos anterior e posterior razoável.
Bioinformática – montagem

Região de qualidade baixa – baixa confiabilidade

• Picos mal definidos e de tamanho pequeno.


• Linha de base confusa.
• Distância entre picos anterior e posterior inconstante.
Bioinformática – montagem

Alguns problemas de montagem


B
A C
<= Repetições (regiões de
B cor verde) atrapalham
a montagem

<= Estruturas
secundárias =>
podem
interromper o
seqüenciamento,
assim como
regiões ricas em
GC, AT etc.
Bioinformática – resolução
Primers, sub-bibliotecas, programas específicos de seqüenciamento etc.
Dezembro - 2006

3. Anotação

Eduardo Fernandes Formighieri


Laboratório de Genômica e Expressão / UNICAMP
Introdução – base

Anotação de genes

Anotar um gene é postular função ao produto


deste gene. Para DNA, inicialmente são
localizados os ORFs. Para cDNA, busca-se a
identificação do trecho seqüenciado.

Utilizam-se diversos programas de comparação


com dados genéticos conhecidos e buscas de
padrões.
Introdução – base

ORFS

Os ORFs (Open Reading Frames) a partir de


determinado tamanho são genes em potencial.

ATG AAT GCT TGC ACC CCG TCA GGC CTG TAA
ini fim

Códon iniciador, região codificadora


e códon terminador.
Introdução – base

Código genético

(Fonte das figuras: http://www.accessexcellence.org/AB/GG/genetic.html)


Introdução – metabol. virtual
Anotação

• Postular função para produto de gene; ou


• Predizer estruturas do genoma e suas funções.
• Anotam-se:
– Genes que codificam proteínas
– tRNAs
– rRNAs
– ORFs hipotéticos
– Clusters de GC
– Repetições
– Codon usage
– Promotores
– ...
Anotação – algumas ferramentas
Anotação – inicial
Anotação – metabólica
Anotação – BLAST

BLAST

Ferramenta de busca de similaridade de


seqüências.

Consulta de seqüências em BDs biológicos


Anotação – BLAST

• Basic Local Alignment Search Tool


• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol.,
215, 403-410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local
• Consulta de seqüências em BDs biológicos
• Alinhamento, similaridade e homologia
Anotação – BLAST

Query BD Compara Programa


nt nt nt blastn
nt (trad) aa aa blastx
aa aa aa blastp
aa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Bancos de dados

Alguns dos principais BDs

• NCBI (link) – National Center for Biotechnology Information


• EBI (link) – European Bioinformatics Institute
• GO (link) – Gene Ontology Consortium
• KEGG (link) – Kyoto Encyclopedia of Genes and Genomes
• COG (link) – Clusters of Orthologous Groups of proteins
Anotação – tRNAs
• Programa tRNAscan-SE
– COVE lento, mas preciso
– tRNAscan -> COVE
– Show structure
Anotação – rRNAs

• rRNAs
– Blastn
– Estrutura secundária
Anotação – repetições

• Programa Tandem Repeat Finder - microsatélites


• Programa REPuter
– Forward vs. Forward (F) - tandem
– Forward vs. Reverse (R)
– Forward vs. Complement (C)
– Forward vs. Reverse Complement (P)
Anotação – conteúdo de GC

• GC
– Clusters de GC
– Porcentagem de GC
– GC skew - (G-C)/(G+C)
– GC skew cumulativo
Dezembro - 2006

4. BLAST

Eduardo Fernandes Formighieri


Laboratório de Genômica e Expressão / UNICAMP
BLAST – base

• Basic Local Alignment Search Tool


• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol.,
215, 403-410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local
• Consulta de seqüências em BDs biológicos
• Alinhamento – sobreposição de trechos semelhante de duas
seqüências (seqs). BLASt traz pontuação e mostra alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento.
• Homologia – genes com ancestral comum (vide slide).
BLAST – conceitos
1

“Genes nariz” Homólogos

Ortólogos: 2 e 3; ancestral comum = 1

Ortólogos: 2 e 4; ancestral comum = 1

Parálogos: 3´ e 4; ancestral comum = 3

Especiação
4 3´

Duplicação
2

3
BLAST – programas

• BDs – nucleotídeos, proteínas, domínios,


genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad (ESTs)
BLAST – programas

Query BD Compara Programa


nt nt nt blastn
nt (trad) aa aa blastx
aa aa aa blastp
aa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
BLAST – query = nts

• Vs. Nt
– MEGABLAST – identificar a seq
– Blastn – identificar a seq ou encontrar similares
– Tblastx – comparação por proteínas (nts trad)
• Vs. Prot
– Blastx – comparação com proteínas (nts trad)
• Pequenas seqs de nt
– “Search for short, nearly exact matches” – busca para
primers ou motivos
BLAST – query = aas

• Vs. Prot
– Blastp - identificar a seq ou encontrar similares
– PSI-Blast – encontrar membros da família da proteína
ou genes muito distantes
– PHI-Blast – busca similaridade de seq + padrão
• Domínios conservados
– CD-search – encontra no query
– CDART – encontra no query e busca outras
BLAST – query = aas

• Vs. Nt
– Tblastn – busca proteínas similares
• Pequenas seqs de proteínas
– “Search for short, nearly exact matches” – busca para
motivos

• Especializadas (nt ou prot)


– Blast 2 sequences
– BDs específicos (genomas etc.)
BLAST – resultado

• Query / Subject
• “Low score filter”
• Gráfico
• Lista de alinhamentos
– “Score” e “E value”
• Alinhamentos
– Identidades (matchs)
– Positivos
– Posições de início e fim
BLAST – resultado

Escolher BD
BLAST – resultado

ERRO!!

Domínio encontrado
ID facilita busca
BLAST – resultado
BLAST – resultado
Link
BLAST – resultado

1 64
query
subject
1 71 134
BLAST – local

• Pode ser instalado localmente (Linux)


• BDs e atualizações
• Facilidades
– Velocidade de buscas
– Maleabilidade
– Automatização
– Dados locais
– Independe de internet
Perguntas?

☺ Obrigado ☺

Edu :)

www.lge.ibi.unicamp.br
eduformi@lge.ibi.unicamp.br

S-ar putea să vă placă și