Bioinformatica 1 2

DESAFÍOS DE LA BIOINFORMÁTICA
• CONJUNTO DE DATOS
ENORME
• Colecciones de nuevas secuencias
están siendo añadidas
• Secuenciadores automáticos
• Secuenciamiento de genomas
• Secuanciación de EST
• GenBank tiene más de 220
trillones de pares de bases y se
duplica 18 meses!!
• Crecimiento exponencial (problema?)
• Cómo las computadoras pueden
manejarlo?
• Discos duros son baratos, pero la
velocidad de los procesadores no es
suficiente
• Next‐Generation Sequencing: Your genome,
one day, $1500!
Tiempo de duplicación = 18 meses
DNA sequences in GenBank

DNA RNA protein phenotype
protein
cDNA sequence
ESTs databases
genomic UniGene
DNA
databases
Las bases de datos más grandes
EMBL GenBank DDBJ

EBI NCBI Japón
European National
Bioinformatics Center for
Institute Biotechnology
Information
Tipos de bases de datos
• De secuencias
– Genes y proteínas
– Secuencias genómicas crudas
– cADN
– Expressed sequence tags EST
• De estructura
– Estructuras 3D de cristalografía de rayos x o
resonancia magnética nuclear (NMR)
• De resultados experimentales
– Expresión génica
– De interacción
Bases de datos curadas, anotadas, no
redundantes
• RefSeq
– Una secuencia por cada molécula que interviene
en el dogma central
– Números de accesión:
• N_: Secuencias confirmadas experimentalmente
• X_: Secuencias generadas por predicciones
• Swiss-Prot
– Una secuencia de referencia por cada proteína
– Comentarios de expertos
– Números de accesión
• O, P, Q
Relational databases
• Almacena los datos en
tablas
• Cada tabla consiste en
records y campos
• Cada tabla se relaciona
con otra a través de un
campo compartido
conocido como key
• Una key distingue a
una base de datos
relational de una base
de datos flat
Composición de bases de datos
BUSQUEDAS EN BASES DE DATOS
• ¿Cuál es similar a mi secuencia?

• La búsqueda se vuelve más dificil en
tanto las bases de datos sigan creciendo
y la calidad se reduce.
• Herramientas: BLAST = ahorradores de
tiempo heurísticos (aproximados)
• Estadística + Juicio informado del biólogo
Encontrar genes en las secuencias
genómicas No Es Fácil
• Alrededor del 1% del ADN humano
codifica genes funcionales.
• Los genes están intercalados a lo largo de

tramos de ADN no codificante.
• Repeticiones, pseudo-genes, e intrones

son materia de confusión.
Búsqueda en bases de datos
• Necesita ser:
– Sensible.- Para detectar homólogos distantemente
relacionados y evitar falsos negativos
– Específica.- Para rechazar secuencias no
relacionadas con similitud fortuita (falsos
positivos)
¿Qué quiero saber?
• Puedo encontrar una secuencia de x?
• Puedo encontrar lo que ha sido secuenciado para un grupo Y?
• ¿Qué es mi secuencia?
• ¿Puedo encontrar secuencias homologas a mi secuencia?
– Secuencias de otros organismos
– Secuencias de una familia de genes
• ¿Qué tienen estas secuencias en común?
• ¿Puedo inferir función o locación de una proteína basado en una
secuencia?
• ¿Qué genes han sido secuenciados para mi grupo de interés
• ¿Puedo encontrar secuencias para usar como “outgroups” para
mi proyecto de secuenciación?
Estrategias de búsqueda
• Exhaustiva: Compara la secuencia con todas
las secuencias en la base de datos
• Óptima: Compara las secuencias con otras
secuencias de datos usando programación
dinámica para tomar la ruta óptima a través
de la base de datos
• Heurística: Se filtra la base de datos a solo las
secuencias más probables con las que se hace
alineamiento en pares (pairwise alignment,
e.g. BLAST)
• NCBI PRACTICA 1 (PRIMERA PARTE)
• SWISS-PROT
• LINK de la Base de datos
• GEN BANK
• Logo principal
• GENE • Significado de las siglas (de ser el
• KEGG caso)
• OMIM • Descripción general de la base de
• RCSB PDB datos luego de una navegación
rápida en la página web
• Pub Med
• Enumerar otras bases de datos
• EMBL-EBI relacionadas que estén dentro de
• DDBJ cada base de datos
Nomenclatura de los aminoácidos
típicos en las secuencias biológicas
A ALA Alanina M MET Metionina
C CYS Cisteína N ASN Asparagina
D ASP Aspartato P PRO Prolina
E GLU Glutamato Q GLN Glutamina
F PHE Fenilalanina R ARG Arginina
G GLY Glicina S SER Serina
H HIS Histidina T THR Treonina
I ILE Isoleucina V VAL Valina
K LYS Lisina W TRP Triptófano
L LEU Leucina Y TYR Tirosina

X - desconocido
Códigos de bases de ácidos nucleicos
IUB/GCG Significado Complemento
------- ----------- -----------
A A T
C C G
G G C
T/U T A
M A or C K
R A or G Y
W A or T W
S C or G S
Y C or T R
K G or T M
V A or C or G B
H A or C or T D
D A or G or T H
B C or G or T V
X/N G or A or T or C X
. not G or A or T or C .
Flat file
• Forma más simple de

base de datos
• Secuencias de
nucleótidos o de
aminoácidos se
encuentran
almacenados en
archivos de texto
Número de accesión (Accession
number)
• Un número de accesión es una etiqueta que se utiliza para identificar
secuencias
Ejemplo (todas corresponden a retinol-binding protein, RBP4):
• ADN
X02775 secuencia de DNA genómico GenBank
NT_030059 contig Genomico
Rs7079946 dbSNP (single nucleotide polymorphism)
• ARN
N91759.1 EST expressed sequence tag (1 de 170)
NM_006744 secuencia de DNA RefSeq (de un transcript)
• Proteína
NP_007635 proteína RefSeq
AAC02945 proteína GenBank
Q28369 proteína SwissProt
1KT7 Protein Data Bank structure record
Formatos
• Los diferentes formatos permiten la lectura
mediante distintos programas bioinformáticos
– Fasta formato simple para sequencias

– GenBank contiene más información que Fasta
– PDB formato para estructuras 3-D, incluye
coordenadas x, y, z
Formato Fasta
• Consiste de dos partes
– El titulo (header)
– La secuencia
• ADN
>título con el nombre de la secuencia de ADN
ATGCCTACGT…TAA
• Proteina
>título con el nombre de la proteina
METRPFGHKND…
• Nota: Usar letra Courier o Monaco con las que se

obtiene espaciamiento equivalente entre caracteres
Búsqueda en bases de datos
• Identificadores únicos de secuencia
– E.g. NM_001112581
• Palabra clave
– E.g. bif2
• Búsqueda de secuencias homólogas en una base de
datos
• Dos algoritmos principales:
– FastA.- Método de búsqueda rápido basado en búsqueda
de igualdades de segmentos pequeños idénticos
– BLAST.- Basado en la búsqueda de segmentos cortos muy
similares
FORMATOS DE SECUENCIAS
• PEARSON/FASTA/fa
• GENBANK/gb
• EMBL/em
• GCG
• PLAIN/Raw
• TODOS LOS FORMATOS

http://www.genomatix.de/online_help/help/sequence_formats.ht
ml
• http://emboss.sourceforge.net/docs/themes/SequenceFormats.ht
ml#out
• CONVERSOR DE SECUENCIAS: EMBOSS Seqret

http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/
PRACTICA 1 (segunda parte)
• Buscar una secuencia biológica
• Convertir en los principales formatos
• Comentar los formatos: ventajas, desventajas
entre los mismos
http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/
Practica 1 (tercera parte)
• BUSCAR secuencia proteica: Pyruvate
dehydrogenase (cualquiera)
• Observar cada parte y comentar: regiones,
sitios, cds, etc
• Manipular el formato GRAFICO
• Obtener la secuencia de nucleótidos
• Convertir a secuencia proteica
Transeq: http://www.ebi.ac.uk/Tools/st/emboss_transeq/
Buscar ORFs (ORF Finder)
https://www.ncbi.nlm.nih.gov/orffinder/
Tablas de conversión DNA - proteína
ORF finder NCBI

Bioinformatica 1 2

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Bioinformatica 1 2

Încărcat de

Drepturi de autor:

Formate disponibile

DESAFÍOS DE LA BIOINFORMÁTICA

DNA sequences in GenBank

EMBL GenBank DDBJ

• ¿Cuál es similar a mi secuencia?

• Los genes están intercalados a lo largo de

• Repeticiones, pseudo-genes, e intrones

C CYS Cisteína N ASN Asparagina

D ASP Aspartato P PRO Prolina

E GLU Glutamato Q GLN Glutamina

F PHE Fenilalanina R ARG Arginina

G GLY Glicina S SER Serina

H HIS Histidina T THR Treonina

I ILE Isoleucina V VAL Valina

K LYS Lisina W TRP Triptófano

L LEU Leucina Y TYR Tirosina

• Forma más simple de

– Fasta formato simple para sequencias

• Nota: Usar letra Courier o Monaco con las que se

• TODOS LOS FORMATOS

• CONVERSOR DE SECUENCIAS: EMBOSS Seqret

S-ar putea să vă placă și