Documente Academic
Documente Profesional
Documente Cultură
• CONJUNTO DE DATOS
ENORME
• Colecciones de nuevas secuencias
están siendo añadidas
• Secuenciadores automáticos
• Secuenciamiento de genomas
• Secuanciación de EST
• GenBank tiene más de 220
trillones de pares de bases y se
duplica 18 meses!!
• Crecimiento exponencial (problema?)
• Cómo las computadoras pueden
manejarlo?
• Discos duros son baratos, pero la
velocidad de los procesadores no es
suficiente
• Next‐Generation Sequencing: Your genome,
one day, $1500!
Tiempo de duplicación = 18 meses
protein
cDNA sequence
ESTs databases
genomic UniGene
DNA
databases
Las bases de datos más grandes
• Secuencias de
nucleótidos o de
aminoácidos se
encuentran
almacenados en
archivos de texto
Número de accesión (Accession
number)
• Un número de accesión es una etiqueta que se utiliza para identificar
secuencias
Ejemplo (todas corresponden a retinol-binding protein, RBP4):
• ADN
X02775 secuencia de DNA genómico GenBank
NT_030059 contig Genomico
Rs7079946 dbSNP (single nucleotide polymorphism)
• ARN
N91759.1 EST expressed sequence tag (1 de 170)
NM_006744 secuencia de DNA RefSeq (de un transcript)
• Proteína
NP_007635 proteína RefSeq
AAC02945 proteína GenBank
Q28369 proteína SwissProt
1KT7 Protein Data Bank structure record
Formatos
• Los diferentes formatos permiten la lectura
mediante distintos programas bioinformáticos
• Proteina
>título con el nombre de la proteina
METRPFGHKND…