01 Introducción Bases de Datos Biologicas

BIOINFORMTICA DE
BIOMOLECULAS
Profesora: Romina Seplveda

E-mail: r.sepulvedasepulveda@uandresbello.edu
Un poco de historia
1809 Jean Bap(ste Lamarck, publica Philosophie Zoologique.
1815 Publicacin del libro Analogas menos observadas de los

tres reinos de la Naturaleza, por Juan Ignacio Molina
1859 Charles Darwin publico El origen de las especies. Nature

non facit saltus-
1866 Gregorio Mendel, demuestra que la herencia de ciertos

rasgos sigue patrones determinados herencia
mendeliana.
1944 Oswald Avery demuestra que el DNA es el material
hereditario
1950 Erwin Charga nota que la can(dad de %A=%T y %G=%C

regla de Charga.
1953 James Watson y Francis Crick postulan el modelo de doble hlice del
DNA, cuyo modelo fue basado en difraccin de rayos-X, tomadas
por Rosalind Franklin y Maurice Wilkins en 1952.
1958 Kendrew y Perutz determinan la primera estructura 3D de una
protena (mioglobina) usando la tcnica cristalograaa de rayos X.
1965 Margaret Dayho en 1965 desarroll la primera base de datos de
secuencias de protena llamada 'Atlas of Protein Sequence and
Structure'
1970 Needleman and Wunsch desarrollan el primer algoritmo para
alinear secuencias
1974 Chou and Fasman desarrollan el primer algoritmo para predecir
estructura de protenas
1976 Brookhaven NaDonal Laboratory estableci el Protein Data Bank,
repositorio de estructuras tridimensionales de protenas.
Ese ao se depositaron 13 estructuras, hoy el PDB cuenta con
107.251 estructuras)
1980 Se publica la primera secuencia de un gen (FX174). La secuencia consiste en
5328 bp y contena 9 protenas.
1981 Se publica el algoritmo de alineamiento de secuencias Smith-Waterman
1985 Se describe la reaccin de PCR por Kary Mullis.
1988 Se genera el algoritmo de FASTA para comparacin de secuencias (Pearson)
A nes de los 80 comenz el proyecto del genoma humano y otros
proyectos genmicos que comenzaron a producir datos biolgicos en
can(dades sin precedentes
1990 El programa BLAST es implementado (Altschul)
Se empieza a desarrollar y masicar el uso de internet.
1995 El primer genoma de bacteria es descrito (Haemophilus inuenzeae, 1.8 Mb)
por Craig Venter.
1997 Se publica el primer genoma de e. Coli (4.7 Mbp)
2001 Se publica el primer drai genoma humano!
Cuntas pares de bases tiene un genoma
humano?
a) 1.000 Mb c) 3.000 Mb
b) 2.000 Mb d) 4.000 Mb
Costo de secuenciacin por genoma
Septiembre 2001 Octubre 2015

$95.263.072 USD $1.245 USD
~$65.500.000.000 CLP ~$859.000 CLP
Ley de Moore
https://humanswlord.wordpress.com/2014/01/14/brainfood-moores-law-explained/
Nuevas tecnologas en secuenciacin:
Nanopore technologies
Futuro Cercano:
Sigalov, G., Comer, J., Timp, G. & Aksimentiev, A. Detection of DNA
sequences using an alternating electric field in a nanopore
US$1.000
capacitor. Nano Lett. 8, 5663 (2008).
Genbank
WGS: Whole Genome

Shotgun, genomas
i n c o m p l e t o s o
c r o m o s o m a s
incompletos.
Uniprot (protenas)
Swissprot 555.100 secuencias revisadas.
TrEMBL 88.032.926 secuencias no revisadas.
reas de desarrollo
Medicina con
computadores
Bioqumica
Informtica
con
para biologa
computadores
Matemticas
para biologa
Biologa con
computadores
Informtica en biologa
- Desarrollo de algoritmos y relaciones de sistemas biolgicos.
Minera de datos:
Descubrir patrones en grandes volmenes de
datos.(ej: en bases de datos clnicas)
Aprendizaje automtico (Machine Learning)
Programas que intentan imitar comportamientos )
Bases de datos
Visualizacin de datos
Computacin de alto rendimiento (High
Performance Computing HPC)
Biologa con computadores
Anlisis de secuencias
Omics
Genomics: estudios de genomas de organismos
Proteomics: estudios de gran escala de las
protenas de un organismo.
- Gentica: herencia y variabilidad

Systematics: diversidad de caractersticas de organismos
Filogentica: relacin evolutiva entre organismos
http://sparrow-kaizu.deviantart.com/art/Pokemon-origins-project-Dragons-281957317
Anlisis de estructuras Anlisis de funcin

Biologa de sistemas: estudio de la interaccin de componentes de
sistemas biolgicos.
Oltvai, Z. N. & Barabsi, A.-L. Systems biology. Life's complexity pyramid. Science 298, 763764 (2002).
Matemtica usada en biologa
Biologa matemtica
Modelamiento biolgico
Bioestadstica
Bioqumica con computadores
Biocheminformatics y bioqumica
computacional
Modelado molecular
Biopathways: rutas
metablicas.
Anlisis de biochips: ej
microarrays.
Medicina con computadores
Informtica mdica.
Drug Discovery y diseo de frmacos.
De que nos sirve?
Resolver/interpretar fenmenos que los

experimentos tradicionales no pueden resolver.
Manejo datos masivos como

secuencias, rutas metablicas
Generar soluciones eficientes, en mbitos

desde la genmica hasta la informtica
mdica.
Cuales son las limitaciones de los bioinformticos?
Las predicciones bioinformticas dependen de la calidad
de los datos experimentales.
Lo ideal es usar varios programas y evaluaciones
(distintos enfoques y algoritmos).
Dependemos del poder de cmputo disponible.
La colaboracin interdisciplinaria es fundamental

Bioinformtica en 2017
Medicina personalizada (Precision Medicine)
NIH ha lanzado The Precision Medicine Initiative.
Fue dado a conocer por el presidente Barack Obama el 20 de enero 2015.
Objetivo:
Prevenir y tratar enfermedades considerando las variaciones en
genes, ambiente y estilo de vida.
http://www.nih.gov/precisionmedicine/
Collins, F. S. & Varmus, H. A new initiative on precision medicine. N. Engl. J. Med. 372, 793795 (2015).
Objetivo a corto plazo
Objetivos a largo plazo
Leer!! Collins, F. S. & Varmus, H. A new initiative on precision medicine. N. Engl. J. Med. 372, 793795 (2015).
Qu es una base de datos?
Base de datos
Es una coleccin de datos archivados y organizados que permite un
acceso rpido a los fragmentos de datos que necesite.
Para buscar una entrada en una base de datos, el usuario hace una
pregunta especicando un valor a ser encontrado en un campo en
par(cular.
Tipos de bases de datos biolgicas
Bases de Datos de Formato Simple (Flat File Format)

Con(ene lneas de texto con entradas separadas por un delimitador.

Para buscar informacin, la tabla entera (ene que ser leda, proceso muy
ineciente para grandes can(dades de datos.

A pesar de ser inecientes, su uso se jus(ca al requerir mnimo diseo, y que el
formato puede ser fcilmente interpretado por humanos.

Bases de Datos Relacionales
Usan un set de tablas para organizar la informacin. Cada tabla o relacin, (ene
las y columnas:
Columnas representan campos individuales
Filas representan los valores de los campos

Las columnas de las tablas estn indexadas de acuerdo a atributos comunes, de
manera de tener referencias cruzadas a otras tablas.
Las bases relacionales se crean usando lenguajes denominados structured query

language (SQL), lo cual toma un largo (empo de planicacin.

Luego de la creacin de una base de datos relacional, agregar una nueva categora
es sencillo.

Bsqueda en estas bases de datos son rela(vamente sencillas de realizar, y (enen
la ventaja que el sistema selecciona datos referenciados de diferentes tablas, por
lo que el Dempo de bsqueda es mucho menor.
Tipos de bases de datos
Bases de Datos Orientadas a Objetos
Estas bases de datos estn compuestas de 'objetos' que combinan informacin y
ru(nas matem(cas que actan sobre la informacin. Los objetos quedan
entonces unidos por un set de 'conexiones' predeterminadas, lo que permite que
la base de datos acepte relaciones jerrquicas.

Bsquedas en estas bases de datos navegan a travs de los objetos con la ayuda de
las 'conexiones', por lo que son muy rpidas.

Lenguajes como C++ son usados
para crear este (po de bases de
datos.
Bases de datos
PRIMARIAS SECUNDARIAS
Datos obtenidos experimentalmente. Son resultado del anlisis de las

bases de datos primarias.
Ejemplos: Ejemplos:
! Secuencias de cidos nucleicos: ! S e c u e n c i a s d e p r o t e n a s

genomas completos, fragmentos obtenidas de la traduccin de
genmicos, cDNAs, ESTs, SNPs, secuencias genmicas.
etc.
! Alineamientos de protenas o
! Estructuras de protenas o cidos cidos nucleicos.
nucleicos: Coordenadas atmicas
obtenidas por rayos X o NMR. ! Familia de protenas, inferidas por
similitud de secuencia o presencia
! Datos de expresin (Protenas o de motivos.
transcritos)
Bases de datos de nucletidos
Genbank European Molecular DNA Data Bank of

Biology Laboratory Japan (DDBJ)
The International Nucleotide

Sequence Database
Collaboration (INSDC)
Bases de datos primarias
GenBank
GenBank es una base de datos de nucletidos de libre acceso.
http://www.ncbi.nlm.nih.gov/genbank/
Bsqueda avanzada
Resultado:
wwProtein Data Bank

Bases de datos para el
depsito de coordenadas
atmicas de estructuras
tridimensionales de
macromolculas
(protenas y cidos
nucleicos), determinadas
por cristalografa de rayos
X y resonancia magntica
nuclear (ahora Cryo-EM)
Numero de estructuras por

organismo!
Protein Data Bank
Bases de Datos Secundarias
UniProtKB = Swiss-Prot + TrEMBL
Provee anotacin detallada de secuencias biolgicas, incluyendo:

estructura, funcin, clasificacin en familias de protenas, dominios
estructurales, sitios catalticos, cofactores, modificaciones
postraduccionales, vas metablicas, asociacin a enfermedades. Tambin
provee links a otros recursos de inters, y es muy poco redundante.
SwissProt contiene informacin curada por expertos que obtienen

informacin de la literatura cientfica, y por tanto es de buena calidad.
TrEMBL obtiene sus secuencias traduciendo automticamente cidos

nucleicos a protenas, por lo tanto, la calidad es inferior.
UniProtKB
http://www.uniprot.org/
Cdigo de acceso
Base de datos curada.

UniProtKB
UniProtKB
Formato FASTA
! Formato de secuencias de protenas y cidos nucleicos, usados para describir
y buscar secuencias biolgicas en bases de datos.
! Con(ene una lnea de denicin que comienza con el signo mayor que ">",
seguido del nombre de la secuencia. A veces, informacin extra es dada
posterior al nombre de la secuencia, separada por un smbolo "|".

! La segunda lnea en adelante conDenen la secuencia de aminocidos o
nucle(dos en cdigo de una letra. Cada lnea es limitada a 60 u 80
caracteres.
Bases de datos secundarias
Metablicas
KEGG (Kyoto Encyclopedia of Genes and Genomes)
Recursos para entender funciones y utilidades de sistemas biolgicos,
como clulas, organismos y ecosistemas.
http://www.genome.jp/kegg/
Bases de datos especializadas
Datos de expresin
!GEO (Gene Expression Omnibus)
!Gene Expression Atlas (GXA)
Enfermedades
!OMIM
!DisGeNET
!NZORD
Variantes gnicas
!dbSNP
!IPD (Inmuno Polymorphism database)
OMIM
Otras bases de datos!
Publicaciones:
!Pubmed
!Scholar google
!Web of Science
!Scopus
Patentes
!INAPI: Instituto Nacional de Propiedad Industrial
!USTPO: United States Patents and Trademark Office.
!ESPACENET: European Patent Office
!Google patents
ustpo.gov
Cul es la patente asociada?

Quin es el inventor?
De que ao es?
Informe 1:
1) Una empresa internacional de alto prestigio desea entrevistarlo para ofrecerle un cargo de lder
del equipo de bioqumicos. Esta empresa trabaja en el estudio de la enzima catalasa de humano.
La reunin es la prxima semana y de sus conocimientos depender su contrato millonario.
Realice un anlisis de la enzima catalasa de humano usando como base Genbank, Uniprot, Protein
Data Bank y KEGG.
*Si lo requiere puede ayudarse de otras bases de datos.
Debe incluir obligatoriamente los siguientes campos:

GenBank Protein Data Bank
Definition ID "Mximo 2
Locus Nombre pginas de texto.
Accession number Publicacin y autores
Organismo Tcnica de obtencin
"Imgenes u
Pares de bases Estequiometria
Ligandos otros, van en
Uniprot anexos.
Nmero de entrada KEGG pathways
Protena Imagen de la ruta (Anexo)
Estado Identificar la enzima en la ruta
Funcin (Anexo)
Ruta implicada Reaccin que realiza.
Nmero de isoformas Cdigo de la enzima
Cofactores
Actividad cataltica
Consideraciones prcticas:
!Para realizar bsquedas complejas es comn utilizar operadores

lgicos como AND, OR, y NOT, los que permiten indicar relaciones
entre las palabras usadas en las bsquedas.
!Para especificar frases, stas deben ser escritas entre "".
!Esto aplica a todo tipo de bases de datos includo Google!!!

Ejemplo:
Qu hara para identificar el siguiente grupo de secuencias en
uniprotkb?
Q9HBA0
Q9EPK8
Q9ERZ8
B2KN54
V9SH16
A0A0S7M8G1
A0A0S7LEP0
A0A0S7M5L7
A0A0S7LEV9
A0A0S7LEX9
A0A0S7M7Y5
A0A0S7ILC0
A0A0S7IL98

01 Introducción Bases de Datos Biologicas

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

01 Introducción Bases de Datos Biologicas

Încărcat de

Drepturi de autor:

Formate disponibile

BIOINFORMTICA DE

Profesora: Romina Seplveda

1815 Publicacin del libro Analogas menos observadas de los

1859 Charles Darwin publico El origen de las especies. Nature

1866 Gregorio Mendel, demuestra que la herencia de ciertos

1950 Erwin Charga nota que la can(dad de %A=%T y %G=%C

Septiembre 2001 Octubre 2015

WGS: Whole Genome

- Desarrollo de algoritmos y relaciones de sistemas biolgicos.

- Gentica: herencia y variabilidad

Anlisis de estructuras Anlisis de funcin

Resolver/interpretar fenmenos que los

Manejo datos masivos como

Generar soluciones eficientes, en mbitos

La colaboracin interdisciplinaria es fundamental

Las bases relacionales se crean usando lenguajes denominados structured query

Datos obtenidos experimentalmente. Son resultado del anlisis de las

! Secuencias de cidos nucleicos: ! S e c u e n c i a s d e p r o t e n a s

Genbank European Molecular DNA Data Bank of

The International Nucleotide

wwProtein Data Bank

Numero de estructuras por

Provee anotacin detallada de secuencias biolgicas, incluyendo:

SwissProt contiene informacin curada por expertos que obtienen

TrEMBL obtiene sus secuencias traduciendo automticamente cidos

Base de datos curada.

Cul es la patente asociada?

Debe incluir obligatoriamente los siguientes campos:

!Para realizar bsquedas complejas es comn utilizar operadores

!Para especificar frases, stas deben ser escritas entre "".

!Esto aplica a todo tipo de bases de datos includo Google!!!

S-ar putea să vă placă și