Sunteți pe pagina 1din 52

BIOINFORMTICA DE

BIOMOLECULAS

Profesora: Romina Seplveda


E-mail: r.sepulvedasepulveda@uandresbello.edu
Un poco de historia
1809 Jean Bap(ste Lamarck, publica Philosophie Zoologique.

1815 Publicacin del libro Analogas menos observadas de los


tres reinos de la Naturaleza, por Juan Ignacio Molina

1859 Charles Darwin publico El origen de las especies. Nature


non facit saltus-

1866 Gregorio Mendel, demuestra que la herencia de ciertos


rasgos sigue patrones determinados herencia
mendeliana.
1944 Oswald Avery demuestra que el DNA es el material
hereditario

1950 Erwin Charga nota que la can(dad de %A=%T y %G=%C


regla de Charga.
1953 James Watson y Francis Crick postulan el modelo de doble hlice del
DNA, cuyo modelo fue basado en difraccin de rayos-X, tomadas
por Rosalind Franklin y Maurice Wilkins en 1952.
1958 Kendrew y Perutz determinan la primera estructura 3D de una
protena (mioglobina) usando la tcnica cristalograaa de rayos X.
1965 Margaret Dayho en 1965 desarroll la primera base de datos de
secuencias de protena llamada 'Atlas of Protein Sequence and
Structure'
1970 Needleman and Wunsch desarrollan el primer algoritmo para
alinear secuencias
1974 Chou and Fasman desarrollan el primer algoritmo para predecir
estructura de protenas
1976 Brookhaven NaDonal Laboratory estableci el Protein Data Bank,
repositorio de estructuras tridimensionales de protenas.
Ese ao se depositaron 13 estructuras, hoy el PDB cuenta con
107.251 estructuras)
1980 Se publica la primera secuencia de un gen (FX174). La secuencia consiste en
5328 bp y contena 9 protenas.
1981 Se publica el algoritmo de alineamiento de secuencias Smith-Waterman
1985 Se describe la reaccin de PCR por Kary Mullis.
1988 Se genera el algoritmo de FASTA para comparacin de secuencias (Pearson)
A nes de los 80 comenz el proyecto del genoma humano y otros
proyectos genmicos que comenzaron a producir datos biolgicos en
can(dades sin precedentes
1990 El programa BLAST es implementado (Altschul)
Se empieza a desarrollar y masicar el uso de internet.
1995 El primer genoma de bacteria es descrito (Haemophilus inuenzeae, 1.8 Mb)
por Craig Venter.
1997 Se publica el primer genoma de e. Coli (4.7 Mbp)
2001 Se publica el primer drai genoma humano!
Cuntas pares de bases tiene un genoma
humano?

a) 1.000 Mb c) 3.000 Mb

b) 2.000 Mb d) 4.000 Mb
Costo de secuenciacin por genoma

Septiembre 2001 Octubre 2015


$95.263.072 USD $1.245 USD
~$65.500.000.000 CLP ~$859.000 CLP
Ley de Moore

https://humanswlord.wordpress.com/2014/01/14/brainfood-moores-law-explained/
Nuevas tecnologas en secuenciacin:
Nanopore technologies

Futuro Cercano:
Sigalov, G., Comer, J., Timp, G. & Aksimentiev, A. Detection of DNA
sequences using an alternating electric field in a nanopore
US$1.000
capacitor. Nano Lett. 8, 5663 (2008).
Genbank

WGS: Whole Genome


Shotgun, genomas
i n c o m p l e t o s o
c r o m o s o m a s
incompletos.

Uniprot (protenas)
Swissprot 555.100 secuencias revisadas.
TrEMBL 88.032.926 secuencias no revisadas.
reas de desarrollo

Medicina con
computadores

Bioqumica
Informtica
con
para biologa
computadores

Matemticas
para biologa

Biologa con
computadores
Informtica en biologa

- Desarrollo de algoritmos y relaciones de sistemas biolgicos.

Minera de datos:
Descubrir patrones en grandes volmenes de
datos.(ej: en bases de datos clnicas)
Aprendizaje automtico (Machine Learning)
Programas que intentan imitar comportamientos )
Bases de datos
Visualizacin de datos
Computacin de alto rendimiento (High
Performance Computing HPC)
Biologa con computadores
Anlisis de secuencias
Omics
Genomics: estudios de genomas de organismos
Proteomics: estudios de gran escala de las
protenas de un organismo.
Biologa con computadores

- Gentica: herencia y variabilidad


Systematics: diversidad de caractersticas de organismos
Filogentica: relacin evolutiva entre organismos

http://sparrow-kaizu.deviantart.com/art/Pokemon-origins-project-Dragons-281957317
Biologa con computadores

Anlisis de estructuras Anlisis de funcin


Biologa con computadores
Biologa de sistemas: estudio de la interaccin de componentes de
sistemas biolgicos.

Oltvai, Z. N. & Barabsi, A.-L. Systems biology. Life's complexity pyramid. Science 298, 763764 (2002).
Matemtica usada en biologa

Biologa matemtica
Modelamiento biolgico
Bioestadstica
Bioqumica con computadores
Biocheminformatics y bioqumica
computacional
Modelado molecular
Biopathways: rutas
metablicas.
Anlisis de biochips: ej
microarrays.
Medicina con computadores
Informtica mdica.
Drug Discovery y diseo de frmacos.
De que nos sirve?

Resolver/interpretar fenmenos que los


experimentos tradicionales no pueden resolver.

Manejo datos masivos como


secuencias, rutas metablicas

Generar soluciones eficientes, en mbitos


desde la genmica hasta la informtica
mdica.
Cuales son las limitaciones de los bioinformticos?
Las predicciones bioinformticas dependen de la calidad
de los datos experimentales.
Lo ideal es usar varios programas y evaluaciones
(distintos enfoques y algoritmos).
Dependemos del poder de cmputo disponible.

La colaboracin interdisciplinaria es fundamental


Bioinformtica en 2017
Medicina personalizada (Precision Medicine)
NIH ha lanzado The Precision Medicine Initiative.
Fue dado a conocer por el presidente Barack Obama el 20 de enero 2015.

Objetivo:
Prevenir y tratar enfermedades considerando las variaciones en
genes, ambiente y estilo de vida.

http://www.nih.gov/precisionmedicine/
Collins, F. S. & Varmus, H. A new initiative on precision medicine. N. Engl. J. Med. 372, 793795 (2015).
Objetivo a corto plazo

http://www.nih.gov/precisionmedicine/
Objetivos a largo plazo

http://www.nih.gov/precisionmedicine/
Leer!! Collins, F. S. & Varmus, H. A new initiative on precision medicine. N. Engl. J. Med. 372, 793795 (2015).
Qu es una base de datos?
Base de datos
Es una coleccin de datos archivados y organizados que permite un
acceso rpido a los fragmentos de datos que necesite.

Para buscar una entrada en una base de datos, el usuario hace una
pregunta especicando un valor a ser encontrado en un campo en
par(cular.
Tipos de bases de datos biolgicas
Bases de Datos de Formato Simple (Flat File Format)

Con(ene lneas de texto con entradas separadas por un delimitador.

Para buscar informacin, la tabla entera (ene que ser leda, proceso muy
ineciente para grandes can(dades de datos.

A pesar de ser inecientes, su uso se jus(ca al requerir mnimo diseo, y que el
formato puede ser fcilmente interpretado por humanos.

Tipos de bases de datos biolgicas
Bases de Datos Relacionales
Usan un set de tablas para organizar la informacin. Cada tabla o relacin, (ene
las y columnas:
Columnas representan campos individuales
Filas representan los valores de los campos

Las columnas de las tablas estn indexadas de acuerdo a atributos comunes, de
manera de tener referencias cruzadas a otras tablas.
Tipos de bases de datos biolgicas

Las bases relacionales se crean usando lenguajes denominados structured query


language (SQL), lo cual toma un largo (empo de planicacin.

Luego de la creacin de una base de datos relacional, agregar una nueva categora
es sencillo.

Bsqueda en estas bases de datos son rela(vamente sencillas de realizar, y (enen
la ventaja que el sistema selecciona datos referenciados de diferentes tablas, por
lo que el Dempo de bsqueda es mucho menor.
Tipos de bases de datos
Bases de Datos Orientadas a Objetos
Estas bases de datos estn compuestas de 'objetos' que combinan informacin y
ru(nas matem(cas que actan sobre la informacin. Los objetos quedan
entonces unidos por un set de 'conexiones' predeterminadas, lo que permite que
la base de datos acepte relaciones jerrquicas.

Bsquedas en estas bases de datos navegan a travs de los objetos con la ayuda de
las 'conexiones', por lo que son muy rpidas.

Lenguajes como C++ son usados
para crear este (po de bases de
datos.
Bases de datos
PRIMARIAS SECUNDARIAS

Datos obtenidos experimentalmente. Son resultado del anlisis de las


bases de datos primarias.

Ejemplos: Ejemplos:

! Secuencias de cidos nucleicos: ! S e c u e n c i a s d e p r o t e n a s


genomas completos, fragmentos obtenidas de la traduccin de
genmicos, cDNAs, ESTs, SNPs, secuencias genmicas.
etc.
! Alineamientos de protenas o
! Estructuras de protenas o cidos cidos nucleicos.
nucleicos: Coordenadas atmicas
obtenidas por rayos X o NMR. ! Familia de protenas, inferidas por
similitud de secuencia o presencia
! Datos de expresin (Protenas o de motivos.
transcritos)
Tipos de bases de datos biolgicas
Bases de datos de nucletidos

Genbank European Molecular DNA Data Bank of


Biology Laboratory Japan (DDBJ)

The International Nucleotide


Sequence Database
Collaboration (INSDC)
Bases de datos primarias

GenBank
GenBank es una base de datos de nucletidos de libre acceso.

http://www.ncbi.nlm.nih.gov/genbank/
Bsqueda avanzada

Resultado:
Bases de datos primarias

wwProtein Data Bank


Bases de datos para el
depsito de coordenadas
atmicas de estructuras
tridimensionales de
macromolculas
(protenas y cidos
nucleicos), determinadas
por cristalografa de rayos
X y resonancia magntica
nuclear (ahora Cryo-EM)

Numero de estructuras por


organismo!
Protein Data Bank
Bases de Datos Secundarias
UniProtKB = Swiss-Prot + TrEMBL

Provee anotacin detallada de secuencias biolgicas, incluyendo:


estructura, funcin, clasificacin en familias de protenas, dominios
estructurales, sitios catalticos, cofactores, modificaciones
postraduccionales, vas metablicas, asociacin a enfermedades. Tambin
provee links a otros recursos de inters, y es muy poco redundante.

SwissProt contiene informacin curada por expertos que obtienen


informacin de la literatura cientfica, y por tanto es de buena calidad.

TrEMBL obtiene sus secuencias traduciendo automticamente cidos


nucleicos a protenas, por lo tanto, la calidad es inferior.
Bases de datos primarias

UniProtKB
http://www.uniprot.org/

Cdigo de acceso

Base de datos curada.


UniProtKB
UniProtKB
Formato FASTA
! Formato de secuencias de protenas y cidos nucleicos, usados para describir
y buscar secuencias biolgicas en bases de datos.

! Con(ene una lnea de denicin que comienza con el signo mayor que ">",
seguido del nombre de la secuencia. A veces, informacin extra es dada
posterior al nombre de la secuencia, separada por un smbolo "|".

! La segunda lnea en adelante conDenen la secuencia de aminocidos o
nucle(dos en cdigo de una letra. Cada lnea es limitada a 60 u 80
caracteres.
Bases de datos secundarias

Metablicas
KEGG (Kyoto Encyclopedia of Genes and Genomes)
Recursos para entender funciones y utilidades de sistemas biolgicos,
como clulas, organismos y ecosistemas.
http://www.genome.jp/kegg/
Bases de datos especializadas

Datos de expresin
!GEO (Gene Expression Omnibus)
!Gene Expression Atlas (GXA)

Enfermedades
!OMIM
!DisGeNET
!NZORD

Variantes gnicas
!dbSNP
!IPD (Inmuno Polymorphism database)
OMIM
Otras bases de datos!

Publicaciones:
!Pubmed
!Scholar google
!Web of Science
!Scopus

Patentes
!INAPI: Instituto Nacional de Propiedad Industrial
!USTPO: United States Patents and Trademark Office.
!ESPACENET: European Patent Office
!Google patents
ustpo.gov

Cul es la patente asociada?


Quin es el inventor?
De que ao es?
Informe 1:
1) Una empresa internacional de alto prestigio desea entrevistarlo para ofrecerle un cargo de lder
del equipo de bioqumicos. Esta empresa trabaja en el estudio de la enzima catalasa de humano.
La reunin es la prxima semana y de sus conocimientos depender su contrato millonario.

Realice un anlisis de la enzima catalasa de humano usando como base Genbank, Uniprot, Protein
Data Bank y KEGG.
*Si lo requiere puede ayudarse de otras bases de datos.

Debe incluir obligatoriamente los siguientes campos:


GenBank Protein Data Bank
Definition ID "Mximo 2
Locus Nombre pginas de texto.
Accession number Publicacin y autores
Organismo Tcnica de obtencin
"Imgenes u
Pares de bases Estequiometria
Ligandos otros, van en
Uniprot anexos.
Nmero de entrada KEGG pathways
Protena Imagen de la ruta (Anexo)
Estado Identificar la enzima en la ruta
Funcin (Anexo)
Ruta implicada Reaccin que realiza.
Nmero de isoformas Cdigo de la enzima
Cofactores
Actividad cataltica
Consideraciones prcticas:

!Para realizar bsquedas complejas es comn utilizar operadores


lgicos como AND, OR, y NOT, los que permiten indicar relaciones
entre las palabras usadas en las bsquedas.

!Para especificar frases, stas deben ser escritas entre "".

!Esto aplica a todo tipo de bases de datos includo Google!!!


Ejemplo:
Qu hara para identificar el siguiente grupo de secuencias en
uniprotkb?

Q9HBA0
Q9EPK8
Q9ERZ8
B2KN54
V9SH16
A0A0S7M8G1
A0A0S7LEP0
A0A0S7M5L7
A0A0S7LEV9
A0A0S7LEX9
A0A0S7M7Y5
A0A0S7ILC0
A0A0S7IL98

S-ar putea să vă placă și