Sunteți pe pagina 1din 21

Departamento de Ciencias de la Vida

Ingeniera en Biotecnologa
Informe de Bioinformtica
Taller No.1
Nombre: Anah Boada
Fecha: 07 de Noviembre-2016
Profesor: Dr. Francisco Flores
OBJETIVOS
Objetivo General:
Identificar las Bases de datos biolgicas y formatos de secuencias a partir de
ejercicios de aprendizaje.
Objetivos Especficos:
Revisar y entender el uso de las diferentes bases de datos biolgicas
disponibles en la red.
Aprender a realizar bsquedas de secuencias biolgicas en las bases de
datos.
Conocer los diferentes formatos de secuencias existentes para su uso en
herramientas bioinformticas.
1. Bases de datos biolgicas
a) Ingresar y familiarizarse con cada una de las siguientes bases de datos
biolgicas:
NCBI: El Centro Nacional para la Informacin Biotecnolgica es parte de la
Biblioteca Nacional de Medicina de Estados Unidos. El NCBI ofrece adems algunas
herramientas bioinformticas para el anlisis de secuencias de ADN, ARN y
protenas, siendo BLAST una de las ms usadas. NCBI alberga genoma secuenciado
en GenBank, y un ndice de los artculos biomdicos de investigacin en PubMed
Central y PubMed, as como otra informacin relevante a la biotecnologa.

SWISS-PROT: Swiss-Prot es una base de datos biolgica de secuencia de


protenas. Fue creada en 1986 por Amos Bairoch durante su tesis doctoral y
desarrollada por el Instituto Suizo de Bioinformtica y el Instituto Europeo de
Bioinformtica. La caracterstica principal de Swiss-Prot es que las protenas que se
encuentran almacenadas en esta base de datos tienen un alto nivel de anotacin.
Esto significa que se conoce su estructura tridimensional, la funcin, las
modificaciones post-traduccionales, variantes, etc.

GEN BANK. GenBank es la base de datos de secuencias genticas del NIH


(National Institutes of Health de Estados Unidos), una coleccin de disponibilidad
pblica de secuencias de ADN. Realiza una puesta al da cada dos meses. GenBank
es parte de International Nucleotide Sequence Database Collaboration, que est
integrada por la base de datos de ADN de Japn (DNA DataBank of Japan (DDBJ)).
GenBank y sus colaboradores reciben secuencias genticas producidas en
laboratorios de todo el mundo, procedentes de ms de 100.000 organismos
distintos. GenBank contina creciendo a ritmo exponencial, doblando la cantidad
de informacin contenida cada 10 meses.

GENE (dentro de NCBI): Integra la informacin de una amplia gama de


especies. Un registro puede incluir la nomenclatura, las secuencias de referencia
(RefSeqs), mapas, rutas, variaciones, fenotipos, y enlaces a genoma-, Fenotipo-, y
los recursos especficos del locus en todo el mundo.

KEGG: (Kyoto Encyclopedia of Genes and Genomes) (Enciclopedia de Genes y


Genomas de Kioto) es una coleccin de bases de datos en lnea de genomas, rutas
enzimticas, y qumicos biolgicos. La base de datos PATHWAY registra las redes de
interacciones moleculares dentro de las clulas, y variantes de ellas especficas a
organismos particulares. A partir de julio de 2011, KEGG ha cambiado a un modelo
de suscripcin y el acceso a travs de FTP ya no es gratis.

OMIM: El proyecto Mendelian Inheritance in Man es un conjunto de reglas


bsicas sobre la transmisin por herencia de los organismos padres a sus hijos, o
base de datos que cataloga todas las enfermedades humanas conocidas con un
componente gentico, y cuando es posible, la asociacin a los genes en el genoma
humano. Es un compendio amplio y autorizado de los genes humanos y fenotipos
genticos que est libremente disponible y actualizado diariamente. OMIM es autor
y editor en el Instituto McKusick-Nathans de Medicina Gentica de la Facultad de
Medicina de la Universidad Johns Hopkins, bajo la direccin del Dr. Ada Hamosh. Su
residencia oficial es omim.org.

RCSB PDB: Se basa en los datos mediante la creacin de herramientas y


recursos para la investigacin y la educacin en biologa molecular, biologa
estructural, biologa computacional, y ms all. Este recurso es alimentado por el
Archivo de datos del Banco de datos de protenas sobre las formas 3D de protenas,
cidos nucleicos y conjuntos complejos que ayuda a los estudiantes y los
investigadores a comprender todos los aspectos de la biomedicina y la agricultura,
desde la sntesis de protenas hasta la salud y las enfermedades.

Pub Med: Abarca ms de 26 millones de citas para la literatura biomdica de


MEDLINE, revistas de ciencias de la vida y libros en lnea. Las citas pueden incluir
enlaces a contenido de texto completo de PubMed Central y sitios web de editores.

EMBL-EBI: El hogar de grandes datos en biologa, utilizamos la bioinformtica -la


ciencia de almacenar, compartir y analizar datos biolgicos, para ayudar a las
personas en todas partes a entender cmo funcionan los sistemas vivos y qu los
hace cambiar.

DDBJ: DDBJ Center recoge datos de secuencias de nucletidos como miembro de


INSDC (International Nucleotide Sequence Database Collaboration) y proporciona
datos de secuencia de nucletidos libremente disponibles y sistema de
supercomputador, para apoyar las actividades de investigacin en ciencias de la
vida.

2. Bsqueda simple de una secuencia biolgica y conversin de formatos:


a) Ingresar a la base de datos de NCBI (https://www.ncbi.nlm.nih.gov/)

b) Seleccionar la base de datos nucleotide e ingresar en el cuadro de


bsqueda: BRC1
c) Ingresar al primer resultado y obtener la secuencia en formato
Genbank:

d) Convertir la secuencia encontrada en los siguientes formatos (usar


EMBOSS Seqret):
http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/
PEARSON/FASTA/fa

EMBL/em

GCG

PLAIN/Raw

3. Manipulacin bsica de secuencias


a) De forma similar, buscar la secuencia PROTEICA: Pyruvate
dehydrogenase (Seleccionar la base de datos protein)

b) Seleccionar cualquiera de las protenas encontradas

c) Observar cada seccin y comentar: locus, definition, accesion,


features: regions, sites, cds, etc
SECCIONES
LOCUS
DEFINITI
ON
ACCESI
ON
FEATUR
ES

ALR14683
629 aa
linear
BCT
02-SEP-2016
pyruvate dehydrogenase [Vibrio natriegens NBRC 15636 =
ATCC 14048 = DSM 759].
ALR14683

Source

1..629

/organism="Vibrio natriegens
NBRC 15636 = ATCC 14048 = DSM
759"
/strain="ATCC 14048"
/isolation_source="salt
marsh mud"
/culture_collection="ATCC:14048"
/db_xref="taxon:1219067"
/chromosome="1"
/country="USA"
/collection_date="27-Feb2012"

Protei
n

1..629
dehydrogenase"

/product="pyruvate
/EC_number="2.3.1.12"

Region
s

1..629

/region_name="aceF"
/note="pyruvate
dehydrogenase dihydrolipoyltransacetylase;
Validated; PRK11854"
/db_xref="CDD:236999"
Region
3..74

/region_name="lipoyl_domain"
/note="Lipoyl domain of the
dihydrolipoyl acyltransferase
component (E2) of 2-oxo acid
dehydrogenases. 2-oxo acid
dehydrogenase multienzyme
complexes, like pyruvate
dehydrogenase (PDH), 2oxoglutarate dehydrogenase (OGDH)
and branched-chain 2-oxo
acid...; cd06849"
/db_xref="CDD:133458"
Region
105..176
/region_name="lipoyl_domain"
/note="Lipoyl domain of the
dihydrolipoyl acyltransferase
component (E2) of 2-oxo acid
dehydrogenases. 2-oxo acid
dehydrogenase multienzyme
complexes, like pyruvate
dehydrogenase (PDH), 2oxoglutarate dehydrogenase (OGDH)
and branched-chain 2-oxo
acid...; cd06849"
/db_xref="CDD:133458"
Region

205..276
/region_name="lipoyl_domain"
/note="Lipoyl domain of the
dihydrolipoyl acyltransferase
component (E2) of 2-oxo acid
dehydrogenases. 2-oxo acid
dehydrogenase multienzyme
complexes, like pyruvate
dehydrogenase (PDH), 2oxoglutarate dehydrogenase (OGDH)
and branched-chain 2-oxo
acid...; cd06849"
/db_xref="CDD:133458"
Region
pfam02817"

324..357
/region_name="E3_binding"
/note="e3 binding domain;

/db_xref="CDD:280908"
415..629
/region_name="2-oxoacid_dh"
/note="2-oxoacid
dehydrogenases acyltransferase (catalytic
domain); pfam00198"
/db_xref="CDD:278621"
Region

Sites

Site
surface"
Site

order(31,38..43,47)
/site_type="other"
/note="E3 interaction
/db_xref="CDD:133458"
41
/site_type="other"
/note="lipoyl attachment

site [posttranslational
modification]"
/db_xref="CDD:133458

CDS

1..629
/gene="aceF"
/locus_tag="PN96_01340"
/coded_by="CP009977.1:264390..266279"
/inference="EXISTENCE:
similar to AA
sequence:RefSeq:WP_020333942.1"
/note="E2 component of
pyruvate dehydrogenase multienzyme
complex; in Escherichia coli
AceF contains three
N-terminal lipoyl domains;
Derived by automated
computational analysis using
gene prediction method:
Protein Homology."
/transl_table=11

ORIGE
N

1 maieinvpdi gtdevevtei lvsvgdkvee eqslitvegd


kasmevpasq agivkeikva
61 egdkvstgsl imifeaegaa eaapapaaea
apaaapapaa aaelkevhvp diggdevevt
121 eimvaigdsi eeeqslitve gdkasmevpa
pfagtlkeik vaagdkvstg slimvfevag
181 sgapaaapaa veapaaaapa asaakevnvp
diggdevevt eimvavgdtv eeeqslitve
241 gdkasmevpa pfagtvkeik iaagdkvstg
slimvfevag aapapaaapa qaaapaaaap
301 kaeapaaaap aatgdfkend eyahaspvvr
rlarefgvnl skvkgsgrks rilkedvqny
361 vkealkrles gaaasgkgdg aalgllpwpk
vdfskfgete vqplsrikki sganlhrnwv
421 miphvtqwdn aditaleafr keqnaieakk
dtgmkitplv fimkavakal eafpafnssl
481 sedgeslilk kyvnvgiavd tpnglvvpvf
kdvnkkgiye lseelmavsk karagkltaa
541 dmqggcftis slggiggtaf tpivnapevg
ilgvsksemk pvwngkefep rlqlplslsy
601 dhrvidgaeg arfitylnsc lsdirrlvl
//

d) Manipular y comentar el formato GRAFICO

e)
En el grfico se puede observar las caractersticas de las protenas separadas en
otro nivel de la secuencia, adems se puede identificar caractersticas de las
regiones de la base de datos de dominio conservado (CDD), y de igual forma
podemos conocer la medida exacta de cada dominio e identificar el tamao de
cada fragmento.
f) Obtener la secuencia codificante de la protena (nucletidos)
(haciendo click derecho en CDS y abriendo nueva pestaa)

g) Traducir la secuencia de nucletidos obtenida en secuencias de


aminocidos, con ayuda de la herramienta TRANSEQ
http://www.ebi.ac.uk/Tools/st/emboss_transeq/ (escoger los seis
MARCOS DE LECTURA - FRAMES)

h) Encontrar el MARCO DE LECTURA correspondiente a la protena


original observando entre los SEIS obtenidos. Fijarse en la
existencia de asteriscos *. Comparar con la protena original
encontrada en NCBI.
MARCO DE LECTURA ORIGINAL

MARCO DE LECTURA OBTENIDO

i) Encontrar ORFs (Open Reading Frames) con ayuda de la herramienta


ORF finder de NCBI https://www.ncbi.nlm.nih.gov/orffinder/

j) Encontrar el marco de lectura abierto correspondiente a la protena


original y sealarlo.

CONCLUSIONES:

Gracias a este nuevo material bioinformtico se logr identificar las Bases de datos
biolgicas y formatos de secuencias a partir de ejercicios de aprendizaje, que se
encuentran disponibles en la red y que para el biotecnlogo son un arma poderosa
para su investigacin. Se pudo realizar bsquedas de secuencias biolgicas en las
bases de datos, conociendo los diferentes formatos de secuencias existentes para
su uso en herramientas bioinformticas.

S-ar putea să vă placă și