Sunteți pe pagina 1din 21

UNIVERSIDAD NACIONAL MAYOR DE SAN

MARCOS
(Universidad del Per, DECANA DE AMRICA)

FACULTAD DE CIENCIAS BIOLGICAS


Escuela Acadmico Profesional de Gentica y
Biotecnologa
BIOLOGA MOLECULAR
PRCTICA N 1

ANALISIS BIOINFORMTICO DE SECUENCIAS


NUCLEOTDICAS
PROFESORA: GIOVANNA SOTIL
Fecha de entrega: 10/09/13
Integrantes:
-Yaser Alzamora Manosalva 12100020
- Cristian Cancho Ccaico

12100088

-Tamara Gil Ramrez.

12100097

-Rubn Ferro Mauricio

12100090

En este presente informe, vamos a recrear los pasos a seguir para analizar una secuencia de
nucletidos de la cual no conocemos la especie a la cual pertenece, y luego, la analizaremos con
otras secuencias similares utilizando los diferentes software y programas correspondientes.
1. Con la secuencia problema (la cual es la secuencia de nucletidos de la especie que an
desconocemos),
ingresamos
a
la
pgina:
http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastHome
Para poder analizar y comparar dicha secuencia de una manera precisa y poder
determinar la especie a la cual pertenece segn los datos obtenidos mediante esta pgina.
Ingresamos a esa direccin, y nos encontramos en la siguiente ventana:

Como podemos observar, encontramos 5 tipos de programas BLAST, las cuales se usaran
de acuerdo al tipo de secuencia a analizar y tambin a los resultados que queremos obtener.
Para este caso, utilizamos nucleotide blast, ya que poseemos una secuencia de nucletidos
y lo que queremos es obtener la especie a la cual pertenece o se asemeja esta (a la cual, a partir
de ahora llamaremos secuencia problema).

2. Hacemos clic en nucleotide blast y nos aparece la siguiente ventana:

Introducimos la secuencia problema (con el nombre de Sec Prob) y luego le damos clic a
BLAST y obtenemos los siguientes resultados:
a) En esta tabla, podemos observar datos como el cdigo de consulta (el cual es el primero
de la izquierda), el nombre de la secuencia problema, tipo de molecula, longitud de la secuencia,
base de datos usados (el primero de la derecha), descripcin y por ltimo el programa usado.

b) En esta imagen observamos la distribucin de las 86 cadenas de nucletidos semejantes a


nuestra secuencia problema.
Como podemos observar, no todas las barras son del mismo tamao y no todas comienzan del
nucletido nmero uno; esto se debe a que las 86 cadenas no coinciden al 100% con la secuencia
problema, sino en una porcin determinada, de la cual (con ayuda de la escala que se encuentra
en la parte superior de la tabla) podemos calcular la cantidad de nucletidos que coinciden con la
secuencia problema.
Tambin observamos que el color de las barras (las cuales representan, cada una, a las 86
cadenas de nucletidos) no es el mismo en todos los casos; uno de los colores es rojo, y esto se
debe a que las longitudes de las cadenas son mayores de 200 nucletidos pero, observamos que
segn la escala solo 5 cadenas son mayores a 200 nucletidos y las dems no, esto se debe a que
las cadenas si son mayores a 200 nucletidos pero que segn la escala solo coinciden en menos de
200 nucletidos (la mayora en aproximadamente 140); en el caso de los que son fucsias, se debe a
que la cantidad de nucletidos que las componen oscilan entre 80 a 200 nucletidos.

c) En esta tabla podemos observar la lista de las secuencias ms similares a nuestra


secuencia problema de nucletidos. En esta lista, encontramos ciertos datos para cada secuencia
de nucletidos comparada con nuestra secuencia problema. El programa realiza alineamientos a la
hora de comparar una secuencia problema con las secuencias que posee en su base de datos, esos
alineamientos resultantes son llamados pares de alta puntuacin (Max score). El Total Score, es la
puntuacin final de los alineamientos resultantes. El E-value es un parmetro, el cual nos permite
definir que alineamientos queremos obtener de acuerdo a su evaluacin estadstica. Cuanto
menor sea el valor de E, ms significativo es su alineamiento. En donde dice Accession,
encontramos una serie que contiene dos letras y cierta cantidad de nmeros; esto es un cdigo, a
travs del cual podemos acceder a ciertos datos acerca de la secuencia nucletida a la que
pertenece.

d) En la siguiente imagen observamos uno de los alineamientos que realizo el BLAST.


Podemos observar que el alineamiento, efectivamente se realiza desde el nucletido 1 de la
secuencia problema con el nucletido 1 de una de las secuencias que se encontr en el Genbank.
Es por eso que podemos decir que la especie de nuestra secuencia problema es la misma que la de
la especie comparada ya que la similitud es exacta y el valor de E (Expect) es 0.

Para este segundo caso, no se podra decir lo mismo ya que las similitudes comienzan
desde el nucletido 1 para la secuencia problema pero desde el nucletido 181 para la secuencia
hallada en el Genbank. Esto quiere decir que no siempre empezaran desde el nucletido 1 ambas
secuencias.

Las barritas indican que dichos nucletidos son iguales, es decir las identidades. Si no
encontramos barritas es porqu hay cambios, es decir los nucletidos son diferentes. La cantidad
de nucletidos iguales se representa en el porcentaje de identidad. Para el primer caso, tenemos
una identidad de 355/355 (100%); es por eso que tomamos esa especie de la secuencia de
nucletidos del Genbank y decimos que es la misma especie de nuestra secuencia problema. Lo
mismo no sucede en el segundo caso, ya que observamos una identidad de 303/374 (81%) el cual
es un porcentaje muchsimo ms bajo.
Los Gaps, sealan la cantidad de espacios (como guiones) que se tuvieron que insertar en
las cadenas para hacer que encajen los nucletidos de ambas secuencias. En el primer caso no se
incorpor ninguno (0%) mientras que en el segundo caso se pusieron 23/374 (6%). Estas
diferencias entre ambas cadenas se podran deber a que en el largo camino de la evolucin, los
organismos fueron incorporando o eliminando nucletidos a sus cadenas de ADN pero todava
poseen la cadena madre (de la cual surgieron las variantes).
3. Como lo que queremos es comparar las secuencias, elegiremos 10 de ellas con el siguiente
criterio: menor valor de E. As que hacemos clic en donde dice E-value y automticamente
obtenemos la lista nuevamente ordenada pero segn sus valores de E.

Una vez ordenados, seleccionamos los 10 primeros en la lista y damos clic en download
y seleccionamos FASTA (complete sequence) y damos clic en continuar. A continuacin se descargara un
archivo (text document), en el cual encontraremos las 10 secuencias de nucletidos las cuales analizaremos
mediante el programa Bioedit.

Antes de pasar al Bioedit, observamos que la siguiente grafica de barras vario con
respecto a la inicial, ya que aqu el ordenamiento de las barras se debe al orden de sus valores de
E respectivamente.

4. En la siguiente imagen, mostramos las 10 secuencias debidamente ordenadas.

Este archivo lo subiremos al programa Bioedit, el cual las presentara de la siguiente


forma:

Podemos observar que existe una variacin de colores, esto es respecto al tipo de base
nitrogenada que posee dicho nucletido. Observamos tambin que no todas las cadenas son del
mismo tamao (en la siguiente imagen se puede apreciar mejor), la menor posee 213 nucletidos,
mientras que la mayor un total de 582 nucletidos.

En esta imagen observamos las secuencias completas.

5. Como podemos observar, las secuencias no estn alineadas debidamente; es por eso que
utilizaremos la aplicacin Clustal W, la cual encontraremos dando clic en Accesory
Aplication, ClustalW multiple alignment y obtendremos la siguiente ventana en la cual
damos clic a Run ClustalW.

Luego aparecer otra ventana donde las secuencias estarn debidamente ordenadas:

Estn ordenadas nucletido a nucletido, y aqu podemos apreciar sus ordenamientos


completamente.

Como observamos, no todos poseen similitudes desde el nucletido 1, as que


procederemos a recortar los nucletidos que estn sobrando para poder obtener un anlisis
solo de las porciones que coinciden.

Solo recortaremos los nucletidos de los lmites, es decir tanto del inicio como del final
pero no podemos alterar las cadenas en las partes centrales, es decir eliminar los Gaps (espacios
que el programa inserto para que los nucletidos encajen perfectamente) ya que estaramos
eliminando los cambios a nivel evolutivo (insercin y delecin de nucletidos).
Luego de eliminar los nucletidos sobrantes, obtenemos una casi solida cadena de
nucletidos mejor observada en la siguiente imagen:

6. El programa Bioedit nos permite editar mejor nuestras secuencias, maquillarlas para
un mejor entendimiento del anlisis de las secuencias de nucletidos. Para eso,
utilizaremos diferente herramientas:
a)

Aqu utilizamos la vista de nucletidos semejantes a la secuencia problema mediante puntos; es


decir, los puntos significan que los nucletidos en esas zonas son iguales a los nucletidos en la
secuencia problema. En la primera fila (nucletidos del 1 al 70) observamos que es una zona
conservada (exceptuando por dos nucletidos) a travs de la evolucin por las 10 especies que
poseen estas secuencias de nucletidos.

b) Este programa nos proporciona una vista grafica (la cual mostramos desde que subimos
las secuencias sl Bioedit); para poder acceder a esta vista hacemos clic en File, luego en
graphic vew.

Nos aparecer la siguiente ventana:

En esta ventana observamos diferentes opciones para editar: subrayar ttulos, cursiva a los ttulos,
sombrear la tabla, bloques de 10 residuos, etc; los cuales podemos aplicar a segn nos parezca.

Cuando obtengamos el aspecto deseado, hago clic en Edi, Copy page as a Bitmap segn la imagen.

Y obtenemos las secuencias completas:

Encontramos algunos papper acerca del Secuenciamiento de algunos haplotipos de la especie de


nuestra secuencia problema.
A. The Mitochondrial Genome of the Venomous Cone Snail Conus consors.

Los caracoles de cono son depredadores marinos pertenecientes a la superfamilia Conoidea. En


esta revisin se muestra la secuencia del genoma mitocondrial del Conus consors y se describe
una supuesta regin control que al parecer est ausente en el ADN mitocondrial. Esta regin
control abarca alrededor de 700 pares de bases y se encuentra entre los genes que codifican el
ARN de transferencia para fenilalanina y citocromo c-oxidasa subunidad III (cox3). La regin
control sugiere un rol en la replicacin mitocondrial y la transcripcin.

En la siguiente figura se tiene el esquema detallado de la regin control del ADN mitocondrial de
Conus consors, en comparacin con los haplotipos de C. borgesi y C. textil. La regin no
codificantes de la regin control del ADN mitocondrial est situado entre los genes de tRNAPhe y
COX3. La regin se extiende desde 12713 hasta 13411. Las comparaciones muestran cortas
repeticiones invertidas (IR1) que al parecer son caractersticas comunes entre los genomas
mitocondriales de los caracoles Conus. Tambin se aprecia una larga repeticin invertida (IR2)
exclusiva de C. consors. Adems se observan adornos poly (T), poly (A) y poly (AT) de secuencia
(resaltados de amarillo).
B. Using the miraEST assembler for reliable and automated mRNA transcript
assembly and SNP detection in sequenced ESTs

Presentamos un ensamblador de secuencias EST especializado en la reconstruccin de la prstina


del ARN mensajero transcrito, mientras al mismo tiempo detecta y clasifica a los polimorfismos de
un solo nucletido (SNPs) que se dan en sus diferentes variantes.
El ensamblador utiliza estrategias iterativas centradas en las regiones de alta confianza dentro de
las secuencias y tiene una estrategia de respaldo para el uso de las regiones de baja confianza
cuando sea necesario. Sus funciones especiales para ensamblar grandes nmeros de secuencias
muy similares, se emplea un editor automtico que edita y analiza alineamientos inspeccionando
el subyacente, y la deteccin y clasificacin de las propiedades de la secuencia como SNP con una
alta especificidad y la sensibilidad que tiene a una mutacin por secuencia.

El ensamblador se emplea para detectar la mutacin en clulas y anlisis de similitud de las


transcripciones entre organismos.

Se presenta una imagen del contig en la secuencia ensamblada despus de la primera iteracin.
Todas las secuencias fueron ensambladas a la vez. Despus del ensamblado, miraEST busca las
discrepancias no resueltas con buena calidad de seal, agrupando columnas enteras como
potenciales lugares de SNP peligrosos; estas bases tienen por lo general seales de rastro de baja
calidad que el ensamblador considera demasiado peligroso para ser tomada como criterio de
diferenciacin.

S-ar putea să vă placă și