Biomol Final

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS BIOLÓGICAS
ESCUELA DE MICROBIOLOGÍA Y PARASITOLOGÍA
LABORATORIO DE BIOLOGÍA MOLECULAR
ANÁLISIS BIOINFORMÁTICO DE SECUENCIA PROTÉICAS
Profesor: Gustavo Sandoval
Integrantes:
NAMÓ ASENCIO, Carlos Enrique 18100049
ORIHUELA DIAZ, Víctor Franklin 18100145
ZULUAGA SUCAPUCA, Seshia 18100156
Horario: viernes 8:00 – 12:00 pm
Aula: 101
2019-II
I. INTRODUCCION
La comunidad científica que realiza investigación dentro del área biológica, en el afán de
encontrar respuestas a estudios de la estructura molecular y las secuencias de ADN, día a
día se enfrenta a mayores retos que implican el manejo de enormes volúmenes de datos
que crecen de manera exponencial en tamaño y complejidad, debido a los avances
tecnológicos que permiten hacer cálculos más precisos. Afortunadamente, el desarrollo
tecnológico tanto en el ámbito de la electrónica como el desarrollo de software y las
telecomunicaciones han permitido un avance significativo en las técnicas para el
procesamiento y análisis inteligente de los datos, beneficiando los estudios científicos que
permiten conocer mejor las estructuras de los organismos vivos. La complejidad que
conlleva el manejo de grandes volúmenes de datos exige de procesos computacionales
con alto nivel de desempeño en cuanto a espacio y tiempos de respuesta.
Bioinformática
Para poder conocer cómo es que es el procedimiento y que herramientas se utiliza, se hace
uso de la bioinformática, las tareas más importantes de las que se ocupa la bioinformática
consisten en entender las correlaciones, las estructuras y los patrones en los datos
biológicos. En los últimos años, la Bioinformática ha atraído la conjugación de varias
disciplinas, entre las que están la informática, las matemáticas, la estadística, la química
y las ciencias biológicas no tradicionales.
 Alcance de la Bioinformática
La Bioinformática se compone de dos subcampos complementarios entre sí:
 El desarrollo de herramientas informáticas y bases de datos

 La aplicación de estas en la generación de conocimientos biológicos para
comprender mejor los sistemas vivos
 ¿Cómo se puede aplicar la Bioinformática?
La bioinformática no solo se ha convertido en una ciencia esencial para la
genómica básica y la investigación en biología molecular, también esta teniendo
un gran impacto en muchas áreas de la biotecnología y las ciencias biomédicas.
Tecnologías computacionales aplicadas a la bioinformática
La biología al igual que todas las ciencias que son base de la investigación científica,
proveen (dependiendo de los objetivos planteados) grandes volúmenes de información
que requieren de técnicas computacionales avanzadas para permitir hacer procesamiento
en tiempo real.
Muchas de estas técnicas se enmarcan dentro de temas de investigación y desarrollo
informático que tienen que ver con el almacenamiento y procesamiento de datos, entre
las
cuales podemos mencionar las bases de datos (BD)relacionales y semánticas, las bodegas
de datos, minería de datos y algunas técnicas de inteligencia artificial, entre otras.
 Bases de datos biológicas
Con base en su contenido, las bases de datos biológicas se pueden dividir en tres
categorías:
 Bases de datos primarias, las cuales contienen datos biológicos originales.
Son archivos de secuencia en bruto o datos estructurales (GenBankm y
Protein Data Bank).
 Bases de datos secundarias que contienen información procesada
computacionalmente, con base en datos primarios. (Swiss-Prot y PIR).
 Bases de datos especializadas, aquellas que atienden a un interés de
investigación en particular (Flybase)
 Bodegas de Datos
Un Data Warehouse (DW) es un conjunto de datos integrados orientados a una
materia, que varían con el tiempo y que no son transitorios, los cuales soportan el
proceso de toma de decisiones de la administración.
Ligand Depot es una fuente de datos integrados para encontrar información acerca
de moléculas pequeñas, proteínas y ácidos nucleicos. Se centra en proporcionar
información química y estructural para pequeñas moléculas.
 Minería de Datos en Bioinformática
La minería de datos se orienta hacia el estudio de técnicas para extraer
información valiosa de una gran cantidad de datos biológicos. Para ello, son
necesarias herramientas de software eficientes que permitan recuperar daros,
comparar secuencias biológicas, descubrir patrones y visualizar el descubrimiento
del conocimiento.
Entre las técnicas de minería de datos en bioinformática mas comunes se pueden
destacar:
 KDD, que es el proceso completo de extracción de conocimientos, no
triviales, previamente desconocidos y potencialmente útiles a partir de un
conjunto de datos.
 Minería textual o KDT, que se orienta a la extracción de conocimiento a
partir de datos (no estructurados en lenguaje natural).
 Estadística en la minería de datos, que se puede dividir en dos grupos:
aprendizaje supervisado y no supervisado.
Las herramientas de software que facilitan la investigación en bioinformática
pueden clasificarse en cuatro clases:
 Herramientas de recuperación de datos. Por ejemplo, Entrez, que es un
sistema integrado de datos de recuperación desarrollado por la NCBI que
proporciona un acceso integrado a una amplia gama de dominios de datos.
 Comparación de la secuencia y las herramientas de alineación, un ejemplo
es BLAST, que realiza búsquedas en la totalidad de una base de datos no
redundante en poco tiempo.
GenBank y EMBL, son dos de las herramientas principales de gestión de
bases datos biológicas para alineamiento local por pares de secuencias.

FASTA se puede utilizar para hacer una comparación rápida de proteínas
o de nucleótidos. Alcanza un alto nivel de sensibilidad para la búsqueda
de similitud mediante la realización de búsquedas optimizadas.
Para la alineación de secuencias múltiples, la herramienta disponible es
ClustalW, la cual se puede utilizar para alinear las secuencias de ADN o
de proteínas con el fin dilucidar sus relaciones, así como su origen
evolutivo.
 Herramienta de descubrimiento de patrones, que utilizan para buscar
patrones o características de los datos. Análisis de Cluster es una
herramienta que se utiliza para encontrar grupos en un determinado
conjunto de datos de tal manera que los objetos en el mismo grupo sean
similares entre sí y diferentes a los de otros grupos.
 Herramienta de visualización, perminten una visualización interactiva y
grafica de los datos genómicos. Los mas grandes paquetes de análisis, tales
como Expression Profiler y GeneQuiz, tienen una herramienta de
visualización integrada en ellos.
II. PROCEDIMIENTO
Una vez obtenida la secuencia (en este caso proporcionada por el profesor),
se procede a utilizar los programas mencionados: PROTPARAM Y
UNIPROT:
a) Copiar la secuencia en PROTPARAM > Compute parameters
b) Se obtiene la secuencia de aminoácidos ordenados, además de una
serie de características que deberán ser analizadas:
Los aminoácidos son

agrupados automáticamente
de 10 en 10 y luego en filas de
60 para poder visualizar y
contabilizar; en este caso hay
503 aminoácidos. También es
calculado el peso molecular:
AMINOÁCIDO NOMENCLATURA CANTIDAD PORCENTAJE
(%)
Alanina A 36 7.2
Arginina R 44 8.7
Asparagina N 28 5.6
Aspartato D 30 6.0
Cisteina C 10 2.0
Glutamina Q 17 3.4
Ácido glutámico E 25 5.0
Glicina G 26 5.2
Histidina H 13 2.6
Isoleucina I 24 4.8
Leucina L 34 6.8
Lisina K 20 4.0
Metionina M 15 3.0
Fenilalanina F 25 5.0
Prolina P 23 4.6
Serina S 57 11.3
Treonina T 22 4.4
Triptófano W 05 1.0
Tirosina Y 13 2.6
Valina V 36 7.2
La Serina es el aminoácido más abundante de todos y desempeña un importante papel
en la función catalítica de muchas enzimas. Se observa que esta proteína podría tener
funciones catalíticas.
Quiere decir que, a este

pH, la biomolécula se
vuelve insoluble y fácil de
extraer de una muestra.
Se observa la
composición y la fórmula
molecular con el conteo
de átomos de la proteína
Importantes datos: Esta proteína está

presente en los reticulocitos de los mamíferos
(antecesores de los glóbulos rojos) por 30
horas, en las levaduras por 20 horas y en la
bacteria gramnegativo Escherichia coli por 10
horas.
c) Se abre la plataforma Unitprot > BLAST y se copia la misma
secuencia problema, luego Run BLAST.
III. RESULTADOS
PROTPARAM
Gráfico de Porcentaje de composición de aminoácidos
COMPOSICION DE AMINOACIDOS
Pyl SEC
Trp 0% 0%
Thr
1%
4%
Val Ala
7% 7% Arg Asn
Ser 9% 6%
12%
Asp
Pro 6%
5%
 Cantidad de residuos cargados
Glu Cys
Lys 5% 2%
Gly
4% Leu His
Phe Ile 5%
7% 5% 3% Gln
5%
3%
Met
3%
Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu
Lys Met Phe Pro Ser Thr Trp Val Pyl SEC
0
64
62
60
58 64
56 0
54 55
52
50
N° total de residuos con carga N° total de residuos con carga
negativa (Asp + Glu) positiva (Arg + Lys)
Serie 1 Serie 2
 Composición Atómica
4500
3887
4000
3500
3000
2468
2500
2000
1500
1000 731 751
500
25
0
Carbono Hidrogeno Nitrogeno Oxigeno Azufre
Serie 1
IV. DISCUSION SOBRE PROTPARAM
 Para el Grafico de Porcentaje de composición de aminoácidos
 El 80% de estos nutrientes se producen en el hígado, son los
llamados aminoácidos no esenciales y el restante debe
proveerse a través de la dieta y reciben el nombre de
aminoácidos esenciales.
 En principio existen aminoácidos que aparecen muy raramente
lo cual no debería afectar a los programas y servicios
bioinformáticos existentes salvo en casos excepcionales.
 Para herramientas como BLAST o FASTA, que dependen de
una matriz de pesos de los aminoácidos para realizar los
alineamientos, estos aminoácidos se mapean como
desconocido
 Para el grafico de columnas sobre Cantidad de residuos cargados
Aunque la estructura representada en el esquema general de un
aminoácido y sus estados iónicos en disolución sea formal mente
correcta, no representa el estado real en que se encuentra la molécula
de disolución acuosa, pues los grupos acido tienden a ceder protones
quedando un grupo carboxilo de carga negativa (-COO), y los grupos
amino tienden a captar protones quedando un grupo amonio de carga
positiva (-NH3).
 La comparación de las columnas nos muestra la cantidad de Aa
no esenciales (Arginina y Lisina) los cuales se encuentran en
una proporción de 64 residuos con carga positiva mientras que
los Aa no esenciales polares de la primera columna (Aspartato
y Glutamato) que se mantienen con una cantidad de 55 residuos
con carga negativa.
 Para el grafico de columnas sobre Composición Atómica
 PROTPARAM calculo el número de átomos y la formula
química de la proteína hipotética. Los valores se pueden
observar en el gráfico.
Elemento No. De átomos Formula química
Carbono C 2468
Hidrogeno H 3887
Oxigeno O 751
Nitrógeno N 731 𝐶2468 𝐻3887 𝑂751 𝑁731 𝑆25
Azufre S 25
TOTAL, ATOMOS
INTERPRETACIÓN DE DATOS EN UNIPROT
Mediante el uso del programa el total de secuencias más con mayor coinciden es de 250
resultados.
Identity
En esta categoría miramos el porcentaje de identidad que tiene la secuencia dada con los
aminoácidos de cadenas proteica que el sistema posee, por ende, los resultados son
ordenados de acuerdo a ese criterio.
En la imagen anterior observamos que los dos primero poseen una identidad al 100%;
sin embargo, la diferencia entre estos radica en la cantidad de secuencia comparada,
siendo que en la proteína D3YT61_CAEEL - Cell death protein 3 subunit p17
igualmente perteneciente al nematodo Caenorhabditis elegans la lectura solo se dio a un
aproximado de 57.05% del total de la secuencia puesta originalmente, esto según

cálculos del total de aminoácidos (503 aminoácidos) en comparación a los comparados
con esta proteína (287 aminoácidos).
Score
El Score es dado por la suma de valores designados a cada aminoácido, de tal modo que
cuando se hace el alineamiento cada uno de los aminoácidos que coinciden pasan a
tener un valor ya dados para después sumarse y generar una cifra que representara al
Score. Así es como en la siguiente imagen se muestran los 15 alineamientos con los
scores más altos.
En la siguiente imagen a presentar se vera de mejor forma las 5 primeras alineaciones,
donde los scores estan dados.

A lo que se puede ver que, comparado a lo visto en la categoría Identity, en esta el
alineamiento de secuencias en mayor al 80%.
E-value
En la evaluación del E-Value tendremos en cuenta que entre mas bajo signifique este,
mayor valor significativo tendrán las secuencias alineadas (Pundir, Martin y
O’Donovan; 2016), de este modo mostraremos los últimos 15 resultados de la lista.

Elección de dos resultados para la comparación:
Dando una revisión a las categorías analizadas, resalta de manera automática la elección
de la Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL)) perteneciente a la
Caenorhabditis elegans, que también posee el logo ( ) Que nos da la certeza de que
esta revisado por la página, que de manera más sencilla está avalado como un buen
alineamiento. Y para la comparación de los resultados nos redirigimos más abajo donde
vemos a otra proteína que posee el logo de review, la cual es la Cell death protein 3
(UniProtKB - P45436 (CED3_CAERE)) perteneciente al nematodo Caenorhabditis
remanei, que posee un porcentaje de identidad de 84.5%, un score de 2,211 y un E-
Value de 0.0 lo hace una opción mas que viable para la comparación.
RESULTADOS
1. Función:
a. Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL))
Actúa como una proteasa de cisteína en el control de la muerte celular programada
(apoptosis) mediante la activación o inactivación proteolítica de una amplia gama de
sustratos.
Componente de la cascada de señalización apoptótica egl-1, ced-9, ced-4 y ced-3
requerida para el inicio de la muerte celular programada en células destinadas a morir
durante el desarrollo embrionario y postembrionario.
Durante la ovogénesis, requerida para la apoptosis de la línea germinal aguas abajo de
ced-9 y ced-4 pero independientemente de egl-1

b. Cell death protein 3 (UniProtKB - P45436 (CED3_CAERE))
Actúa como una cisteína proteasa en el control de la muerte celular programada
(apoptosis) mediante la activación o inactivación proteolítica de una amplia gama de
sustratos.
Componente de la cascada de señalización apoptótica egl-1, ced-9, ced-4 y ced-3
requerida para el inicio de la muerte celular programada en células destinadas a morir
durante el desarrollo embrionario y postembrionario
2. Nombres y taxonomia:
Nombres de Nombre Recomendado:
las proteínas Cell death protein 3
Nombre alternativo:
 Caspase ced-3
Dividido en 3:
 Cell death protein 3 subunit p17
Nombre de Nombre: ced-3
los genes ORF Names: C48D1.2
Organismo Caenorhabditis elegans
Identificador
6239 [NCBI]
Taxonómico
Eukaryota › Metazoa › Ecdysozoa › Nematoda › Chromadorea ›
Línea
Rhabditida › Rhabditina › Rhabditomorpha › Rhabditoidea ›
Taxonómica
Rhabditidae › Peloderinae › Caenorhabditis
Proteomas UP000001940 Component: Chromosome IV
Nombres de Nombre Recomendado:
las proteínas Cell death protein 3
Nombre alternativo:
 Caspase ced-3
Dividido en 3:
Nombre de Nombre: ced-3
los genes ORF Names: CRE_10123
Organismo Caenorhabditis remanei (Caenorhabditis vulgaris)
Identificador
31234 [NCBI]
Taxonómico
Eukaryota › Metazoa › Ecdysozoa › Nematoda › Chromadorea ›

Línea
Rhabditida › Rhabditina › Rhabditomorpha › Rhabditoidea ›
Taxonómica
Rhabditidae › Peloderinae › Caenorhabditis
Proteomas UP000008281 Component: Unassembled WGS sequence

3. Localización subcelular:
4. PTM / Processing
En ambos la actividad catalítica da paso a la aparición de dos formas adicionales a las
subunidades p15 y p13. Herramienta que nos permite ver las descripciones de las
modificaciones postraduccionales de la proteina en cuestion. Las modificaciones
postrauccionales son modificaciones quimicas estructurales que pueden ocurrir con la
participacion de enzimas o no despues de la traduccion con efectos moduladores que

puedan generar el encendido o apagado de su función biológica, cambiar su localización,
alterar su interacción con otras proteínas o determinar la degradación de una proteína.

5. Interacción
Esta sección de UNIPROT nos proporciona

información sobre la estructura
cuaternaria de una proteína y sobre las
interacciones con otras proteínas o
complejos de proteínas.
Esta información está archivada en

diferentes subsecciones. Este modelo es
tomado de la proteína de destrucción
celular 3 de Caenorhabditis elegans.
Esta proteína cuaternaria observada

brinda información sobre las
interacciones mostradas entre los
posibles sitios activos, debido a que es un
programador de apoptosis. Este modelo
es tomado de la proteína de
Caenorhabditis remanei.
V. CONCLUSIONES
 Se puede comprobar mediante la realización de los métodos bioinformáticos
utilizados en este laboratorio, que las proteínas estudiadas y comparadas
comparten similitudes respecto a su función, estructura, pero a la vez también
difieren en diversos aspectos ya sea función, localización y también en sus
respectivas secuencias.
 La interfaz nos proporcionó resultados en diversos formatos, prácticos para su
entendimiento para análisis estadísticos útiles adicionales y generación de
gráficos para visualización adicionales, lo cual lo encontramos útil para poder
comprender los cambios de composición y la relación funcional en la evolución
entre organismos, todo esto gracias a la comparación entre proteínas con
diferente grado de similitud.
 Otros estudios (Kumar, 12) sobre estructura y modelación de proteínas celulasa
utilizaron PROTPARAM para el entendimiento de la composición de
aminoácidos y otras propiedades fisicoquímicas, este incidió en sus resultados
del mismo modo que en esta investigación, por lo que se recomienda el empleo
de este programa por su gran utilidad para determinar los porcentajes de
aminoácidos presentes en los distintos tipos de proteínas.
 No existe una matriz única que se pueda usar siempre, se utilizan según la
familia de proteínas y el grado de similitud esperado, entre las más usadas
fueron:
 PAM:
o Derivadas de alineamientos globales de secuencias cercanamente
relacionadas
o PAM40, PAM250. A mayor N° mayor distancia evolutiva
 BLOSUM
o Derivadas de alineamientos locales de secuencias distantes
o BLOSUM90, BLOSUM45. El N° representa porcentaje de
identidad
REFERENCIAS BIBLIOGRAFICAS
Pundir, S., Martin, M. J., & O’Donovan, C. (2016). UniProt Tools. Current Protocols in
Bioinformatics, 1.29.1–1.29.15. doi:10.1002/0471250953.bi0129s53
Gasteiger, E.; Gattiker, A; Hoogland, C; Ivanyi, I; Appel, RD; Bairoch, A
(2003). "ExPASy: The proteomics server for in-depth protein knowledge and
analysis". Nucleic Acids Research. 31 (13)
https://www.todostuslibros.com/libros/bioinformatica_978-84-7978-645-8
Cairo, O. (2005). Metodología de la programación. México: Alfaomega. Decker, R. y
Hirshfield, S. (2001).
Ruth Ortega Herrero. Metabolismo del glutatión y enzimas antioxidantes frente al estrés
por metal(oid)es y otros agentes, en el ciliado-modelo "Tetrahymena thermophila".
UNIVERSIDAD COMPLUTENSE DE MADRID.2015
Bioinformatics: Sequence and Genome Analysis. Nello Cristianini and Mathew W.
Hahn. Cambridge Univ. Press 2006

Biomol Final

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Biomol Final

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS BIOLÓGICAS

ESCUELA DE MICROBIOLOGÍA Y PARASITOLOGÍA

LABORATORIO DE BIOLOGÍA MOLECULAR

ANÁLISIS BIOINFORMÁTICO DE SECUENCIA PROTÉICAS

Profesor: Gustavo Sandoval

NAMÓ ASENCIO, Carlos Enrique 18100049

ORIHUELA DIAZ, Víctor Franklin 18100145

ZULUAGA SUCAPUCA, Seshia 18100156

Horario: viernes 8:00 – 12:00 pm

encontrar respuestas a estudios de la estructura molecular y las secuencias de ADN, día a

que crecen de manera exponencial en tamaño y complejidad, debido a los avances

tecnológicos que permiten hacer cálculos más precisos. Afortunadamente, el desarrollo

tecnológico tanto en el ámbito de la electrónica como el desarrollo de software y las

telecomunicaciones han permitido un avance significativo en las técnicas para el

conlleva el manejo de grandes volúmenes de datos exige de procesos computacionales

con alto nivel de desempeño en cuanto a espacio y tiempos de respuesta.

biológicos. En los últimos años, la Bioinformática ha atraído la conjugación de varias

y las ciencias biológicas no tradicionales.

La Bioinformática se compone de dos subcampos complementarios entre sí:

 El desarrollo de herramientas informáticas y bases de datos

comprender mejor los sistemas vivos

 ¿Cómo se puede aplicar la Bioinformática?

La bioinformática no solo se ha convertido en una ciencia esencial para la

genómica básica y la investigación en biología molecular, también esta teniendo

un gran impacto en muchas áreas de la biotecnología y las ciencias biomédicas.

Tecnologías computacionales aplicadas a la bioinformática

proveen (dependiendo de los objetivos planteados) grandes volúmenes de información

que requieren de técnicas computacionales avanzadas para permitir hacer procesamiento

Muchas de estas técnicas se enmarcan dentro de temas de investigación y desarrollo

de datos, minería de datos y algunas técnicas de inteligencia artificial, entre otras.

 Bases de datos biológicas

Son archivos de secuencia en bruto o datos estructurales (GenBankm y

Protein Data Bank).

 Bases de datos secundarias que contienen información procesada

computacionalmente, con base en datos primarios. (Swiss-Prot y PIR).

 Bases de datos especializadas, aquellas que atienden a un interés de

investigación en particular (Flybase)

Un Data Warehouse (DW) es un conjunto de datos integrados orientados a una

proceso de toma de decisiones de la administración.

de moléculas pequeñas, proteínas y ácidos nucleicos. Se centra en proporcionar

información química y estructural para pequeñas moléculas.

 Minería de Datos en Bioinformática

La minería de datos se orienta hacia el estudio de técnicas para extraer

necesarias herramientas de software eficientes que permitan recuperar daros,

comparar secuencias biológicas, descubrir patrones y visualizar el descubrimiento

 KDD, que es el proceso completo de extracción de conocimientos, no

triviales, previamente desconocidos y potencialmente útiles a partir de un

 Minería textual o KDT, que se orienta a la extracción de conocimiento a

partir de datos (no estructurados en lenguaje natural).

 Estadística en la minería de datos, que se puede dividir en dos grupos:

aprendizaje supervisado y no supervisado.

Las herramientas de software que facilitan la investigación en bioinformática

pueden clasificarse en cuatro clases:

 Herramientas de recuperación de datos. Por ejemplo, Entrez, que es un

sistema integrado de datos de recuperación desarrollado por la NCBI que

proporciona un acceso integrado a una amplia gama de dominios de datos.

 Comparación de la secuencia y las herramientas de alineación, un ejemplo

es BLAST, que realiza búsquedas en la totalidad de una base de datos no

redundante en poco tiempo.

GenBank y EMBL, son dos de las herramientas principales de gestión de

bases datos biológicas para alineamiento local por pares de secuencias.

o de nucleótidos. Alcanza un alto nivel de sensibilidad para la búsqueda