Sunteți pe pagina 1din 14

Curso Mitolab-Ciberer 09

Tradicionalmente, la investigacin en Biologa Molecular se ha realizado en el


laboratorio experimental, pero la inmensa cantidad de datos generados en los ltimos
aos con la conclusin del Proyecto Genoma Humano y desarrollo subsiguiente de
otros grandes proyectos de genotipado (HapMap Project, 1000 Genomes Project) destinados
a explorar la relacin entre variantes genticas y la predisposicin a las enfermedades,
diagnstico y respuesta a los frmacos, requiere el desarrollo de herramientas
computacionales que permitan extraer toda la inormacin contenida en las bases de
datos para generar nuevo conocimiento! "on#untamente los continuos avances
tecnolgicos en la Biologa Molecular, unidos al desarrollo inorm$tico, han aumentado
las posibilidades de conocer el uncionamiento de los seres vivos a nivel molecular y
celular! %s necesario uniicar toda esta inormacin para alcanzar un cuadro completo
de la biologa de la c&lula para comprender cmo se alteran distintos procesos en
distintas enermedades! 'or eso, hoy en da es dicil entender la investigacin en el
$rea de las enermedades gen&ticas humanas sin la Bioinorm$tica!
(egn la deinicin del )ational "enter or Biotechnology *normation +)"B*, la
Bioinorm$tica es la disciplina cientica que combina biologa, computacin y
tecnologas de la inormacin! %l ob#etivo de esta disciplina es investigar y desarrollar
herramientas tiles para llegar a entender el lu#o de inormacin! *nicialmente, la
bioinorm$tica se ocupaba sobre todo de la creacin de bases de datos de inormacin
biolgica, especialmente secuencias, y del desarrollo de herramientas para la
utilizacin y an$lisis de los datos contenidos en esas bases de datos! -a
Bioinorm$tica ha ido evolucionando para ocuparse cada vez con mayor proundidad
del an$lisis e interpretacin de los distintos tipos de datos +secuencias de genomas,
proteomas, dominios y estructuras de protenas, etc,!
.'ara qu& se utilizan las bases de datos/ -as bases de datos utilizadas en
biologa molecular son archivos de datos que provienen de dierentes $reas
almacenados de modo eicaz y uniorme y de uso pblico para la comunidad cientica!
0ay que tener en cuenta los siguientes aspectos1
2 -os proveedores de recursos1 centros u organizaciones especializadas en
tener y mantener las bases de datos!
2 -as bases de datos1 hay mucha variedad!
2 -as herramientas para estudiar y analizar toda la inormacin contenida en las
bases de datos y as poder extraer conocimiento en sentido biolgico a partir
de ellas!
%xisten bases de datos primarias que contienen secuencias de 3)4 y de
protenas, estructuras de protenas y periles de expresin de genes y protenas! "ada
registro de estas bases de datos contiene una secuencia y su correspondiente
5anotacin5 +comentarios que incluyen inormacin acerca de esa secuencia,
habitualmente hechos de modo manual por algn anotador,!
-as bases de datos secundarias archivan los datos que son ruto del an$lisis de
las bases de datos primarias, tales como amilias de protenas, motivos o dominios
APLICACIN DE HERRAMIENTAS
BIOINFORMTICAS EN EL ESTUDIO DE LAS
ENFERMEDADES GENTICAS HUMANAS
1
INTRODUCCIN
Curso Mitolab-Ciberer 09
proteicos, amilias de genes, mutaciones, polimorismos, implicacin en enermedades,
etc!
%xisten cientos de bases de datos, por el tipo de inormacin se pueden distinguir1
bibliogr$icas, taxonmicas, de nucletidos, genmicas, de protenas, de microarrays y
otras!
6n cat$logo completo de todas las Bases de 3atos disponibles aparece todos los
aos en la revista )ucleic 4cids 7esearch! %l artculo del 899: lo pod&is conseguir en
http1;;nar!oxord#ournals!org;cgi;content;ull;<=;suppl>?;38
%n este curso nos centraremos en las bases de datos bibliogr$icas, de nucletidos,
genmicas, de protenas y clnico2gen&ticas principalmente!
@rganizacin de los artculos publicados en la revistas de $mbito cientico!
'ubmed +)"B*,1 http1;;AAA!ncbi!nlm!nih!gov;pubmed;
Medline1 0ay que estar suscrito! http1;;medline!cos!com;
-as bases de datos de secuencias de nucletidos son muy importantes para la
biologa! 'ara asegurar la disponibilidad de las secuencias al pblico general, ninguna
revista cientica puede publicar un artculo describiendo una secuencia de nucletidos
o proteica si no ha sido depositada en una de las < principales bases de datos
internacionales!
%xiste una colaboracin internacional entre las < principales bases de datos de
nucletidos1 %MB-2BanB en el %B*, 33BC +3)4 3ata BanB o Capan, en el "*B;)*D y
DenBanB en el )"B*! %stas bases de datos intentan alo#ar todas las secuencias de
nucletidos que son de dominio pblico! %st$n divididas en varias secciones que
rele#an grupos taxonmicos, adem$s de otros grupos tales como secuencias %(T
+expressed sequence tag,, patentes, secuencias 0TDs +high2through2put genomic
sequences,, etc! %n estas bases de datos prima la cantidad sobre la calidad, en el
sentido de que contienen todo lo que los investigadores depositan en ellas, y son
bastante heterog&neas en cuanto al tipo de secuencias, su calidad, su anotacin, etc!
'or este motivo son tambi&n redundantes, ya que la misma secuencia puede
encontrarse repetida en distintos registros procedentes de distintos autores! %stas
bases de datos son accesibles gratuitamente por *nternet y se sincronizan entre ellas
cada 8E horas, por lo que contienen exactamente la misma inormacin!
"ada entrada en estas bases de datos es un registro que debe tener un
identiicador nico, ormado por letras y;o nmeros, que se denomina 5nmero de
acceso5 +accession number, y es estable +nunca cambiar$ en sucesivas versiones de
ese registro,! 'or tanto, otro identiicador indicar$ las sucesivas versiones de cada
acceso, por lo que es importante conocer ambos! %n ebrero de ?FFF, el consorcio
2
BASES DE DATOS
1. BASES DE DATOS BIBLIOGRFICAS
2. BASES DE DATOS DE NUCLETIDOS
Curso Mitolab-Ciberer 09
DenBanB;%mbl;33BC acord un ormato de versin consistente en el nmero de
acceso seguido de un punto y un nmero! 4dem$s, DenBanB incluye el indicador "GI"!
Bsquedas en EMBL1 "onstituye el repositorio
m$s importante en %uropa! -as principales
uentes de secuencias de 3)4 y 7)4 son
reportadas por investigadores individuales,
proyectos de secuenciacin de genomas y
aplicaciones patentadas1
http1;;AAA!ebi!ac!uB;embl;index!html
Bsquedas en GenBank: DenBanB es la base de
datos de secuencias del )*0 en %%66, una
coleccin anotada de todas las secuencias de
3)4 disponibles pblicamente!
http1;;AAA!ncbi!nlm!nih!gov;sites;entrez/dbGnuccoreHitoolGtoolbar
DDBJ +Capn,1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2e!html
-ocalizacin y an$lisis genmico de una secuencia en el genoma humano1
Denome BroAser y %)(%MB-1 extraccin de toda la inormacin contenida en estos
recursos! *normacin sobre secuencia +exn, c3)4, protena,!
Denomes (erver1 inormacin o enlaces de todos los genomas secuenciados por
el momento, desde virus a humanos1 http1;;AAA!ebi!ac!uB;genomes;index!html
Iormbase es el portal del genoma de gusano C. elegans1
http1;;AAA!Aormbase!org;
Jlybase es el portal de la mosca del vinagre Drosophila melanogaster1 Jlybase
http1;;lybase!bio!indiana!edu; y http1;;AAA!ruitly!org
A. Entrez Proteins. 4ctualmente, las principales uentes de datos de
secuencias de protenas son traducciones de secuencias de nucletidos depositadas
en las bases de datos DenBaB;%MB-;33BC! %l )"B* protein database orece el m$s
simple y completo set de protenas deducidas! "asi todas las protenas en %ntrez
tienen linBs a distintas bases de datos1 nucletidos en DenBanB, )"B* taxonoma,
'ubmed, MM3B, @M*M, etc!
http1;;AAA!ncbi!nlm!nih!gov;sites;entrez/dbG'roteinHitoolGtoolbar
B. UniprotKB! %xiste una gran variedad de bases de datos de protenas,
sobre todo bases de datos secundarias! -as principales bases de datos primarias de
amino$cidos est$n ahora uniicadas en 6niprotKB +6niversal 'rotein 7esource,
http1;;AAA!uniprot!org;help;uniprotBb,
3
3. BASES DE DATOS DE GENOMAS
4. BASES DE DATOS DE PROTENAS
Curso Mitolab-Ciberer 09
que contiene el cat$logo m$s completo de protenas y rene la inormacin de las <
principales bases de datos primarias1 (Aiss2'rot, Tr%MB- y '*7!
UniProtkb!"iss#Prot: base de datos de secuencias proteicas proporcionando
un alto nivel de inormacin +descripcin de la uncin de la protena, estructura
de los dominios, modiicaciones post2transduccionales, variantes, etc,! (Aiss2
'rot http1;;AAA!expasy!ch;sprot;! -as bsquedas de enzimas se realizan con
%)LMM% database http1;;AAA!expasy!org;enzyme;! 'ara identiicar y
caracterizar protenas es muy til la p$gina de 'roteomics Tools1
http1;;AAA!expasy!ch;tools;
UniProtKB$rEMBL1 +Translation o %MB- )ucleotide (equence 3atabase, un
suplemento de (Aiss2'rot que contiene todas las traducciones de las secuencias
de nucletidos del %MB- pero que no se han integrado todava en el (Aiss2'rot1
http1;;AAA!ebi!ac!uB;uniprot;
PI% +'rotein *normation 7esource,1 (e cre originalmente por Margaret 3ayho,
y actualmente se mantiene en DeorgetoAn 6niversity en colaboracin con
Munich *normation "enter para secuencias de protenas! '*7 es menos riguroso
que (Aiss2prot en mantener la calidad de sus anotaciones1
http1;;pir!georgetoAn!edu;
&. 4lgunas bases de datos de proteomas1 estructuras secundarias o
dominios! Nara segn la uente de las protenas y el an$lisis que se realiza sobre
ellas! -os t&rminos de motivo o dominio de protena son ampliamente utilizados en
biologa para describir ciertas partes de las protenas! (e puede deinir como motivo el
con#unto de residuos de amino$cidos conservados que son importantes para la uncin
proteica y est$n localizados a una pequea distancia unos de otros! 6n dominio
proteico es una unidad compacta tridimensional que orma una estructura estable y
muestra un nivel de conservacin en la evolucin!
M'$I(!&A)1 %ncuentra los motivos en una secuencia1 http1;;myhits!isb2sib!ch;cgi2
bin;moti>scan
P%'!I$E1 "ontiene inormacin sobre la estructura secundaria de protenas, amilias,
dominios, etc! %xpresiones regulares sobre (Aiss2prot1 '7@(*T%
BL'&K!: Motivos alineados de '7@(*T%;'7*)T(1
http1;;bioinormatics!Aeizmann!ac!il;blocBs;
P%I)$!: "on#unto de motivos que deinen una amilia sobre (Aiss2prot;Tr%MB-1
http1;;AAA!bioin!manchester!ac!uB;dbbroAser;'7*)T(;index!php
B-@"K( y '7*)T( utilizan motivos mltiples +ingerprints o bloques,
EM'$I(1 es una base de datos de motivos de secuencia de protenas representando
propiedades bioqumicas y unciones biolgicas conservadas1
http1;;moti!stanord!edu;emoti;
I)$E%P%': *ntegra la inormacin de muchas bases de datos de dominios1
*)T%7'7@
D. Bases de datos de estructuras proteicas tridimensiona*es 1 -as
estructuras tridimensionales de las protenas son mucho m$s diciles de determinar
4
Curso Mitolab-Ciberer 09
que las secuencias primarias, pero son, al menos en algunos aspectos, m$s
inormativas! %l conocimiento de las coordenadas de los $tomos proporciona la
inormacin de la arquitectura del sitio activo, la situacin de elementos secundarios, la
exposicin espacial de las cadenas, las posiciones relativas de dominios individuales,
etc! 0ay bases de datos de protenas que almacenan datos reeridos a la estructura,
tanto las coordenadas obtenidas por cristalizacin como clasiicaciones de dominios
estructurales por amilias!
PDB: +'rotein 3ata BanB, 'rincipal base de datos de estructuras tridimensionales de
protenas1 '3B! 'ara el modelado de protenas2mutaciones se pueden usar los
programas1 vieAer2prot O!9, rasmol y pmol!
E. 'tras bases de datos de prote+nas 1
,uman Protein %e-erence Database +0'73,1 -a base de datos 0'73 representa
una plataorma centralizada para representar e integrar inormacin perteneciente a
arquitectura de dominios, modiicaciones post2traduccionales, redes de interaccin y
enermedades asociadas a cada protena en el proteoma humano! Toda la inormacin
depositada en 0'73 ha sido extrada de manera manual de la literatura por bilogos
expertos los cuales leen, interpretan y analizan los datos publicados!
http1;;AAA!hprd!org;
Mitoc.ondria* Proteome1 http1;;AAA!mitop!de1:9:9;mitop8;
A. 'MIM contiene inormacin sobre enermedades gen&ticas humanas, genes y
enotipos1 descripcin, caractersticas clnicas, diagnstico, gen&tica molecular,
reerencias, etc! http1;;AAA!ncbi!nlm!nih!gov;omim
B. Gene&ards es una base de datos de genes humanos que proporciona una
inormacin concisa genmica, protemica, transcriptmica, gen&tica y
uncional de todos los genes humanos conocidos y candidatos! -a inormacin
incluye1 relacin con enermedades, mutaciones, ()'s, expresin g&nica,
uncin g&nica, interacciones protena2protena, etc1 http1;;AAA!genecards!org;
A. The ,uman Gene Mutation Database at the
*nstitute o Medical Denetics in "ardi! http1;;AAA!hgmd!c!ac!uB;ac;index!php
*ncluye mutaciones en el 3)4 nuclear! 0DM3 ha recogido datos de mutaciones
durante ?8 aos y se public en *nternet en abril del ?FF=! 4cuerdo con "elera!
0ay que estar suscrito! 'od&is entrar con mi passAord1 0DM38O:P=? y mi email1
erichardQcbm!uam!es en log in! Namos a buscar las mutaciones descritas en MM44,
'40 +como gene symbol,, y propionic acidemia +como disease;phenotype,!
B. ,uman Mitocondria* Genome Database1 "ontiene mutaciones en el
genoma mitocondrial1 M*T@M4'1 http1;;AAA!mitomap!org;
5
5. BASES DE DATOS CLNICO-GENTICAS
6. BASES DE DATOS DE ARIANTES DEL GENOMA HUMANO
Curso Mitolab-Ciberer 09
&. Base de datos de po*imor-ismos1 6n polimorismo de un slo
nucletido o ()' +Single Nucleotide Polymorphism) es una variacin en la secuencia
de 3)4 que aecta a una sola base de una secuencia del genoma! (in embargo,
algunos autores consideran que cambios de unos pocos nucletidos, como tambi&n
pequeas inserciones y deleciones pueden ser consideradas como ()'! 6na de estas
variaciones debe darse al menos en un ?R de la poblacin para ser considerada como
un ()'! -os ()' orman hasta el F9R de todas las variaciones genmicas humanas,
y aparecen cada ?99 a <99 bases en promedio, a lo largo del genoma humano! 3os
tercios de los ()' corresponden a la sustitucin de una citosina por una timina!
a/ !in0*e )uc*eotide Po*1morp.ism1 db()'1
http1;;AAA!ncbi!nlm!nih!gov;pro#ects;()';
0erramientas de bsquedas de ()'s uncionales1
'upasuite1 http1;;pupasuite!bioino!cip!es;
J2()'1 http1;;compbio!cs!queensu!ca;J2()';
(M()'s1 http1;;AAA!sysnps!org
b/ ,apmap1 %s un cat$logo de variantes gen&ticas comunes que ocurren en los
humanos! 3escribe cu$les son esas variantes, dnde ocurren en el 3)4, y cmo
est$n distribuidas entre la gente en poblaciones y entre poblaciones en dierentes
partes del mundo! http1;;AAA!hapmap!org;index!html!en
c/ Data Base o- Genomic 2ariants +3DN,1 'roporciona un resumen de la variacin
estructural en el genoma humano! %l contenido de la base de datos es solamente
representando variaciones estructurales +alteraciones genmicas que implican
segmentos de 3)4 S?Bb, identiicadas en muestras control! 'roporciona un cat$logo
til de datos de controles para estudios de correlacin entre el genotipo y enotipo!
http1;;pro#ects!tcag!ca;variation;
A*ineamientos 0*oba*es 1 *oca*es de secuencias! 4lineamientos mltiples usando
"lustalA http1;;AAA!ebi!ac!uB;Tools;clustalA8;index!html en el %B* +leer antes el tutorial
sobre "lustalI disponible en1 http1;;AAA!ebi!ac!uB;8can;tutorials;protein;clustalA!html
Bsqueda de secuencias en bases de datos mediante alineamientos +bsqueda de
secuencias similares,1 http1;;blast!ncbi!nlm!nih!gov;Blast!cgi y todas sus variantes
explicadas en la gua de seleccin de programas1
http1;;AAA!ncbi!nlm!nih!gov;B-4(T;producttable!shtml
6
HERRAMIENTAS
Curso Mitolab-Ciberer 09
%l ob#etivo de esta pr$ctica es la utilizacin de las herramientas bioinorm$ticas para la
exploracin del genoma humano y para la bsqueda de inormacin relacionada con
enermedades gen&ticas! 'ara ello se plantean los siguientes ob#etivos especicos1
2 "onocer en proundidad las bases de datos!
2 6tilizar con soltura las herramientas bioinorm$ticas para el estudio de
enermedades gen&ticas humanas!
2 3esarrollar e#emplos que permitan el uso de estos recursos!
2 (uministrar una perspectiva de las lneas de actuacin en este campo para el
desarrollo de otros traba#os de investigacin!
A!"#$#%&%'( 1-6) Exploracin de bases de datos biolgicos y comparacin
de secuencias. En estas actividades exploraremos varias bases de datos de
secuencias de DN, de prote!nas y de genomas. partir de secuencias
annimas de DN reali"aremos b#s$uedas en las bases de datos, por
e%emplo para identificar con $ue tipo de gen o prote!na estamos traba%ando.
&eali"aremos alineamientos de secuencias y b#s$uedas de secuencias
'omlogas. (mparte) Eva &ic'ard
A!"#$#%&%'( *-+) nlisis de secuencias de DN. *e anali"arn distintas
secuencias de DN de pacientes con enfermedades metablicas 'ereditarias
y se identificarn las mutaciones aprendiendo las normas para su
nomenclatura. &eali"aremos un estudio del efecto de mutaciones de splicing
y de polimorfismos. (mparte) +ourdes &ui".
*dentiicar y descargar secuencias de 3)4 y protenas! "omo se ha indicado
anteriormente, existen < grandes servicios principales de acceso a bases de datos de
3)4 y protenas, localizados en 6(4, %uropa y Capn1
%n 6(4 existe la base de datos DenBanB
%n %uropa existe la base de datos %MB-
%n Capn existe la base de datos 33BC1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2
e!html
-as bases de datos de $cidos nucleicos y protenas son pr$cticamente las mismas en
las < instituciones, ya que intercambian registros cada 8E horas! -as tres bases de
datos se dierencian en los distintos servicios que orecen, y en el modo en que se
orecen dichos servicios!
0ay muchas ormas de realizar una bsqueda en DenBanB! (e puede hacer usando
slo texto o caliicadores! -a bsqueda es altamente sensitiva a lo que se escriba, es
decir, a tu 5query5!
7
OB,ETIOS
PRCTICA
A!"#$#%&% 1) B&('( %' %&"-( %' ./!0'1"#%-( 2 34-"'5.&(
Curso Mitolab-Ciberer 09
E3ercicio 4.4: Busca en DenBanB la secuencia codiicadora completa +cds,
nucleotdica del gen de la methylmalonic aciduria cbl4 type! ."u$ntos registros
encuentras con cada una de la siguientes bsquedas1 MM44, human methylmalonic
aciduria cbl4 type, human 4)3 methylmalonic aciduria cbl4 type, human
methylmalonic aciduria cbl4 type gene/ 6na vez que hayas identiicado la secuencia
m$s apropiada, anota su nmero de identiicacin! ."u$l es el smbolo de este gen/,
."u$l es su longitud/, .qu& uncin tiene la protena/, .dnde se localiza/!
E3ercicio 4.5: 7epite la bsqueda del gen en el %)(%MB-! Busca el transcrito, la
protena, los exones, los ()'s! 4prender a exportar la secuencia proteica en ormato
asta! 4ctualmente este navegador es el m$s usado por los investigadores para ver
genes y sus productos, toda la inormacin est$ integrada!
E3ercicio 4.6: 4naliza tambi&n la inormacin del gen en las siguientes direcciones1
6niDene1
http1;;AAA!ncbi!nlm!nih!gov;6niDene;clust!cgi/
6D*3G=8?:8PHT4T*3GF=9=H(%47"0G0omoR89sapiensUorganismVR894)3
R89MM44
y en %ntrez Dene1 http1;;AAA!ncbi!nlm!nih!gov;gene;?==P:O/
ordinalposG?HitoolG%ntrez(ystem8!'%ntrez!Dene!Dene>7esults'anel!Dene>7N3oc(
um
3ebido a la explosin en el nmero genomas completos secuenciados durante los
ltimos aos, y al inter&s en su an$lisis y comparacin, existen diversas bases de
datos de genomas! %ntre las m$s importantes se encuentran, como se ha mencionado
anteriormente1
Base de datos de genomas del )"B*
Base de datos de genomas del %MB-
4simismo, se han desarrollado o una serie de herramientas bioinorm$ticas para su
exploracin, como el visor de mapas del )"B* de genomas eucariticos, y el
navegador de %)(%MB-!
E3ercicio 5.41 %n el visor de mapas del genoma humano del )"B*, utiliza el sistema
de bsqueda para localizar el gen de human methylmalonic aciduria cbl4 type! ."u$l
es su posicin cromosmica/ .Wu& dos genes rodean a este gen en el mapa
citogen&tico/
E3ercicio 5.5: 7epite esta misma bsqueda en el navegador de genomas de
%)(%MB-!
%n *nternet hay una innumerable cantidad de bases de datos disponibles que no slo
son de secuencias de $cidos nucleicos y protenas!
@M*M +@nline Mendelian *nheritance in Man, , que rele#a estudios sobre las
causas moleculares de las enermedades humanas!
'3B +'rotein 3ata BanB,, de estructuras tridimensionales de las protenas!
8
A!"#$#%&% 2) B&('( %' %&"-( %' 6'.-7&(
A!"#$#%&% 3) O"4&( 8&('( %' %&"-(
Curso Mitolab-Ciberer 09
(Aiss 83 'age1 Base de datos de protemica, que incluyen inormacin e
im$genes de geles 823%!
E3ercicio 6.4. Busca la inormacin relativa al gen de human methylmalonic aciduria
cbl4 type en la base de enermedades @M*M! ."antos intrones y exones se
incluyen/ .Wu& tratamiento de lleva a cabo con estos pacientes/!
E3ercicio 6.5. Busca la inormacin relativa al gen de human phenylalanine
hydroxylase en la base de enermedades @M*M! ."antos intrones y exones se
incluyen/ .Wu& tratamiento se lleva a cabo con estos pacientes/!
.0as notado alguna dierencia en estas dos enermedades/, .la extensin de la
inormacin es la misma/!
E3ercicio 6.6. 4n$lisis de estructuras tridimensionales con '3B! %n avanced search,
poner el nmero de %" 8!O!?!?P correspondiente a methylmalonic aciduria cblB type
+human 4T'1 cobalamin adenosyltranserase,! 4nalizar la estructura tridimensional de
la protena!
'ara poder comparar secuencias, debemos de proceder siempre a su alineamiento, ya
que necesitamos asegurarnos de que estamos realizando comparaciones entre
posiciones homlogas, es decir que proceden de una posicin ancestral comn! 3ebe
de quedar claro que simi*itud y .omo*o0+a son cosas dierentes! (imilitud es
parecido, y se suele medir en porcenta#e! %l concepto de homologa es evolutivo, e
implica descendencia a partir de un ancestro comn! -a homologa no se mide de
orma cuantitativa, como la similitud1 o se es homlogo o no se es!
-os m&todos para comparar dos secuencias se pueden agrupar en dos grandes
grupos1
G*oba*1 comparacin de dos secuencias en toda su longitud, tratando de
obtener el me#or alineamiento posible! %n general son aplicables a secuencias
m$s o menos parecidas y de longitudes similares!
Loca*1 comparacin de pequeos ragmentos +5palabras5, de las dos
secuencias en toda su longitud, tratando de obtener el me#or alineamiento
posible! (on as aplicables a secuencias con grados dierentes de similitud o
con longitudes dierentes! -a mayora de los bilogos utilizan este tipo de
m&todos!
6n alineamiento mltiple de secuencias es simplemente el alineamiento de m$s de
dos secuencias! 3e nuevo, se trata de establecer relaciones de homologa! 4lgunos de
los m&todos de alineamiento mltiple m$s eicaces son los m&todos #er$rquicos, que
construyen primero un $rbol que sirve de gua para el alineamiento posterior! 6no de
los programas m$s utilizados es "lustalI!
E3ercicio 7.4. 4linea la protena MM4B humana con la de ratn +M. musculus), C.
elegans, y D. rerio +Lebraish, utilizando el servidor %B* "lustalI! Buscar los archivos
de las protenas de las distintas especies en el %)(%MB-, exportarlos en ormato
J4(T4 a un archivo de Iord y hacer el alineamiento en clustalA! 4nalizar tambi&n el
alineamiento con todos los ortlogos que realiza el %nsembl!
."u$ntos homlogos +ortlogos, aparecen en %nsembl/, .qu& regin est$ m$s
conservada en todas las especies/, .hay muchos gaps/, .'or qu&/, .Wu& longitud
tienen/, .'or qu&/!
9
A!"#$#%&% 4) C-73&4&!#1. 2 &0#.'&7#'."- %' ('!/'.!#&(
Curso Mitolab-Ciberer 09
-os m&todos de bsqueda de secuencias en bases de datos se basan en el
alineamiento y similitud signiicativa entre la secuencia problema +5query5, y las
secuencias depositadas base de datos! %l algoritmo m$s utilizado de bsqueda de
secuencias es el B-4(T!
BLA!$. *dentiicacin de dominios y secuencias homlogas en distintas
especies! 6na de las aplicaciones de B-4(T m$s habituales es la bsqueda
bioinorm$tica +in silico) de genes humanos causantes de enermedad de los que slo
se conoce la uncin de la protena, utilizando como sondas genes o protenas
homlogas de otros organismos, es lo que se conoce como genmica comparativa!
Mediante B-4(T se pueden detectar regiones relativamente cortas de similitud entre
la sonda utilizada y las protenas resultantes de la traduccin conceptual de la base de
datos de %(T +Expressed Seuence !ags,, secuencias parciales de c3)4s
procedentes de genotecas especicas de te#ido o tipo celular! 0ay que tener en cuenta
que la secuencia de amino$cidos est$ m$s conservada que la de nucletidos, por eso
se usa como sonda la secuencia de amino$cidos y la herramienta de tb*astn! 6n
e#emplo de esta aplicacin la pod&is encontrar en la siguiente reerencia1
Dallardo et al! 899? http1;;AAA!cell!com;4C0D;retrieve;pii;(9998F8FP9P=E9:=O
en la que se describe el clona#e in silico de los genes humanos M""4 y M""B,
responsables de la metilcrotonilglicinuria!
6n e#emplo de cmo las t&cnicas para localizar genes responsables de %M0
han avanzado incorporando la inormacin de bases de datos pblicas, lo constituye la
reciente identiicacin de los genes implicados en el metabolismo intracelular de
cobalaminas, grupos de complementacin c"l# y c"l$ +acidemia metilmalnica
aislada,, genes MM44 y MM4B, mediante bsquedas de homologa a protenas
bacterianas que ormaban parte de un opern bacteriano en el que se encontraba la
metilmalonil2"o4 mutasa
3obson et al! 8998 http1;;AAA!pnas!org;content;FF;8E;?OOOE!long
3obson et al! 8998bis http1;;hmg!oxord#ournals!org;cgi;content;ull;??;8=;<<=?
%sta estrategia se basa en el hecho de que en bacterias es recuente que los genes
implicados en una misma ruta metablica se encuentren agrupados en lo que se
denomina cluster u opern!
E3ercicio 8.4. Buscar secuencias similares de protenas a la protena methylmalonic
aciduria cblB type human +MM4B,! "onseguir la secuencia en ormato asta en el
%)(%MB-! +ya la ten&is en el archivo de Iord de las secuencias asta, "opiar la
secuencia! *r a la base de datos de B-4(T del )"B*1
http1;;blast!ncbi!nlm!nih!gov;Blast!cgi/"M3GIebH'4D%>TM'%GBlast0ome
*r a protein B-4(T y pegar la secuencia en ormato asta! 4nalizar los datos! .(e
obtienen las protenas homlogas que en el apartado de ortlogos del %)(%MB-/,
.cmo es el alineamiento/!
%s interesante resaltar que podemos tambi&n obtener la siguiente inormacin de la
secuencia de protena1 prediccin p&ptido seal, peso molecular, p%, localizacin
celular, etc!
10
A!"#$#%&% 5) B9(:/'%& %' ('!/'.!#&( (#7#0&4'(
A!"#$#%&% 6) A.;0#(#( %' ('!/'.!#&( %' 34-"'5.&(
Curso Mitolab-Ciberer 09
http1;;AAA!uniprot!org;uniprot;'889<<
E3ercicio 9.4. "alcula el peso molecular y el p% de la protena methylmalonic aciduria
cblB type human +MM4B,, con la base de datos de
http1;;AAA!expasy!ch;tools;pi>tool!html
E3ercicio 9.5. 'redice el p&ptido lder de la secuencia de la protena methylmalonic
aciduria cblB type human +MM4B, con la base de datos de
http1;;AAA!cbs!dtu!dB;services;(ignal';
%xiste otra Aeb que es especica de p&ptido seal de protenas mitocondriales1
M*T@'7@T http1;;ihg8!helmholtz2muenchen!de;ihg;mitoprot!html
%xiste una base de datos de los p&ptidos lderes1
http1;;AAA!signalpeptide!de;index!php/mGintro
:.4 Mapas de restricci;n.
(i queremos cortar una secuencia nos ser$ muy til conocer su mapa de restriccin!
%sto lo podemos realizar con la herramienta Mapper, o con I%B"6TT%7
http1;;rna!lundberg!gu!se;cutter8;
E3ercicio :.4. "onstruye el mapa de restriccin de la secuencia de la methylmalonic
aciduria cbl4 type con Mapper!
:.5. Identi-icaci;n de mutaciones.
6tilizando el programa &,%'MA! que nos permite visualizar secuencias, vamos a
analizar el exn ?? del gen '40 que ha sido ampliicado a partir de muestras de 3)4
genmico de pacientes con enilcetonuria! %l ob#etivo de esta actividad es identiicar
las mutaciones en homocigosis o en heterocigosis y aprender la nomenclatura!
4brir las secuencias ?2: +escoger dos, con el "07@M4(! *dentiicar la secuencia
exnica y la intrnica lanqueante, y compararla con la secuencia normal +sacada del
%)(%MB-,! 4notar los posibles cambios, conirmar que no son ()' +en el
%)(%MB-,! .-as mutaciones est$n en homocigosis o en heterocigosis/! 4nalizar el
eecto de las mutaciones en la secuencia codiicante! .Wu& cambio de amino$cido
producen/! .M las mutaciones en la secuencia intrnica/! .Wu& eecto tendr$n/!
."mo se nombran cada una de estas mutaciones +nombre comn y nombre
sistem$tico,/! 6tilizar la inormacin siguiente1
Nomenclatura de mutaciones&
"ada tipo de mutacin requiere una deinicin precisa del cambio predecible a nivel de
protena, a nivel del 3)4 genmico y del m7)4, si corresponde! -as normas
internacionales de nomenclatura de mutaciones se recogen en1
http1;;AAA!hgvs!org;mutnomen; ! %n el caso de sustituciones de amino$cidos se utiliza
normalmente el cdigo de una letra para &stos, apareciendo primero el cdigo del
amino$cido que cambia, la posicin y el amino$cido mutante con una p! delante para
indicar que se trata de la nomenclatura a nivel de protena +p! e#! p!7?P=-, indica un
cambio de arginina por leucina en la posicin ?P= de la protena,! %n el caso de
11
A!"#$#%&% *) A.;0#(#( %' ('!/'.!#& %' DNA
Curso Mitolab-Ciberer 09
mutaciones nonsense, el codn de parada se designa con una T +p!78E<T, sustitucin
de una arginina por un codn de parada en la posicin 8E< de la protena,! %sta
designacin de las mutaciones se conoce como nombre comn +el m$s usual,! %n el
nombre sistem$tico, la posicin del nucletido aparece primero y luego el cambio
+?8E:D4, y se incluye una c minscula +c!?8E:D4,, para indicar que se trata de la
numeracin del c3)4 +secuencia codiicante, complementaria al m7)4 y designando
como nucletido ? la 4 del codn de iniciacin 4TD de la cadena polipeptdica,! 'ara
las mutaciones de splicing localizadas en intrones, en el nombre comn se designa el
nmero del intrn tras las siglas *N( +inter'ening seuence, y la posicin nucleotdica
del cambio, contando a partir del exn m$s cercano +p! e#! *N(<X? gt, cambio de una
g por una t en la base ? del intrn <,! %n general, se suele escribir las bases intrnicas
en minsculas y las exnicas en maysculas, para acilitar el reconocimiento de
secuencias exnicas e intrnicas! 'ara inserciones o deleciones se utilizan las
abreviaturas ins y del, respectivamente +p! e#! ?898delE, delecin de E nucletidos en
la posicin ?898 del c3)4, y en el nombre comn se incluye las siglas (s, si produce
un cambio en la ase de lectura +(rameshi(t,!
Ejemplos de nomenclatura de mutaciones
)ombre comn )ombre sistem$tico %ecto
Missense (cambio de aminocido)
p!78E<W c!P8: D4 cambio de 4rg por Dln en la posicin 8E<
p!*=OT c!?FE T" cambio de *le por Thr en la posicin =O
)onsense (parada de la traduccin)
p!7???T c!<<?"T cambio de 4rg ??? por codn de parada
de la traduccin
Inserci;n
p!KEO8sins4 c!?<OOins4 cambio de la ase de lectura +(rameshi(t,
De*eci;n
p!'8??sdel" c!=<8del" cambio de la ase de lectura +(rameshi(t,
p!M?F:s c!OF<>=E?del88pb cambio de la ase de lectura +(rameshi(t,
!p*icin0 (procesamiento del mRNA)
*N(?9nt2??gSa c!?9==2??ga alteracin del splicing +activacin sitio crptico,
*N(?8nt?gSa c!?<?OX?ga alteracin del splicing )exon s*ipping)
%ste ltimo tipo de mutaciones y la nomenclatura segn su eecto se describir$n con
mayor detalle en la siguiente actividad!
'b3eti<o: 6tilizaremos distintos programas para predecir seales de splicing en una
regin, calcular su uerza relativa y ver cmo las mutaciones las aectan! Namos a
12
A!"#$#%&% <) A.;0#(#( %' 7/"&!#-.'( %' (30#!#.6
Curso Mitolab-Ciberer 09
analizar las mutaciones *N(?92??gSa, y *N(?92<gSc en el exn ?? del gen '40,
identiicadas en la actividad anterior y otras de localizacin exnica!
In-ormaci;n:
4proximadamente un ?OR de las mutaciones puntuales asociadas a
enermedades gen&ticas humanas aectan al procesamiento del m7)4 o splicing! (e
conoce como splicing al proceso mediante el cual el m7)4 sure el procesamiento de
eliminacin de sus intrones previamente a la traduccin de la secuencia codiicante!
(e lleva a cabo por un comple#o macromolecular denominado spliceosoma,
compuesto por O partculas ribonucleoprotenas 2sn7)'s2 +6?, 68, 6E, 6O y 6=, y
m$s de O9 protenas! "ada sn7)' est$ compuesto por un 7)4 pequeo nuclear, rico
en uridinas +sn7)4, y mltiples protenas asociadas!
-as mutaciones de splicing pueden aectar a las secuencias conservadas OY
donadora o <Y aceptora de splicing, el tracto polipirimidnico y la secuencia de
ramiicacin B'(, o a secuencias reguladoras auxiliares, menos conservadas como
son los potenciadores o enhancers y silenciadores de splicing que pueden estar
localizados en secuencias exnicas +%(% Zexonic splicing enhancers2, %(( 2exonic
splicing silencers2, o intrnicas +*(% Zintronic splicing enhancers2, *(( Zintronic
splicing silencers2,!
-os dos eectos m$s comunes de las mutaciones de splicing son la no inclusin
de algn exn en el m7)4 +exon s*ipping, o la activacin de nuevos sitios crpticos de
splicing resultando en la generacin de transcritos aberrantes!
Mediante el an$lisis in s+lico podemos orientarnos sobre el mecanismo
molecular por el cal la mutacin e#erce su eecto, bien por disminuir la
complementariedad de secuencia entre distintas protenas del spliceosoma como la
ribonucleoprotena 6? que se une especicamente al sitio OY de splicing[ bien por
modiicar secuencias reconocidas como enhancers de splicing exnicos e intrnicos
+%(%s e *(%s, donde se unen las protenas (7 auxiliares de splicing! 'ara ello, est$n
disponibles distintos programas1
?, AAA!ruitly!org;seq>tools;splice!html , para determinar sitios de splicing
8, http1;;ast!bioino!tau!ac!il;(plice(iteJrame!htm
<, http1;;genes!mit!edu;burgelab;maxent;Tmaxentscan>scoreseq!html para
determinar el score
4) http1;;cryp2sBip!img!cas!cz; para predecir el eecto de mutaciones
O, %(% inder http1;;rulai!cshl!edu;tools;%(%;
=, 7%("6%2%(% http1;;genes!mit!edu;burgelab;rescue2ese
7) '%(T (erver +http1;;cubAeb!biology!columbia!edu;pesx,!
%stos tres ltimos acilitan la identiicacin de posibles %(%s bas$ndose en su
reconocimiento por cuatro protenas (71 (J8;4(J, ("<O, (7pE9 y (7pOO!
13
Curso Mitolab-Ciberer 09

!ecuencias imp*icadas en e* procesamiento de* m%)A o splicing
E3ercicio =.4: 4naliza las secuencias <\ y O\ de splicing del exn ?? con los programas
?, 8, < .Tienen un score alto, es decir, son buenas secuencias para ser reconocidas
por la maquinaria de splicing/! 4naliza la secuencia <\ de splicing con las mutaciones
*N(?92<gSc y *N(?92??gSa! .Wu& eecto ves sobre el score/! .Wu& ocurre con la
mutacin *N(?92??gSa/!
E3ercicio =.5: 4naliza la mutacin *N(?92<gSc con el programa E! .Wu& eecto
predice/!
E3ercicio =.6: 4naliza con los programas O y = el cambio c!??OOD;" +-<:O-, en el
mismo exn ??, para analizar si podra aectar al splicing +ya que no cambia aa,!
E3ercicio >.4: 4naliza los ()'s anotados en el gen MM4B utilizando el %)(%MB- y el
servidor (M()'s1 http1;;AAA!sysnps!org;, que utiliza la inormacin integrada de las
siguientes bases de datos +ltima versin actualizada,1 %nsembl O<, 0apmap release
8E, 0aplovieA E!? y 'upasuite! 4brir la p$gina del servidor 'upasuite
http1;;pupasuite!bioino!cip!es;
para ver las opciones de asignacin de unciones a los ()'s!
.Wu& eecto predice el programa para cada ()'/! .%st$n validados los ()'s/!
."u$ntos tag2()'s hay/!
14
A!"#$#%&% +) A.;0#(#( %' SNP(

S-ar putea să vă placă și