Tradicionalmente, la investigacin en Biologa Molecular se ha realizado en el
laboratorio experimental, pero la inmensa cantidad de datos generados en los ltimos aos con la conclusin del Proyecto Genoma Humano y desarrollo subsiguiente de otros grandes proyectos de genotipado (HapMap Project, 1000 Genomes Project) destinados a explorar la relacin entre variantes genticas y la predisposicin a las enfermedades, diagnstico y respuesta a los frmacos, requiere el desarrollo de herramientas computacionales que permitan extraer toda la inormacin contenida en las bases de datos para generar nuevo conocimiento! "on#untamente los continuos avances tecnolgicos en la Biologa Molecular, unidos al desarrollo inorm$tico, han aumentado las posibilidades de conocer el uncionamiento de los seres vivos a nivel molecular y celular! %s necesario uniicar toda esta inormacin para alcanzar un cuadro completo de la biologa de la c&lula para comprender cmo se alteran distintos procesos en distintas enermedades! 'or eso, hoy en da es dicil entender la investigacin en el $rea de las enermedades gen&ticas humanas sin la Bioinorm$tica! (egn la deinicin del )ational "enter or Biotechnology *normation +)"B*, la Bioinorm$tica es la disciplina cientica que combina biologa, computacin y tecnologas de la inormacin! %l ob#etivo de esta disciplina es investigar y desarrollar herramientas tiles para llegar a entender el lu#o de inormacin! *nicialmente, la bioinorm$tica se ocupaba sobre todo de la creacin de bases de datos de inormacin biolgica, especialmente secuencias, y del desarrollo de herramientas para la utilizacin y an$lisis de los datos contenidos en esas bases de datos! -a Bioinorm$tica ha ido evolucionando para ocuparse cada vez con mayor proundidad del an$lisis e interpretacin de los distintos tipos de datos +secuencias de genomas, proteomas, dominios y estructuras de protenas, etc,! .'ara qu& se utilizan las bases de datos/ -as bases de datos utilizadas en biologa molecular son archivos de datos que provienen de dierentes $reas almacenados de modo eicaz y uniorme y de uso pblico para la comunidad cientica! 0ay que tener en cuenta los siguientes aspectos1 2 -os proveedores de recursos1 centros u organizaciones especializadas en tener y mantener las bases de datos! 2 -as bases de datos1 hay mucha variedad! 2 -as herramientas para estudiar y analizar toda la inormacin contenida en las bases de datos y as poder extraer conocimiento en sentido biolgico a partir de ellas! %xisten bases de datos primarias que contienen secuencias de 3)4 y de protenas, estructuras de protenas y periles de expresin de genes y protenas! "ada registro de estas bases de datos contiene una secuencia y su correspondiente 5anotacin5 +comentarios que incluyen inormacin acerca de esa secuencia, habitualmente hechos de modo manual por algn anotador,! -as bases de datos secundarias archivan los datos que son ruto del an$lisis de las bases de datos primarias, tales como amilias de protenas, motivos o dominios APLICACIN DE HERRAMIENTAS BIOINFORMTICAS EN EL ESTUDIO DE LAS ENFERMEDADES GENTICAS HUMANAS 1 INTRODUCCIN Curso Mitolab-Ciberer 09 proteicos, amilias de genes, mutaciones, polimorismos, implicacin en enermedades, etc! %xisten cientos de bases de datos, por el tipo de inormacin se pueden distinguir1 bibliogr$icas, taxonmicas, de nucletidos, genmicas, de protenas, de microarrays y otras! 6n cat$logo completo de todas las Bases de 3atos disponibles aparece todos los aos en la revista )ucleic 4cids 7esearch! %l artculo del 899: lo pod&is conseguir en http1;;nar!oxord#ournals!org;cgi;content;ull;<=;suppl>?;38 %n este curso nos centraremos en las bases de datos bibliogr$icas, de nucletidos, genmicas, de protenas y clnico2gen&ticas principalmente! @rganizacin de los artculos publicados en la revistas de $mbito cientico! 'ubmed +)"B*,1 http1;;AAA!ncbi!nlm!nih!gov;pubmed; Medline1 0ay que estar suscrito! http1;;medline!cos!com; -as bases de datos de secuencias de nucletidos son muy importantes para la biologa! 'ara asegurar la disponibilidad de las secuencias al pblico general, ninguna revista cientica puede publicar un artculo describiendo una secuencia de nucletidos o proteica si no ha sido depositada en una de las < principales bases de datos internacionales! %xiste una colaboracin internacional entre las < principales bases de datos de nucletidos1 %MB-2BanB en el %B*, 33BC +3)4 3ata BanB o Capan, en el "*B;)*D y DenBanB en el )"B*! %stas bases de datos intentan alo#ar todas las secuencias de nucletidos que son de dominio pblico! %st$n divididas en varias secciones que rele#an grupos taxonmicos, adem$s de otros grupos tales como secuencias %(T +expressed sequence tag,, patentes, secuencias 0TDs +high2through2put genomic sequences,, etc! %n estas bases de datos prima la cantidad sobre la calidad, en el sentido de que contienen todo lo que los investigadores depositan en ellas, y son bastante heterog&neas en cuanto al tipo de secuencias, su calidad, su anotacin, etc! 'or este motivo son tambi&n redundantes, ya que la misma secuencia puede encontrarse repetida en distintos registros procedentes de distintos autores! %stas bases de datos son accesibles gratuitamente por *nternet y se sincronizan entre ellas cada 8E horas, por lo que contienen exactamente la misma inormacin! "ada entrada en estas bases de datos es un registro que debe tener un identiicador nico, ormado por letras y;o nmeros, que se denomina 5nmero de acceso5 +accession number, y es estable +nunca cambiar$ en sucesivas versiones de ese registro,! 'or tanto, otro identiicador indicar$ las sucesivas versiones de cada acceso, por lo que es importante conocer ambos! %n ebrero de ?FFF, el consorcio 2 BASES DE DATOS 1. BASES DE DATOS BIBLIOGRFICAS 2. BASES DE DATOS DE NUCLETIDOS Curso Mitolab-Ciberer 09 DenBanB;%mbl;33BC acord un ormato de versin consistente en el nmero de acceso seguido de un punto y un nmero! 4dem$s, DenBanB incluye el indicador "GI"! Bsquedas en EMBL1 "onstituye el repositorio m$s importante en %uropa! -as principales uentes de secuencias de 3)4 y 7)4 son reportadas por investigadores individuales, proyectos de secuenciacin de genomas y aplicaciones patentadas1 http1;;AAA!ebi!ac!uB;embl;index!html Bsquedas en GenBank: DenBanB es la base de datos de secuencias del )*0 en %%66, una coleccin anotada de todas las secuencias de 3)4 disponibles pblicamente! http1;;AAA!ncbi!nlm!nih!gov;sites;entrez/dbGnuccoreHitoolGtoolbar DDBJ +Capn,1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2e!html -ocalizacin y an$lisis genmico de una secuencia en el genoma humano1 Denome BroAser y %)(%MB-1 extraccin de toda la inormacin contenida en estos recursos! *normacin sobre secuencia +exn, c3)4, protena,! Denomes (erver1 inormacin o enlaces de todos los genomas secuenciados por el momento, desde virus a humanos1 http1;;AAA!ebi!ac!uB;genomes;index!html Iormbase es el portal del genoma de gusano C. elegans1 http1;;AAA!Aormbase!org; Jlybase es el portal de la mosca del vinagre Drosophila melanogaster1 Jlybase http1;;lybase!bio!indiana!edu; y http1;;AAA!ruitly!org A. Entrez Proteins. 4ctualmente, las principales uentes de datos de secuencias de protenas son traducciones de secuencias de nucletidos depositadas en las bases de datos DenBaB;%MB-;33BC! %l )"B* protein database orece el m$s simple y completo set de protenas deducidas! "asi todas las protenas en %ntrez tienen linBs a distintas bases de datos1 nucletidos en DenBanB, )"B* taxonoma, 'ubmed, MM3B, @M*M, etc! http1;;AAA!ncbi!nlm!nih!gov;sites;entrez/dbG'roteinHitoolGtoolbar B. UniprotKB! %xiste una gran variedad de bases de datos de protenas, sobre todo bases de datos secundarias! -as principales bases de datos primarias de amino$cidos est$n ahora uniicadas en 6niprotKB +6niversal 'rotein 7esource, http1;;AAA!uniprot!org;help;uniprotBb, 3 3. BASES DE DATOS DE GENOMAS 4. BASES DE DATOS DE PROTENAS Curso Mitolab-Ciberer 09 que contiene el cat$logo m$s completo de protenas y rene la inormacin de las < principales bases de datos primarias1 (Aiss2'rot, Tr%MB- y '*7! UniProtkb!"iss#Prot: base de datos de secuencias proteicas proporcionando un alto nivel de inormacin +descripcin de la uncin de la protena, estructura de los dominios, modiicaciones post2transduccionales, variantes, etc,! (Aiss2 'rot http1;;AAA!expasy!ch;sprot;! -as bsquedas de enzimas se realizan con %)LMM% database http1;;AAA!expasy!org;enzyme;! 'ara identiicar y caracterizar protenas es muy til la p$gina de 'roteomics Tools1 http1;;AAA!expasy!ch;tools; UniProtKB$rEMBL1 +Translation o %MB- )ucleotide (equence 3atabase, un suplemento de (Aiss2'rot que contiene todas las traducciones de las secuencias de nucletidos del %MB- pero que no se han integrado todava en el (Aiss2'rot1 http1;;AAA!ebi!ac!uB;uniprot; PI% +'rotein *normation 7esource,1 (e cre originalmente por Margaret 3ayho, y actualmente se mantiene en DeorgetoAn 6niversity en colaboracin con Munich *normation "enter para secuencias de protenas! '*7 es menos riguroso que (Aiss2prot en mantener la calidad de sus anotaciones1 http1;;pir!georgetoAn!edu; &. 4lgunas bases de datos de proteomas1 estructuras secundarias o dominios! Nara segn la uente de las protenas y el an$lisis que se realiza sobre ellas! -os t&rminos de motivo o dominio de protena son ampliamente utilizados en biologa para describir ciertas partes de las protenas! (e puede deinir como motivo el con#unto de residuos de amino$cidos conservados que son importantes para la uncin proteica y est$n localizados a una pequea distancia unos de otros! 6n dominio proteico es una unidad compacta tridimensional que orma una estructura estable y muestra un nivel de conservacin en la evolucin! M'$I(!&A)1 %ncuentra los motivos en una secuencia1 http1;;myhits!isb2sib!ch;cgi2 bin;moti>scan P%'!I$E1 "ontiene inormacin sobre la estructura secundaria de protenas, amilias, dominios, etc! %xpresiones regulares sobre (Aiss2prot1 '7@(*T% BL'&K!: Motivos alineados de '7@(*T%;'7*)T(1 http1;;bioinormatics!Aeizmann!ac!il;blocBs; P%I)$!: "on#unto de motivos que deinen una amilia sobre (Aiss2prot;Tr%MB-1 http1;;AAA!bioin!manchester!ac!uB;dbbroAser;'7*)T(;index!php B-@"K( y '7*)T( utilizan motivos mltiples +ingerprints o bloques, EM'$I(1 es una base de datos de motivos de secuencia de protenas representando propiedades bioqumicas y unciones biolgicas conservadas1 http1;;moti!stanord!edu;emoti; I)$E%P%': *ntegra la inormacin de muchas bases de datos de dominios1 *)T%7'7@ D. Bases de datos de estructuras proteicas tridimensiona*es 1 -as estructuras tridimensionales de las protenas son mucho m$s diciles de determinar 4 Curso Mitolab-Ciberer 09 que las secuencias primarias, pero son, al menos en algunos aspectos, m$s inormativas! %l conocimiento de las coordenadas de los $tomos proporciona la inormacin de la arquitectura del sitio activo, la situacin de elementos secundarios, la exposicin espacial de las cadenas, las posiciones relativas de dominios individuales, etc! 0ay bases de datos de protenas que almacenan datos reeridos a la estructura, tanto las coordenadas obtenidas por cristalizacin como clasiicaciones de dominios estructurales por amilias! PDB: +'rotein 3ata BanB, 'rincipal base de datos de estructuras tridimensionales de protenas1 '3B! 'ara el modelado de protenas2mutaciones se pueden usar los programas1 vieAer2prot O!9, rasmol y pmol! E. 'tras bases de datos de prote+nas 1 ,uman Protein %e-erence Database +0'73,1 -a base de datos 0'73 representa una plataorma centralizada para representar e integrar inormacin perteneciente a arquitectura de dominios, modiicaciones post2traduccionales, redes de interaccin y enermedades asociadas a cada protena en el proteoma humano! Toda la inormacin depositada en 0'73 ha sido extrada de manera manual de la literatura por bilogos expertos los cuales leen, interpretan y analizan los datos publicados! http1;;AAA!hprd!org; Mitoc.ondria* Proteome1 http1;;AAA!mitop!de1:9:9;mitop8; A. 'MIM contiene inormacin sobre enermedades gen&ticas humanas, genes y enotipos1 descripcin, caractersticas clnicas, diagnstico, gen&tica molecular, reerencias, etc! http1;;AAA!ncbi!nlm!nih!gov;omim B. Gene&ards es una base de datos de genes humanos que proporciona una inormacin concisa genmica, protemica, transcriptmica, gen&tica y uncional de todos los genes humanos conocidos y candidatos! -a inormacin incluye1 relacin con enermedades, mutaciones, ()'s, expresin g&nica, uncin g&nica, interacciones protena2protena, etc1 http1;;AAA!genecards!org; A. The ,uman Gene Mutation Database at the *nstitute o Medical Denetics in "ardi! http1;;AAA!hgmd!c!ac!uB;ac;index!php *ncluye mutaciones en el 3)4 nuclear! 0DM3 ha recogido datos de mutaciones durante ?8 aos y se public en *nternet en abril del ?FF=! 4cuerdo con "elera! 0ay que estar suscrito! 'od&is entrar con mi passAord1 0DM38O:P=? y mi email1 erichardQcbm!uam!es en log in! Namos a buscar las mutaciones descritas en MM44, '40 +como gene symbol,, y propionic acidemia +como disease;phenotype,! B. ,uman Mitocondria* Genome Database1 "ontiene mutaciones en el genoma mitocondrial1 M*T@M4'1 http1;;AAA!mitomap!org; 5 5. BASES DE DATOS CLNICO-GENTICAS 6. BASES DE DATOS DE ARIANTES DEL GENOMA HUMANO Curso Mitolab-Ciberer 09 &. Base de datos de po*imor-ismos1 6n polimorismo de un slo nucletido o ()' +Single Nucleotide Polymorphism) es una variacin en la secuencia de 3)4 que aecta a una sola base de una secuencia del genoma! (in embargo, algunos autores consideran que cambios de unos pocos nucletidos, como tambi&n pequeas inserciones y deleciones pueden ser consideradas como ()'! 6na de estas variaciones debe darse al menos en un ?R de la poblacin para ser considerada como un ()'! -os ()' orman hasta el F9R de todas las variaciones genmicas humanas, y aparecen cada ?99 a <99 bases en promedio, a lo largo del genoma humano! 3os tercios de los ()' corresponden a la sustitucin de una citosina por una timina! a/ !in0*e )uc*eotide Po*1morp.ism1 db()'1 http1;;AAA!ncbi!nlm!nih!gov;pro#ects;()'; 0erramientas de bsquedas de ()'s uncionales1 'upasuite1 http1;;pupasuite!bioino!cip!es; J2()'1 http1;;compbio!cs!queensu!ca;J2()'; (M()'s1 http1;;AAA!sysnps!org b/ ,apmap1 %s un cat$logo de variantes gen&ticas comunes que ocurren en los humanos! 3escribe cu$les son esas variantes, dnde ocurren en el 3)4, y cmo est$n distribuidas entre la gente en poblaciones y entre poblaciones en dierentes partes del mundo! http1;;AAA!hapmap!org;index!html!en c/ Data Base o- Genomic 2ariants +3DN,1 'roporciona un resumen de la variacin estructural en el genoma humano! %l contenido de la base de datos es solamente representando variaciones estructurales +alteraciones genmicas que implican segmentos de 3)4 S?Bb, identiicadas en muestras control! 'roporciona un cat$logo til de datos de controles para estudios de correlacin entre el genotipo y enotipo! http1;;pro#ects!tcag!ca;variation; A*ineamientos 0*oba*es 1 *oca*es de secuencias! 4lineamientos mltiples usando "lustalA http1;;AAA!ebi!ac!uB;Tools;clustalA8;index!html en el %B* +leer antes el tutorial sobre "lustalI disponible en1 http1;;AAA!ebi!ac!uB;8can;tutorials;protein;clustalA!html Bsqueda de secuencias en bases de datos mediante alineamientos +bsqueda de secuencias similares,1 http1;;blast!ncbi!nlm!nih!gov;Blast!cgi y todas sus variantes explicadas en la gua de seleccin de programas1 http1;;AAA!ncbi!nlm!nih!gov;B-4(T;producttable!shtml 6 HERRAMIENTAS Curso Mitolab-Ciberer 09 %l ob#etivo de esta pr$ctica es la utilizacin de las herramientas bioinorm$ticas para la exploracin del genoma humano y para la bsqueda de inormacin relacionada con enermedades gen&ticas! 'ara ello se plantean los siguientes ob#etivos especicos1 2 "onocer en proundidad las bases de datos! 2 6tilizar con soltura las herramientas bioinorm$ticas para el estudio de enermedades gen&ticas humanas! 2 3esarrollar e#emplos que permitan el uso de estos recursos! 2 (uministrar una perspectiva de las lneas de actuacin en este campo para el desarrollo de otros traba#os de investigacin! A!"#$#%&%'( 1-6) Exploracin de bases de datos biolgicos y comparacin de secuencias. En estas actividades exploraremos varias bases de datos de secuencias de DN, de prote!nas y de genomas. partir de secuencias annimas de DN reali"aremos b#s$uedas en las bases de datos, por e%emplo para identificar con $ue tipo de gen o prote!na estamos traba%ando. &eali"aremos alineamientos de secuencias y b#s$uedas de secuencias 'omlogas. (mparte) Eva &ic'ard A!"#$#%&%'( *-+) nlisis de secuencias de DN. *e anali"arn distintas secuencias de DN de pacientes con enfermedades metablicas 'ereditarias y se identificarn las mutaciones aprendiendo las normas para su nomenclatura. &eali"aremos un estudio del efecto de mutaciones de splicing y de polimorfismos. (mparte) +ourdes &ui". *dentiicar y descargar secuencias de 3)4 y protenas! "omo se ha indicado anteriormente, existen < grandes servicios principales de acceso a bases de datos de 3)4 y protenas, localizados en 6(4, %uropa y Capn1 %n 6(4 existe la base de datos DenBanB %n %uropa existe la base de datos %MB- %n Capn existe la base de datos 33BC1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2 e!html -as bases de datos de $cidos nucleicos y protenas son pr$cticamente las mismas en las < instituciones, ya que intercambian registros cada 8E horas! -as tres bases de datos se dierencian en los distintos servicios que orecen, y en el modo en que se orecen dichos servicios! 0ay muchas ormas de realizar una bsqueda en DenBanB! (e puede hacer usando slo texto o caliicadores! -a bsqueda es altamente sensitiva a lo que se escriba, es decir, a tu 5query5! 7 OB,ETIOS PRCTICA A!"#$#%&% 1) B&('( %' %&"-( %' ./!0'1"#%-( 2 34-"'5.&( Curso Mitolab-Ciberer 09 E3ercicio 4.4: Busca en DenBanB la secuencia codiicadora completa +cds, nucleotdica del gen de la methylmalonic aciduria cbl4 type! ."u$ntos registros encuentras con cada una de la siguientes bsquedas1 MM44, human methylmalonic aciduria cbl4 type, human 4)3 methylmalonic aciduria cbl4 type, human methylmalonic aciduria cbl4 type gene/ 6na vez que hayas identiicado la secuencia m$s apropiada, anota su nmero de identiicacin! ."u$l es el smbolo de este gen/, ."u$l es su longitud/, .qu& uncin tiene la protena/, .dnde se localiza/! E3ercicio 4.5: 7epite la bsqueda del gen en el %)(%MB-! Busca el transcrito, la protena, los exones, los ()'s! 4prender a exportar la secuencia proteica en ormato asta! 4ctualmente este navegador es el m$s usado por los investigadores para ver genes y sus productos, toda la inormacin est$ integrada! E3ercicio 4.6: 4naliza tambi&n la inormacin del gen en las siguientes direcciones1 6niDene1 http1;;AAA!ncbi!nlm!nih!gov;6niDene;clust!cgi/ 6D*3G=8?:8PHT4T*3GF=9=H(%47"0G0omoR89sapiensUorganismVR894)3 R89MM44 y en %ntrez Dene1 http1;;AAA!ncbi!nlm!nih!gov;gene;?==P:O/ ordinalposG?HitoolG%ntrez(ystem8!'%ntrez!Dene!Dene>7esults'anel!Dene>7N3oc( um 3ebido a la explosin en el nmero genomas completos secuenciados durante los ltimos aos, y al inter&s en su an$lisis y comparacin, existen diversas bases de datos de genomas! %ntre las m$s importantes se encuentran, como se ha mencionado anteriormente1 Base de datos de genomas del )"B* Base de datos de genomas del %MB- 4simismo, se han desarrollado o una serie de herramientas bioinorm$ticas para su exploracin, como el visor de mapas del )"B* de genomas eucariticos, y el navegador de %)(%MB-! E3ercicio 5.41 %n el visor de mapas del genoma humano del )"B*, utiliza el sistema de bsqueda para localizar el gen de human methylmalonic aciduria cbl4 type! ."u$l es su posicin cromosmica/ .Wu& dos genes rodean a este gen en el mapa citogen&tico/ E3ercicio 5.5: 7epite esta misma bsqueda en el navegador de genomas de %)(%MB-! %n *nternet hay una innumerable cantidad de bases de datos disponibles que no slo son de secuencias de $cidos nucleicos y protenas! @M*M +@nline Mendelian *nheritance in Man, , que rele#a estudios sobre las causas moleculares de las enermedades humanas! '3B +'rotein 3ata BanB,, de estructuras tridimensionales de las protenas! 8 A!"#$#%&% 2) B&('( %' %&"-( %' 6'.-7&( A!"#$#%&% 3) O"4&( 8&('( %' %&"-( Curso Mitolab-Ciberer 09 (Aiss 83 'age1 Base de datos de protemica, que incluyen inormacin e im$genes de geles 823%! E3ercicio 6.4. Busca la inormacin relativa al gen de human methylmalonic aciduria cbl4 type en la base de enermedades @M*M! ."antos intrones y exones se incluyen/ .Wu& tratamiento de lleva a cabo con estos pacientes/! E3ercicio 6.5. Busca la inormacin relativa al gen de human phenylalanine hydroxylase en la base de enermedades @M*M! ."antos intrones y exones se incluyen/ .Wu& tratamiento se lleva a cabo con estos pacientes/! .0as notado alguna dierencia en estas dos enermedades/, .la extensin de la inormacin es la misma/! E3ercicio 6.6. 4n$lisis de estructuras tridimensionales con '3B! %n avanced search, poner el nmero de %" 8!O!?!?P correspondiente a methylmalonic aciduria cblB type +human 4T'1 cobalamin adenosyltranserase,! 4nalizar la estructura tridimensional de la protena! 'ara poder comparar secuencias, debemos de proceder siempre a su alineamiento, ya que necesitamos asegurarnos de que estamos realizando comparaciones entre posiciones homlogas, es decir que proceden de una posicin ancestral comn! 3ebe de quedar claro que simi*itud y .omo*o0+a son cosas dierentes! (imilitud es parecido, y se suele medir en porcenta#e! %l concepto de homologa es evolutivo, e implica descendencia a partir de un ancestro comn! -a homologa no se mide de orma cuantitativa, como la similitud1 o se es homlogo o no se es! -os m&todos para comparar dos secuencias se pueden agrupar en dos grandes grupos1 G*oba*1 comparacin de dos secuencias en toda su longitud, tratando de obtener el me#or alineamiento posible! %n general son aplicables a secuencias m$s o menos parecidas y de longitudes similares! Loca*1 comparacin de pequeos ragmentos +5palabras5, de las dos secuencias en toda su longitud, tratando de obtener el me#or alineamiento posible! (on as aplicables a secuencias con grados dierentes de similitud o con longitudes dierentes! -a mayora de los bilogos utilizan este tipo de m&todos! 6n alineamiento mltiple de secuencias es simplemente el alineamiento de m$s de dos secuencias! 3e nuevo, se trata de establecer relaciones de homologa! 4lgunos de los m&todos de alineamiento mltiple m$s eicaces son los m&todos #er$rquicos, que construyen primero un $rbol que sirve de gua para el alineamiento posterior! 6no de los programas m$s utilizados es "lustalI! E3ercicio 7.4. 4linea la protena MM4B humana con la de ratn +M. musculus), C. elegans, y D. rerio +Lebraish, utilizando el servidor %B* "lustalI! Buscar los archivos de las protenas de las distintas especies en el %)(%MB-, exportarlos en ormato J4(T4 a un archivo de Iord y hacer el alineamiento en clustalA! 4nalizar tambi&n el alineamiento con todos los ortlogos que realiza el %nsembl! ."u$ntos homlogos +ortlogos, aparecen en %nsembl/, .qu& regin est$ m$s conservada en todas las especies/, .hay muchos gaps/, .'or qu&/, .Wu& longitud tienen/, .'or qu&/! 9 A!"#$#%&% 4) C-73&4&!#1. 2 &0#.'&7#'."- %' ('!/'.!#&( Curso Mitolab-Ciberer 09 -os m&todos de bsqueda de secuencias en bases de datos se basan en el alineamiento y similitud signiicativa entre la secuencia problema +5query5, y las secuencias depositadas base de datos! %l algoritmo m$s utilizado de bsqueda de secuencias es el B-4(T! BLA!$. *dentiicacin de dominios y secuencias homlogas en distintas especies! 6na de las aplicaciones de B-4(T m$s habituales es la bsqueda bioinorm$tica +in silico) de genes humanos causantes de enermedad de los que slo se conoce la uncin de la protena, utilizando como sondas genes o protenas homlogas de otros organismos, es lo que se conoce como genmica comparativa! Mediante B-4(T se pueden detectar regiones relativamente cortas de similitud entre la sonda utilizada y las protenas resultantes de la traduccin conceptual de la base de datos de %(T +Expressed Seuence !ags,, secuencias parciales de c3)4s procedentes de genotecas especicas de te#ido o tipo celular! 0ay que tener en cuenta que la secuencia de amino$cidos est$ m$s conservada que la de nucletidos, por eso se usa como sonda la secuencia de amino$cidos y la herramienta de tb*astn! 6n e#emplo de esta aplicacin la pod&is encontrar en la siguiente reerencia1 Dallardo et al! 899? http1;;AAA!cell!com;4C0D;retrieve;pii;(9998F8FP9P=E9:=O en la que se describe el clona#e in silico de los genes humanos M""4 y M""B, responsables de la metilcrotonilglicinuria! 6n e#emplo de cmo las t&cnicas para localizar genes responsables de %M0 han avanzado incorporando la inormacin de bases de datos pblicas, lo constituye la reciente identiicacin de los genes implicados en el metabolismo intracelular de cobalaminas, grupos de complementacin c"l# y c"l$ +acidemia metilmalnica aislada,, genes MM44 y MM4B, mediante bsquedas de homologa a protenas bacterianas que ormaban parte de un opern bacteriano en el que se encontraba la metilmalonil2"o4 mutasa 3obson et al! 8998 http1;;AAA!pnas!org;content;FF;8E;?OOOE!long 3obson et al! 8998bis http1;;hmg!oxord#ournals!org;cgi;content;ull;??;8=;<<=? %sta estrategia se basa en el hecho de que en bacterias es recuente que los genes implicados en una misma ruta metablica se encuentren agrupados en lo que se denomina cluster u opern! E3ercicio 8.4. Buscar secuencias similares de protenas a la protena methylmalonic aciduria cblB type human +MM4B,! "onseguir la secuencia en ormato asta en el %)(%MB-! +ya la ten&is en el archivo de Iord de las secuencias asta, "opiar la secuencia! *r a la base de datos de B-4(T del )"B*1 http1;;blast!ncbi!nlm!nih!gov;Blast!cgi/"M3GIebH'4D%>TM'%GBlast0ome *r a protein B-4(T y pegar la secuencia en ormato asta! 4nalizar los datos! .(e obtienen las protenas homlogas que en el apartado de ortlogos del %)(%MB-/, .cmo es el alineamiento/! %s interesante resaltar que podemos tambi&n obtener la siguiente inormacin de la secuencia de protena1 prediccin p&ptido seal, peso molecular, p%, localizacin celular, etc! 10 A!"#$#%&% 5) B9(:/'%& %' ('!/'.!#&( (#7#0&4'( A!"#$#%&% 6) A.;0#(#( %' ('!/'.!#&( %' 34-"'5.&( Curso Mitolab-Ciberer 09 http1;;AAA!uniprot!org;uniprot;'889<< E3ercicio 9.4. "alcula el peso molecular y el p% de la protena methylmalonic aciduria cblB type human +MM4B,, con la base de datos de http1;;AAA!expasy!ch;tools;pi>tool!html E3ercicio 9.5. 'redice el p&ptido lder de la secuencia de la protena methylmalonic aciduria cblB type human +MM4B, con la base de datos de http1;;AAA!cbs!dtu!dB;services;(ignal'; %xiste otra Aeb que es especica de p&ptido seal de protenas mitocondriales1 M*T@'7@T http1;;ihg8!helmholtz2muenchen!de;ihg;mitoprot!html %xiste una base de datos de los p&ptidos lderes1 http1;;AAA!signalpeptide!de;index!php/mGintro :.4 Mapas de restricci;n. (i queremos cortar una secuencia nos ser$ muy til conocer su mapa de restriccin! %sto lo podemos realizar con la herramienta Mapper, o con I%B"6TT%7 http1;;rna!lundberg!gu!se;cutter8; E3ercicio :.4. "onstruye el mapa de restriccin de la secuencia de la methylmalonic aciduria cbl4 type con Mapper! :.5. Identi-icaci;n de mutaciones. 6tilizando el programa &,%'MA! que nos permite visualizar secuencias, vamos a analizar el exn ?? del gen '40 que ha sido ampliicado a partir de muestras de 3)4 genmico de pacientes con enilcetonuria! %l ob#etivo de esta actividad es identiicar las mutaciones en homocigosis o en heterocigosis y aprender la nomenclatura! 4brir las secuencias ?2: +escoger dos, con el "07@M4(! *dentiicar la secuencia exnica y la intrnica lanqueante, y compararla con la secuencia normal +sacada del %)(%MB-,! 4notar los posibles cambios, conirmar que no son ()' +en el %)(%MB-,! .-as mutaciones est$n en homocigosis o en heterocigosis/! 4nalizar el eecto de las mutaciones en la secuencia codiicante! .Wu& cambio de amino$cido producen/! .M las mutaciones en la secuencia intrnica/! .Wu& eecto tendr$n/! ."mo se nombran cada una de estas mutaciones +nombre comn y nombre sistem$tico,/! 6tilizar la inormacin siguiente1 Nomenclatura de mutaciones& "ada tipo de mutacin requiere una deinicin precisa del cambio predecible a nivel de protena, a nivel del 3)4 genmico y del m7)4, si corresponde! -as normas internacionales de nomenclatura de mutaciones se recogen en1 http1;;AAA!hgvs!org;mutnomen; ! %n el caso de sustituciones de amino$cidos se utiliza normalmente el cdigo de una letra para &stos, apareciendo primero el cdigo del amino$cido que cambia, la posicin y el amino$cido mutante con una p! delante para indicar que se trata de la nomenclatura a nivel de protena +p! e#! p!7?P=-, indica un cambio de arginina por leucina en la posicin ?P= de la protena,! %n el caso de 11 A!"#$#%&% *) A.;0#(#( %' ('!/'.!#& %' DNA Curso Mitolab-Ciberer 09 mutaciones nonsense, el codn de parada se designa con una T +p!78E<T, sustitucin de una arginina por un codn de parada en la posicin 8E< de la protena,! %sta designacin de las mutaciones se conoce como nombre comn +el m$s usual,! %n el nombre sistem$tico, la posicin del nucletido aparece primero y luego el cambio +?8E:D4, y se incluye una c minscula +c!?8E:D4,, para indicar que se trata de la numeracin del c3)4 +secuencia codiicante, complementaria al m7)4 y designando como nucletido ? la 4 del codn de iniciacin 4TD de la cadena polipeptdica,! 'ara las mutaciones de splicing localizadas en intrones, en el nombre comn se designa el nmero del intrn tras las siglas *N( +inter'ening seuence, y la posicin nucleotdica del cambio, contando a partir del exn m$s cercano +p! e#! *N(<X? gt, cambio de una g por una t en la base ? del intrn <,! %n general, se suele escribir las bases intrnicas en minsculas y las exnicas en maysculas, para acilitar el reconocimiento de secuencias exnicas e intrnicas! 'ara inserciones o deleciones se utilizan las abreviaturas ins y del, respectivamente +p! e#! ?898delE, delecin de E nucletidos en la posicin ?898 del c3)4, y en el nombre comn se incluye las siglas (s, si produce un cambio en la ase de lectura +(rameshi(t,! Ejemplos de nomenclatura de mutaciones )ombre comn )ombre sistem$tico %ecto Missense (cambio de aminocido) p!78E<W c!P8: D4 cambio de 4rg por Dln en la posicin 8E< p!*=OT c!?FE T" cambio de *le por Thr en la posicin =O )onsense (parada de la traduccin) p!7???T c!<<?"T cambio de 4rg ??? por codn de parada de la traduccin Inserci;n p!KEO8sins4 c!?<OOins4 cambio de la ase de lectura +(rameshi(t, De*eci;n p!'8??sdel" c!=<8del" cambio de la ase de lectura +(rameshi(t, p!M?F:s c!OF<>=E?del88pb cambio de la ase de lectura +(rameshi(t, !p*icin0 (procesamiento del mRNA) *N(?9nt2??gSa c!?9==2??ga alteracin del splicing +activacin sitio crptico, *N(?8nt?gSa c!?<?OX?ga alteracin del splicing )exon s*ipping) %ste ltimo tipo de mutaciones y la nomenclatura segn su eecto se describir$n con mayor detalle en la siguiente actividad! 'b3eti<o: 6tilizaremos distintos programas para predecir seales de splicing en una regin, calcular su uerza relativa y ver cmo las mutaciones las aectan! Namos a 12 A!"#$#%&% <) A.;0#(#( %' 7/"&!#-.'( %' (30#!#.6 Curso Mitolab-Ciberer 09 analizar las mutaciones *N(?92??gSa, y *N(?92<gSc en el exn ?? del gen '40, identiicadas en la actividad anterior y otras de localizacin exnica! In-ormaci;n: 4proximadamente un ?OR de las mutaciones puntuales asociadas a enermedades gen&ticas humanas aectan al procesamiento del m7)4 o splicing! (e conoce como splicing al proceso mediante el cual el m7)4 sure el procesamiento de eliminacin de sus intrones previamente a la traduccin de la secuencia codiicante! (e lleva a cabo por un comple#o macromolecular denominado spliceosoma, compuesto por O partculas ribonucleoprotenas 2sn7)'s2 +6?, 68, 6E, 6O y 6=, y m$s de O9 protenas! "ada sn7)' est$ compuesto por un 7)4 pequeo nuclear, rico en uridinas +sn7)4, y mltiples protenas asociadas! -as mutaciones de splicing pueden aectar a las secuencias conservadas OY donadora o <Y aceptora de splicing, el tracto polipirimidnico y la secuencia de ramiicacin B'(, o a secuencias reguladoras auxiliares, menos conservadas como son los potenciadores o enhancers y silenciadores de splicing que pueden estar localizados en secuencias exnicas +%(% Zexonic splicing enhancers2, %(( 2exonic splicing silencers2, o intrnicas +*(% Zintronic splicing enhancers2, *(( Zintronic splicing silencers2,! -os dos eectos m$s comunes de las mutaciones de splicing son la no inclusin de algn exn en el m7)4 +exon s*ipping, o la activacin de nuevos sitios crpticos de splicing resultando en la generacin de transcritos aberrantes! Mediante el an$lisis in s+lico podemos orientarnos sobre el mecanismo molecular por el cal la mutacin e#erce su eecto, bien por disminuir la complementariedad de secuencia entre distintas protenas del spliceosoma como la ribonucleoprotena 6? que se une especicamente al sitio OY de splicing[ bien por modiicar secuencias reconocidas como enhancers de splicing exnicos e intrnicos +%(%s e *(%s, donde se unen las protenas (7 auxiliares de splicing! 'ara ello, est$n disponibles distintos programas1 ?, AAA!ruitly!org;seq>tools;splice!html , para determinar sitios de splicing 8, http1;;ast!bioino!tau!ac!il;(plice(iteJrame!htm <, http1;;genes!mit!edu;burgelab;maxent;Tmaxentscan>scoreseq!html para determinar el score 4) http1;;cryp2sBip!img!cas!cz; para predecir el eecto de mutaciones O, %(% inder http1;;rulai!cshl!edu;tools;%(%; =, 7%("6%2%(% http1;;genes!mit!edu;burgelab;rescue2ese 7) '%(T (erver +http1;;cubAeb!biology!columbia!edu;pesx,! %stos tres ltimos acilitan la identiicacin de posibles %(%s bas$ndose en su reconocimiento por cuatro protenas (71 (J8;4(J, ("<O, (7pE9 y (7pOO! 13 Curso Mitolab-Ciberer 09
!ecuencias imp*icadas en e* procesamiento de* m%)A o splicing E3ercicio =.4: 4naliza las secuencias <\ y O\ de splicing del exn ?? con los programas ?, 8, < .Tienen un score alto, es decir, son buenas secuencias para ser reconocidas por la maquinaria de splicing/! 4naliza la secuencia <\ de splicing con las mutaciones *N(?92<gSc y *N(?92??gSa! .Wu& eecto ves sobre el score/! .Wu& ocurre con la mutacin *N(?92??gSa/! E3ercicio =.5: 4naliza la mutacin *N(?92<gSc con el programa E! .Wu& eecto predice/! E3ercicio =.6: 4naliza con los programas O y = el cambio c!??OOD;" +-<:O-, en el mismo exn ??, para analizar si podra aectar al splicing +ya que no cambia aa,! E3ercicio >.4: 4naliza los ()'s anotados en el gen MM4B utilizando el %)(%MB- y el servidor (M()'s1 http1;;AAA!sysnps!org;, que utiliza la inormacin integrada de las siguientes bases de datos +ltima versin actualizada,1 %nsembl O<, 0apmap release 8E, 0aplovieA E!? y 'upasuite! 4brir la p$gina del servidor 'upasuite http1;;pupasuite!bioino!cip!es; para ver las opciones de asignacin de unciones a los ()'s! .Wu& eecto predice el programa para cada ()'/! .%st$n validados los ()'s/! ."u$ntos tag2()'s hay/! 14 A!"#$#%&% +) A.;0#(#( %' SNP(