Documente Academic
Documente Profesional
Documente Cultură
Materia: administracin y organizacin de datos Profesor: Ricardo de Jess Bustamante Gonzlez Grupo: B Titulo: formatos de archivos de secuencia Alumna: Diana Cristina Hernndez y Cardona
Numero de control: 10231442
Introduccin
En este ensayo se hablara de los formatos de archivos de frecuencia, su utilizacin en este caso de la bioinformatica ms que todo adems de conocer que es un archivo de secuencia en si
Archaeopt CGATGCTTAC CGCCGATGCT Hesperorn CGTTACTCGT TGTCTCTGCC Baluchith B. virgin Brontosau B.subtili TAATGTTAAT TGTCGATGCT TAATGTTCGT TGTCGAAGCA CAAAACCCAT CATCGTTGCT GGCAGCCAAT CACCGAAGCT
TACCGCCGAT GCTTACCGC CGTTGTCGTT ACTCGTTGT AATTGTTAAT GTTAATTGT CGTTGTTAAT GTTCGTTGT CATCATCAAA ACCCATCAT AATCACGGCA GCCAATCAA En esta estructura se utiliza la primera letra del aminocido que en la biologa representan una protena en el cual tiene en su interior tiene un cdigo que sera : G.- guanina A.- adenina C.-citocina para analizar esta secuencia , cuya estructura es La primera lnea del archivo contiene el nmero de especies o secuencias a analizar y luego, el nmero de caracteres (nucletidos o aminocidos) separados por espacios en blanco (no por comas). Seguidamente, se debe colocar el nombre o identificador de cada especie o secuencia (mximo 10 caracteres) que puede incluir signos de puntuacin y espacios en blanco. Luego debe colocarse la secuencia en s; es decir los
caracteres, en cdigo de una letra, correspondientes a la protena, molcula de ARN o de ADN. Las secuencias pueden ser colocadas en columnas de diez (10) caracteres cada una para facilitar la lectura de las mismas. Luego puede o no colocarse una lnea en blanco separadora entre el primer y el segundo grupo de secuencias. Es importante que el nmero de caracteres de todas las lneas sea igual. as es como se manejara el anlisis de las secuencias de las protenas. Tambin tenemos el mtodo FASTA En el cual se colocan en una sola lnea En este formato se tiene una lnea cabecera en la cual se describe el nombre del archivo, con el cual se va acceder, la lnea de cabecera se reconocer por medio del smbolo < >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKAD RLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPN KPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSK LTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQ L >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLK SQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLR QICMH
Despus se tiene las lneas de secuencia, las cuales deben de tener como minimo 80 caracteres, en las cuales esta la secuencia de protenas, o aminoasidos , pueden tener espacios pero estos tienen que estar separados por un Aqu tenemos la sibologia que esta presente en la estructura Los cdigos de cidos nuclicos soportados son: Cdigo de cido nuclico Significado
Cdigo de cido nuclico Significado hueco (gap) de longitud indeterminada A Adenosina B G T C (no A) (B viene tras la A) C Citosina D G A T (no C) (D viene tras la C) G Guanina H A C T (no G) (H viene tras la G) K G T (cetona/Ketone) M A C (grupo aMino) N A G C T (cualquiera/aNy) R G A (puRina) S G C (interaccin fuerte/Strong interaction) T Timidina U Uracilo V G C A (no T, no U) (V viene tras la U) W A T (interaccin dbil/Weak interaction) X mscara Y T C (pirimidina/pYrimidine) Los cdigos de aminocidos soportados son: Cdigo de aminocido Significado A Alanina B cido asprtico o Asparagina C Cistena D cido asprtico E cido glutmico F Fenilalanina G Glicina H Histidina I Isoleucina K Lisina L Leucina M Metionina N Asparagina O Pirrolisina P Prolina
Cdigo de aminocido Significado Q Glutamina R Arginina S Serina T Treonina U Selenocistena V Valina W Triptfano Y Tirosina Z cido glutmico o Glutamina X cualquiera * parada de traduccin hueco (gap) de longitud indeterminada -
Referencias Mount, D. W. (s.f.). formato FASTA. Recuperado el 09 de 02 de 2012, de wikipedia: http://es.wikipedia.org/wiki/Formato_FASTA Santos, Y. M. (18 de 04 de 2003). ADN. Recuperado el 09 de 02 de 2012, de mitereanet: http://www.mitareanet.com/colaboraciones/ADNyARN.htm tipos de archivos y archivos de secuencia. (s.f.). Recuperado el 09 de 02 de 2012, de bioinformatica: http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html
Conclusin
En este documento se habla de los formatos de secuencia, y su utilizacin en la bioinformatico con la organizacin de las cadenas de las protenas, y de aminocidos