Sunteți pe pagina 1din 8

Ingeniera en informtica

Materia: administracin y organizacin de datos Profesor: Ricardo de Jess Bustamante Gonzlez Grupo: B Titulo: formatos de archivos de secuencia Alumna: Diana Cristina Hernndez y Cardona
Numero de control: 10231442

Introduccin
En este ensayo se hablara de los formatos de archivos de frecuencia, su utilizacin en este caso de la bioinformatica ms que todo adems de conocer que es un archivo de secuencia en si

Formatos de archivos de secuencia


Los formatos de secuencia son utilizados para la bioinformatica, para el anlisis de el ARN y el ADN, en el cual vienen de la mano en este archivo los componentes se dividen en espacios, no en comas el cual tiene la siguiente estructura 6 39

Archaeopt CGATGCTTAC CGCCGATGCT Hesperorn CGTTACTCGT TGTCTCTGCC Baluchith B. virgin Brontosau B.subtili TAATGTTAAT TGTCGATGCT TAATGTTCGT TGTCGAAGCA CAAAACCCAT CATCGTTGCT GGCAGCCAAT CACCGAAGCT

TACCGCCGAT GCTTACCGC CGTTGTCGTT ACTCGTTGT AATTGTTAAT GTTAATTGT CGTTGTTAAT GTTCGTTGT CATCATCAAA ACCCATCAT AATCACGGCA GCCAATCAA En esta estructura se utiliza la primera letra del aminocido que en la biologa representan una protena en el cual tiene en su interior tiene un cdigo que sera : G.- guanina A.- adenina C.-citocina para analizar esta secuencia , cuya estructura es La primera lnea del archivo contiene el nmero de especies o secuencias a analizar y luego, el nmero de caracteres (nucletidos o aminocidos) separados por espacios en blanco (no por comas). Seguidamente, se debe colocar el nombre o identificador de cada especie o secuencia (mximo 10 caracteres) que puede incluir signos de puntuacin y espacios en blanco. Luego debe colocarse la secuencia en s; es decir los

caracteres, en cdigo de una letra, correspondientes a la protena, molcula de ARN o de ADN. Las secuencias pueden ser colocadas en columnas de diez (10) caracteres cada una para facilitar la lectura de las mismas. Luego puede o no colocarse una lnea en blanco separadora entre el primer y el segundo grupo de secuencias. Es importante que el nmero de caracteres de todas las lneas sea igual. as es como se manejara el anlisis de las secuencias de las protenas. Tambin tenemos el mtodo FASTA En el cual se colocan en una sola lnea En este formato se tiene una lnea cabecera en la cual se describe el nombre del archivo, con el cual se va acceder, la lnea de cabecera se reconocer por medio del smbolo < >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKAD RLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPN KPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSK LTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQ L >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLK SQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLR QICMH

Despus se tiene las lneas de secuencia, las cuales deben de tener como minimo 80 caracteres, en las cuales esta la secuencia de protenas, o aminoasidos , pueden tener espacios pero estos tienen que estar separados por un Aqu tenemos la sibologia que esta presente en la estructura Los cdigos de cidos nuclicos soportados son: Cdigo de cido nuclico Significado

Cdigo de cido nuclico Significado hueco (gap) de longitud indeterminada A Adenosina B G T C (no A) (B viene tras la A) C Citosina D G A T (no C) (D viene tras la C) G Guanina H A C T (no G) (H viene tras la G) K G T (cetona/Ketone) M A C (grupo aMino) N A G C T (cualquiera/aNy) R G A (puRina) S G C (interaccin fuerte/Strong interaction) T Timidina U Uracilo V G C A (no T, no U) (V viene tras la U) W A T (interaccin dbil/Weak interaction) X mscara Y T C (pirimidina/pYrimidine) Los cdigos de aminocidos soportados son: Cdigo de aminocido Significado A Alanina B cido asprtico o Asparagina C Cistena D cido asprtico E cido glutmico F Fenilalanina G Glicina H Histidina I Isoleucina K Lisina L Leucina M Metionina N Asparagina O Pirrolisina P Prolina

Cdigo de aminocido Significado Q Glutamina R Arginina S Serina T Treonina U Selenocistena V Valina W Triptfano Y Tirosina Z cido glutmico o Glutamina X cualquiera * parada de traduccin hueco (gap) de longitud indeterminada -

Referencias Mount, D. W. (s.f.). formato FASTA. Recuperado el 09 de 02 de 2012, de wikipedia: http://es.wikipedia.org/wiki/Formato_FASTA Santos, Y. M. (18 de 04 de 2003). ADN. Recuperado el 09 de 02 de 2012, de mitereanet: http://www.mitareanet.com/colaboraciones/ADNyARN.htm tipos de archivos y archivos de secuencia. (s.f.). Recuperado el 09 de 02 de 2012, de bioinformatica: http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html

Conclusin
En este documento se habla de los formatos de secuencia, y su utilizacin en la bioinformatico con la organizacin de las cadenas de las protenas, y de aminocidos

S-ar putea să vă placă și