Sunteți pe pagina 1din 9

FORMATOS DE ARCHIVOS DE SECUENCIA

INSTITUTO TECNOLGICO SUPERIOR DE LERDO


Primer corte

Datos del Alumno Eduardo Navarro Snchez 10231240

Grupo: Carrera: Materia: Nombre del trabajo: Titular de la materia:

4B Ingeniera en Informtica Administracin y Organizacin de datos Ensayo acerca de Formatos de archivos y de secuencias. ING. Ricardo de Jess Bustamante Gonzlez.
Cd. Lerdo, Durango.

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA

INTRODUCCION:
Para empezar mi ensayo hablare primeramente que es una WEBQUEST es una actividad orientada a la investigacin donde toda o casi toda la informacin que se utiliza procede de recursos de la Web (Bernie Doge, 1995), al igual se construye alrededor de una tarea atractiva que provoca de pensamientos superiores. Se trata de hacer algo con la informacin. El pensamiento puede ser creativo o crtico e implica la resolucin de problemas, anlisis o sntesis. Para Jordi Adell2 la WebQuest es una actividad didctica que propone una tarea factible y atractiva para los estudiantes y un proceso para realizarla durante el cual, los alumnos harn cosas con informacin: analizar, sintetizar, comprender, transformar, crear, juzgar y valorar, crear nueva informacin, publicar, compartir, etc. Una WebQuest se concreta siempre en un documento para los usuarios como en este caso nosotros como alumnos, normalmente accesible a travs de la web, dividido en apartados como introduccin, descripcin de la tarea, del proceso para llevarla a cabo y de cmo ser evaluada y una especie de conclusin. Ahora hablare acerca de sus diferentes formatos de archivos de secuencia: Bueno ahora que sabemos mejor que son los archivos sabemos que se dividen en dos tipos de archivos 1 es el del ASCII y el otro es archivo Binarios, algo que tambin mencionamos fue que los archivos ASCII es de carcter, con lo que se puede representar los documentos llamados de Texto plano, es decir, los que son legibles por seres humanos. Los binarios son todos los dems. Dentro de los archivos ASCII su uso comn por los programas de bioinformtica estn los siguientes: .seq y de secuencias mltiples: .aln.msf.rsf, estos pueden incluir una o ms secuencias relacionadas o no.

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA

DESARROLLO:
Una vez comprendido que es la WEBQUEST y los formatos mencionare cuales son los que componen a una WEBQUESTS. Tambin sabemos que un archivo de secuencia es un fichero lgico que permite almacenar de manera ordenada y sucesiva una coleccin de caracteres, siguiendo un orden predefinido. Ya en lo mencionado anteriormente vimos que los archivos ASCII es que su contenido poseen cadenas de caracteres que pueden ser fcilmente interpreta por cualquier persona a simple vista y por cualquier sistema operativo. Los archivos secuenciales se pueden clasificar dependiendo de su nmero de lneas o secuencias que pueda contener, por lo que existen archivos de secuencia nico y simple. Los de secuencia nica son los que solamente pueden manejar una secuencia obviamente por un archivo ASCII creado, mientras que la secuencia mltiple son los que pueden soportar una o varias secuencias por archivo creado. Al igual los archivos de secuencia forman anotaciones, cadenas de identificacin o indicaciones a manera comentario. Tambin los secuenciales son utilizados para aplicaciones especficas, un ejemplo de ello es dentro del mbito cientfico, como en el campo de la bioinformtica, los cuales suelen crearlos para manejar informacin referente al alineamiento de las protenas en la hemoglobina o estructura de aminocidos. La primera lnea del archivo contiene el nmero de especies o secuencias a analizar y luego, el nmero de caracteres (nucletidos o aminocidos) separados por espacios en blanco (no por comas). Seguidamente, se debe colocar el nombre o identificador de cada especie o secuencia (mximo 10 caracteres) que puede incluir signos de puntuacin y espacios en blanco. Luego debe colocarse la secuencia en s; es decir los caracteres, en cdigo de una letra, correspondientes a la protena, molcula de ARN o de ADN. Las secuencias pueden ser colocadas en columnas de diez (10) caracteres cada una para facilitar la lectura de las mismas. Luego puede o no colocarse una lnea en blanco separadora entre el primer y el segundo grupo de secuencias. Es importante que el nmero de caracteres de todas las lneas sea igual.
TACCGCCGAT GCTTACCGC CGTTGTCGTT ACTCGTTGT AATTGTTAAT GTTAATTGT CGTTGTTAAT GTTCGTTGT CATCATCAAA ACCCATCAT AATCACGGCA GCCAATCAA

El formato especificado arriba se conoce como "intercalado" (o interleaved). Tambin existe una forma alternativa de estructurar los archivos, que se

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA

conoce como "secuencial", en la cual todos los datos de la primera especie son presentados, luego los de la segunda especie, y as sucesivamente. Un ejemplo: 3 39 Archaeopt CGATGCTTAC CGCCGATGCT TACCGCCGAT GCTTACCGC Hesperorn CGTTACTCGT TGTCTCTGCC CGTTGTCGTT ACTCGTTGT Baluchith TAATGTTAAT TGTCGATGCT AATTGTTAAT GTTAATTGT GenBank: Este formato es el utilizado para los reportes de secuencias tanto de nucletidos como de aminocidos que se encuentran almacenados en el. Los programas del GCG pueden utilizar archivos obtenidos en bsquedas en el GenBank, pero para que esto sea posible, es necesario primero cambiarle el formato al archivo empleando el comando siguiente: Fromgenbank archivo_de_secuencia Un ejemplo de una secuencia GenBank:
WPWQVSLQDSSGFHFCGGSLISQSWVVTAAHCNVSPGRHFVVLGEYDRSSNAEPL QVL SVSRAITHPSWNSTTMNNDVTLLKLASPAQYTTRISPVCLASSNEALTEGLTCVTTGW GRLSGVGNVTPAHLQQVALPLVTVNQCRQYWGSSITDSMICAGGAGASSCQGDSGG PL VCQKGNTWVLIGIVSWGTKNCNVRAPAVYTRVSKFSTWINQVIAYN" misc_feature 65..109 /note="activation peptide" mat_peptide 110..802 /product="chymotrypsin-like" polyA_signal 836..841 /note="A, primary"

Los archivos Phylip: Se utiliza para manipular la informacin referente a nuleotidos y aminocidos, sirviendo de entrada para diferentes programas de anlisis de frecuencia. Un ejemplo:
6 39Archaeopt CGATGCTTAC CGCCGATGCTHesperorn TGTCTCTGCCBaluchith TAATGTTAAT TGTCGATGCT CGTTACTCGT

FASTA

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA

Es uno de los formatos de archivos de secuencia ms populares actualmente y el ms simple. Cada una de las secuencias que contiene un archivo de este formato comienza con el carcter > seguido del identificador de dicha secuencia. Es posible incluir adems una descripcin. Es uno de los formatos ms empleados en la actualidad. Puede incluir una o ms secuencias lineales de nucletidos o aminocidos no alineadas. Ejemplo:
>sec_1 descripcinGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC AGTTT>sec_2ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGC TATGTGTG

EMBL: Los archivos en este formato son reportes generados por la base de datos de secuencias de nucletidos y de protenas respaldada por el EMBL (European Molecular Biology Laboratory). Al igual que para los archivos en formatos GenBank, los archivos en este formato pueden ser utilizados por los programas del GCG, pero antes su formato debe ser cambiado al utilizado por este paquete. CLUSTAL: Es uno de los muchos formatos para archivos de secuencias alineadas ms utilizados por los programas de anlisis de secuencias. Sus principales caractersticas son: tanto nucletidos como aminocidos son representados por el cdigo de una letra; los gaps son indicados con un guin "-" y al final de las secuencias alineadas, puede aparecer una especie de secuencia consenso con signo como: "*", ":" y "."
Un ejemplo: CLUSTAL W(1.60) multiple sequence alignment YVKE1 SQLSWKRLLMKGYIPPYKPAVS-----NSMDTSNFDEEFTR-----EKPIDSVVDEYLSES YVKE2 KDISWKKLLLKGYIPPYKPIVK-----SEIDTANFDQEFTK-----EKPIDSVVDEYLSAS YVKE_H RRIDWEKLENREIQPPFKPKVC------GKGAENFDKFFTR-----GQPVLTPPDQLVIAN YVKE_M RSIDWDLLEKKQALPPFQPQIT-----DDYGLDNFDTQFTS-----EPVQLTPDDEDAIKR *. . YVKE1 ------QKQF YVKE2 ------QKQF YVKE_H D-----QSDF YVKE_M D-----QSEF * *

MSF: (multiple sequence File) es un formato para dos o ms secuencias alineadas, donde el "." representa un gap, los nucletido o aminocidos son representados en su cdigo de una letra, y la secuencia es escrita en columnas de diez (10) letras cada una. El comienzo de la secuencia es marcado por dos backslashes: //

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA


Ejemplo: PileUp of: @Pi3k.Fil Symbol comparison table: GenRunData:Pileuppep.Cmp CompCheck: 1254 GapWeight: 3.000 GapLengthWeight: 0.100 Pi3k.Msf MSF: 377 Type: P July 12, 1996 10:40 Check: 167 .. Name: Tor1_Yeast Name: Tor2_Yeast Name: Frap_Human Name: Esr1_Yeast // 1 50 Tor1_Yeast .......GHE DIRQDSLVMQ LFGLVNTLLK NDSECFKRHL DIQQYPAIPL Tor2_Yeast .......GHE DIRQDSLVMQ LFGLVNTLLQ NDAECFRRHL DIQQYPAIPL Frap_Human .......GHE DLRQDERVMQ LFGLVNTLLA NDPTSLRKNL SIQRYAVIPL Esr1_Yeast .......KKE DVRQDNQYMQ FATTMDFLLS KDIASRKRSL GINIYSVLSL 51 100 Tor1_Yeast SPKSGLLGWV PNSDTFHVLI REHRDAKKIP LNIEHWVML MAPDYENLTL Tor2_Yeast SPKSGLLGWV PNSDTFHVLI REHREAKKIP LNIEHWVML MAPDYDNLTL Frap_Human STNSGLIGWV PHCDTLHALI RDYREKKKIL LNIEHRIML MAPDYDHLTL Esr1_Yeast REDCGILEMV PNVVTLRSIL STKYESLKIK Y....SLKS LHDRWQHTAV MSF del GCG: los programas de GCG, para poder utilizar como archivo de introduccin de datos uno con este formato, las siguientes caractersticas requieren ser especificadas: tipo de archivo (!!AA_MULTIPLE...), comienzo de la seccin correspondiente a la secuencia(" .. ", comienzo de secuencia (" // "). Ejemplo: !!AA_MULTIPLE_ALIGNMENT 1.0 PileUp of: @seqlist Symbol comparison table: GenRunData:blosum62.cmp CompCheck: 6430 GapWeight: 12 GapLengthWeight: 4 seqlist.msf MSF: 167 Type: P September 5, 1997 15:15 Check: 8487 .. Len: 377 Check: 7773 Weight: 1.00 Len: 377 Check: 8562 Weight: 1.00 Len: 377 Check: 9129 Weight: 1.00 Len: 377 Check: 8114 Weight: 1.00

Name: perro Len: 167 Check: 7676 Weight: 1.00 Name: gato Len: 167 Check: 7676 Weight: 1.00 Name: conejo Len: 167 Check: 8765 Weight: 1.00 Name: vaca Len: 167 Check: 8735 Weight: 1.00 Name: mono Len: 167 Check: 6585 Weight: 1.00 Name: humano Len: 167 Check: 7528 Weight: 1.00 //

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA


1 50 perro ~~~~~~~~~~V LSPADKTNVK AAWGKVGAHA GEYGAEALER MFLSFPTTKT gato ~~~~~~~~~~V LSPADKTNVK AAWGKVGAHA GEYGAEALER MFLSFPTTKT conejo ~~~~~~~~~~V LSAADKTNVK AAWSKVGGHA GEYGAEALER MFLGFPTTKT vaca ~~~~~~~~~~V LSAADKTNVK AAWSKVGGHA GEYGAEALER MFLGFPTTKT mono ~~~~~~~~~VQ LSGEEKAAVL ALWDKV..NE EEVGGEALGR LLVVYPTWTQ humano ~~~~~~~~~VH LTPEEKSAVT ALWGKV..NV DEVGGEALGR LLVVYPTWTQ 51 100 perro YFPHFDLSH .........G SAQVKGHGKK VADALTNAVA HVDD..MPNAL gato YFPHFDLSH .........G SAQVKGHGKK VADALTNAVA HVDD..MPNAL conejo YFPHFDLSH .........G SAQVKAHGKK VGDALTLAVG HLDD.L.PGAL vaca YFPHFDLSH .........G SAQVKAHGKK VGDALTLAVG HLDD.L.PGAL mono FFDSFGDLI NPGAVMGNPK VKAHGKKVLH SFGEGVHHLD N...L...KGT humano FFESFGDLS TPDAVMGNPK VKAHGKKVLG AFSDGLAHLD N..L...KGTF

RSF: (Rich Sequence File) este tipo de formato de archivos de secuencias de nucletidos o aminocidos es utilizado por algunos programas del GCG y permite introducir una o ms secuencias para llevar a cabo un anlisis. Las caractersticas que debe respetar un archivo en este formato son las siguientes: 1.- Especificar el tipo de archivo (!!RICH_SEQUENCE 1.0). 2.- Indicar el inicio de la seccin donde se da toda la informacin y los datos de la(s) secuencia(s) (".."). 3.- Escribir la secuencia y sus atributos o la informacin que se desee colocar sobre ella encerrando esta seccin del archivo entre llaves ("{ .. . . }"), la palabra "sequence" debe aparecer justo entre la informacin particular de una secuencia y la secuencia en s: !!RICH_SEQUENCE 1.0

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA

CONCLUSIONES:
Bueno ya que hable primeramente de la WEBQUESTS nos desarrolla una amplia gama de conocimientos acerca de, como hablamos de los archivos de secuencia suelen a poder separarse en dos tipos de archivos uno de secuencia nica y otro mltiple (segn su informacin), los usuarios pueden hacer sus propios webquests personales acerca de un tema especfico. Los archivos secuenciales frecuentemente permiten almacenar cadenas de caracteres que poseen un ordenamiento o patrn lgico, el cual est condicionado a la informacin que es manejada en el mismo. Estos archivos son utilizados principalmente en el campo cientfico como mencionamos Bioinformtica con respecto a aminocidos y nucletidos. Para poder realizar las operaciones bsicas sobre este tipo de archivos de procesos es necesario la utilizacin de aplicaciones de software especializados que sean capaces de entender su contenido, hablando tanto de las secuencias como de otro texto. Debido a la gran cantidad de aplicaciones que permiten el manejo de estos mismos, existe gran variedad de formatos que en ocasiones son muy de terminanticos a tal grado que son muy difciles de comprender.

10 /02/2012

FORMATOS DE ARCHIVOS DE SECUENCIA

BIBLIOGRAFIA:
Dodge,B 1997(1995)Some thoughts about Webquests.(16 de septiembre 2000) Enlaces web: http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html http://www.webquest.es/que-es-una-webquest Computational Biology Research Group (2011, 18 de Noviembre). BioinformaticsFAQ, Examples of common sequence file formats . Recuperado el 8 de febrero de 2012, dehttp://www.compbio.ox.ac.uk/bioinformatics_faq/format_examples.shtml. European Bioinformatics Institute. EMBL EBI site, Sequence Formats . Recuperadoel 8 de febrero de 2012, de http://www.ebi.ac.uk/2can/tutorials/formats.html. GeneStudio.com. GeneStudio site. Sequence file format notes. Recuperado el 8 defebrero de 2012, de http://www.genestudio.com/formats Bazinet, Adam. molecularevolution.org, file formats [en lnea]. Recuperado el 8 de febrero del 2012, de http://molecularevolution.org/resources/fileformats.

10 /02/2012

S-ar putea să vă placă și