Sunteți pe pagina 1din 8

TEMĂ PENTRU EXAMEN

Fișierele în format GenBank, datorită structurii lor complexe, sunt mai dificil de exploatat în studii comparative. În
acest scop, să se conceapă un program care să fie capabil să identifice genele și porțiunile CDS corespunzătoare
acestora ce se găsesc descrise în secțiunea FEATURES și la care să fie adăugate secvențele lor nucleotidice ce le
corespund din secțiunea ORIGIN, creând astfel un nou fișier.txt.

După cum se poate observa, în fișierele GenBank, există două secțiuni majore FEATURES și ORIGIN care
delimitează datele în două zone. Exemplul care este reprodus mai jos este preluat din descrierea cromozomului
19 conform fișierului Homo_sapiens.GRCh38.99.chromosome.19.dat. În porțiunea extrasă, în secțiunea FEATURES
apare următoarea descriere.

LOCUS 19 58617616 bp DNA HTG 23-NOV-2019


DEFINITION Homo sapiens chromosome 19 GRCh38 full sequence 1..58617616 reannotated via
EnsEMBL
ACCESSION chromosome:GRCh38:19:1:58617616:1
VERSION 19GRCh38
...
...
FEATURES Location/Qualifiers
source 1..58617616
/organism="Homo sapiens"
/db_xref="taxon:9606"
gene complement(60951..71626)
/gene=ENSG00000282458.1
/locus_tag="WASH5P"
/note="WASP family homolog 5, pseudogene [Source:HGNC
Symbol;Acc:HGNC:33884]"
misc_RNA join(complement(70928..70976),complement(66346..66499),
complement(60951..61894))
/gene="ENSG00000282458.1"
/db_xref="RefSeq_ncRNA:NR_033266"
/db_xref="UCSC:ENST00000632506.1"
/db_xref="HGNC_trans_name:WASH5P-206"
/note="processed_transcript"
/standard_name="ENST00000632506.1"
misc_RNA complement(62113..66524)
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000633719.1"
/db_xref="HGNC_trans_name:WASH5P-208"
/note="retained_intron"
/standard_name="ENST00000633719.1"
misc_RNA join(complement(70928..70951),complement(66346..66499),
complement(63821..64213))
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000633703.1"
/db_xref="HGNC_trans_name:WASH5P-207"
/note="processed_transcript"
/standard_name="ENST00000633703.1"
misc_RNA join(complement(66346..66382),complement(65051..65226))
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000634023.1"
/db_xref="HGNC_trans_name:WASH5P-210"
/note="processed_transcript"
/standard_name="ENST00000634023.1"
misc_RNA join(complement(66346..66420),complement(65822..66133))
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000632496.1"
/db_xref="HGNC_trans_name:WASH5P-205"
/note="processed_transcript"
/standard_name="ENST00000632496.1"
misc_RNA join(complement(70928..70945),complement(66346..66499),
complement(65822..66047))
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000632089.1"
/db_xref="HGNC_trans_name:WASH5P-203"
/note="processed_transcript"
/standard_name="ENST00000632089.1"
misc_RNA join(complement(70928..70963),complement(65822..66499))
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000631796.1"
/db_xref="HGNC_trans_name:WASH5P-201"
/note="processed_transcript"
/standard_name="ENST00000631796.1"
misc_RNA complement(66320..66492)
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000633742.1"
/db_xref="HGNC_trans_name:WASH5P-209"
/note="transcribed_processed_pseudogene"
/standard_name="ENST00000633742.1"
misc_RNA join(complement(71141..71566),complement(66378..66499))
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000631994.1"
/db_xref="HGNC_trans_name:WASH5P-202"
/note="processed_transcript"
/standard_name="ENST00000631994.1"
misc_RNA complement(70652..71626)
/gene="ENSG00000282458.1"
/db_xref="UCSC:ENST00000632292.1"
/db_xref="HGNC_trans_name:WASH5P-204"
/note="retained_intron"
/standard_name="ENST00000632292.1"
gene 68403..69178
/gene=ENSG00000282542.1
/locus_tag="AC008993.1"
/note="TEC"
misc_RNA 68403..69178
/gene="ENSG00000282542.1"
/db_xref="UCSC:ENST00000632280.1"
/db_xref="Clone_based_ensembl_transcript:AC008993.1-201"
/note="TEC"
/standard_name="ENST00000632280.1"
gene 69167..69972
/gene=ENSG00000282798.1
/locus_tag="AC008993.2"
/note="TEC"
misc_RNA 69167..69972
/gene="ENSG00000282798.1"
/db_xref="UCSC:ENST00000631744.1"
/db_xref="Clone_based_ensembl_transcript:AC008993.2-201"
/note="TEC"
/standard_name="ENST00000631744.1"
gene 71778..72718
/gene=ENSG00000282807.3
/locus_tag="AC008993.3"
/note="novel transcript"
misc_RNA join(71778..72274,72585..72718)
/gene="ENSG00000282807.3"
/db_xref="UCSC:ENST00000633603.1"
/db_xref="Clone_based_ensembl_transcript:AC008993.3-201"
/db_xref="RNAcentral:URS00008C417A"
/note="lncRNA"
/standard_name="ENST00000633603.1"
gene 71973..72110
/gene=ENSG00000283801.1
/locus_tag="MIR1302-11"
/note="microRNA 1302-11 [Source:HGNC
Symbol;Acc:HGNC:38246]"
misc_RNA 71973..72110
/gene="ENSG00000283801.1"
/db_xref="RefSeq_ncRNA:NR_036268"
/db_xref="UCSC:ENST00000408051.1"
/db_xref="HGNC_trans_name:MIR1302-11-201"
/db_xref="RNAcentral:URS000075CC93"
/note="miRNA"
/standard_name="ENST00000408051.1"
gene complement(76163..77686)
/gene=ENSG00000282591.1
/locus_tag="FAM138F"
/note="family with sequence similarity 138 member F
[Source:HGNC Symbol;Acc:HGNC:33581]"
misc_RNA join(complement(77330..77686),complement(76886..77090),
complement(76163..76783))
/gene="ENSG00000282591.1"
/db_xref="RefSeq_ncRNA:NR_026820"
/db_xref="UCSC:ENST00000631376.1"
/db_xref="HGNC_trans_name:FAM138F-201"
/db_xref="RNAcentral:URS00008C42FD"
/note="lncRNA"
/standard_name="ENST00000631376.1"
misc_RNA join(complement(77330..77659),complement(76220..77090))
/gene="ENSG00000282591.1"
/db_xref="UCSC:ENST00000632948.1"
/db_xref="HGNC_trans_name:FAM138F-202"
/db_xref="RNAcentral:URS00008C4291"
/note="lncRNA"
/standard_name="ENST00000632948.1"
gene 94062..94974
/gene=ENSG00000282137.1
/locus_tag="OR4G3P"
/note="olfactory receptor family 4 subfamily G member 3
pseudogene [Source:HGNC Symbol;Acc:HGNC:8304]"
misc_RNA 94062..94974
/gene="ENSG00000282137.1"
/db_xref="UCSC:ENST00000633500.1"
/db_xref="HGNC_trans_name:OR4G3P-201"
/note="unprocessed_pseudogene"
/standard_name="ENST00000633500.1"
gene 99175..106077
/gene=ENSG00000267310.2
/locus_tag="OR4G1P"
/note="olfactory receptor family 4 subfamily G member 1
pseudogene [Source:HGNC Symbol;Acc:HGNC:8302]"
misc_RNA join(99175..99229,100276..100432,104502..106077)
/gene="ENSG00000267310.2"
/db_xref="UCSC:ENST00000641173.1"
/db_xref="HGNC_trans_name:OR4G1P-202"
/note="processed_transcript"
/standard_name="ENST00000641173.1"
misc_RNA join(99175..99229,104502..106077)
/gene="ENSG00000267310.2"
/db_xref="UCSC:ENST00000641984.1"
/db_xref="HGNC_trans_name:OR4G1P-203"
/note="processed_transcript"
/standard_name="ENST00000641984.1"
misc_RNA 104535..105472
/gene="ENSG00000267310.2"
/db_xref="UCSC:ENST00000588632.2"
/db_xref="HGNC_trans_name:OR4G1P-201"
/note="transcribed_unprocessed_pseudogene"
/standard_name="ENST00000588632.2"
gene 107104..117102
/gene=ENSG00000176695.8
/locus_tag="OR4F17"
/note="olfactory receptor family 4 subfamily F member 17
[Source:HGNC Symbol;Acc:HGNC:15381]"
mRNA join(107104..107157,107473..107555,110625..113156)
/gene="ENSG00000176695.8"
/standard_name="ENST00000585993.3"
CDS 110679..111596
/gene="ENSG00000176695.8"
/protein_id="ENSP00000467301.1"
/note="transcript_id=ENST00000585993.3"
/db_xref="CCDS:CCDS32854"
/db_xref="Uniprot/SWISSPROT:Q8NGA8"
/db_xref="RefSeq_peptide:NP_001005240"
/db_xref="RefSeq_mRNA:NM_001005240"
/db_xref="Uniprot/SPTREMBL:A0A126GWN0"
/db_xref="UCSC:ENST00000585993.3"
/db_xref="EMBL:AB065917"
/db_xref="EMBL:BC136848"
/db_xref="EMBL:BC136867"
/db_xref="EMBL:KP290649"
/db_xref="GO:0004888"
/db_xref="GO:0004930"
/db_xref="GO:0004930"
/db_xref="GO:0004930"
/db_xref="GO:0004984"
/db_xref="GO:0004984"
/db_xref="GO:0005886"
/db_xref="GO:0005886"
/db_xref="GO:0007165"
/db_xref="GO:0007186"
/db_xref="GO:0007186"
/db_xref="GO:0007186"
/db_xref="GO:0007186"
/db_xref="GO:0007608"
/db_xref="GO:0016020"
/db_xref="GO:0016021"
/db_xref="GO:0016021"
/db_xref="GO:0016021"
/db_xref="GO:0050896"
/db_xref="GO:0050911"
/db_xref="HGNC_trans_name:OR4F17-202"
/db_xref="protein_id:AAI36849"
/db_xref="protein_id:AAI36868"
/db_xref="protein_id:ALI87807"
/db_xref="protein_id:BAC06132"
/db_xref="Reactome:R-HSA-162582"
/db_xref="Reactome:R-HSA-372790"
/db_xref="Reactome:R-HSA-381753"
/db_xref="Reactome:R-HSA-388396"
/db_xref="Reactome:R-HSA-418555"
/db_xref="UniParc:UPI0000041E2A"
/translation="MVTEFIFLGLSDSQGLQTFLFMLFFVFYGGIVFGNLLIVITVVS
DSHLHSPMYFLLANLSLIDLSLSSVTAPKMITDFFSQRKVISFKGCLVQIFLLHFFGG
SEMVILIAMGFDRYIAICKPLHYTTIMCGNACVGIMAVAWGIGFLHSVSQLAFAVHLP
FCGPNEVDSFYCDLPRVIKLACTDTYRLDIMVIANSGVLTVCSFVLLIISYTIILMTI
QHRPLDKSSKALSTLTAHITVVLLFFGPCVFIYAWPFPIKSLDKFLAVFYSVITPLLN
PIIYTLRNKDMKTAIRQLRKWDAHSSVKF"
...

...

ș.a.m.d. până se ajunge la cea de-a doua secțiune, ORIGIN

BASE COUNT 15142293 a 13954580 c 14061132 g 15282753 t 176858 n


ORIGIN
...
59821 NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN
59881 NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN
59941 NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN NNNNNNNNNN
60001 GATCACAGAG GCTGGGCTGC TCCCCACCCT CTGCACACCT CCTGCTTCTA ACAGCAGAGC
60061 TGCCAGGCCA GGCCCTCAGG CAAGGGCTCT GAAGTCAGGG TCACCTACTT GCCAGGGCCG
60121 ATCTTGGTGC CATCCAGGGG GCCTCTACAA GGATAATCTG ACCTGCAGGG TCGAGGAGTT
60181 GACGGTGCTG AGTTCCCTGC ACTCTCAGTA GGGACAGGCC CTATGCTGCC ACCTGTACAT
60241 GCTATCTGAA GGACAGCCTC CAGGGCACAC AGAGGATGGT ATTTACACAT GCACACATGG
60301 CTACTGATGG GGCAAGCACT TCACAACCCC TCATGATCAC GTGCAGCAGA CAATGTGGCC
60361 TCTGCAGAGG GGGAACGGAG ACCGGAGGCT GAGACTGGCA AGGCTGGACC TGAGTGTCGT
60421 CACCTAAATT CAGACGGGGA ACTGCCCCTG CACATAGTGA ACGGCTCACT GAGCAAACCC
60481 CGAGTCCCGA CCACCGCCTC AGTGTGGTCT AGCTCCTCAC CTGCTTCCAT CCTCCCTGGT
60541 GCGGGGTGGG CCCAGTGATA TCAGCTGCCT GCTGTTCCCC AGATGTGCCA AGTGCATTCT
60601 TGTGTGCTTG CATCTCATGG AACGCCATTT CCCCAGACAT CCCTGTGGCT GGCTCCTGAT
60661 GCCCGAGGCC CAAGTGTCTG ATGCTTTAAG GCACATCACC CCACTCATGC TTTTCCATGT
60721 TCTTTGGCCG CAGCAAGGCC GCTCTCACTG CAAAGTTAAC TCTGATGCGT GTGTAACACG
60781 ACATCCTCCT CCCAGTCGCC CCTGTAGCTC CCCTACCTCC AAGAGCCCAG CCCTTGCCCA
60841 CAGGGCCATA CTCCACGTGC AGAGCAGCCT CAGCACTCAC CGGGCACGAG CGAGCCTGTG
60901 TGGTGCGCAG GGATGAGAAG GCAGAGGCGC GACTGGGGTT CATGAGGAAG GGCAGGAGGA
60961 GGGTGTGGGA TGGTGGAGGG GTTTGAGAAG GCAGAGGCGC GACTGGGGTT CATGAGGAAA
61021 GGGAGGGGGA GGATGTGGGA TGGTGGAGGG GCTGCAGACT CTGGGCTAGG GAAAGCTGGG
61081 ATGTCTCTAA AGGTTGGAAT GAATGGCCTA GAATCCGACC CAATAAGCCA AAGCCACTTC
61141 CACCAACGTT AGAAGGCCTT GGCCCCCAGA GAGCCAATTT CACAATCCAG AAGTCCCCGT
61201 GCCCTAAAGG GTCTGCCCTG ATTACTCCTG GCTCCTTGTG TGCAGGGGGC TCAGGCATGG
61261 CAGGGCTGGG AGTACCAGCA GGCACTCAAG CGACTTAAGT GTTCCATGAC AGACTGGTAT
...
//

Deci, prima secțiune majoră care începe cu FEATURES conține adnotări privitoare la locația genelor, indicativul
acestora, zone codificatoare, tot ceea ce se cunoaște despre întreaga secvență a cromozomului a cărei lungime
este indicată la început în porțiunea DEFINITION.

A doua secțiune majoră care începe cu ORIGIN conține întreaga secvență nucleotidică ce aparține cromozomului
respectiv. În exemplul indicat ea are 58617616 de nucleotide numerotate 1, 61, 121 ...

Având în vedere aceste aspecte, programul conceput trebuie să poată să identifice genele cuprinse într-un
interval dat ca parametru și să extragă, din orice fișier în format genbank, porțiunile CDS cu descrierea lor (vezi
exemplul de mai jos) la care să adauge secvența nucleotidică corespunzătoare prin extragerea selectivă a acesteia
din secțiunea ORIGIN. Toate aceste date vor fi salvate într-un nou fișier.txt care să conțină, în ordine, genele și
descrierile CDS-urilor aferente acestora ce se încadrează în intervalul dat la care apar adăugate secvențele
nucleotidice corespunzătoare în varianta 5’->3’.

Dacă intervalul specificat ar fi 100000..320000, noul fișier.txt va conține informația într-o variantă de genul
următor:
LOCUS 19 58617616 bp DNA HTG 23-NOV-2019
DEFINITION Homo sapiens chromosome 19 GRCh38 full sequence 1..58617616 reannotated via
EnsEMBL
ACCESSION chromosome:GRCh38:19:1:58617616:1
VERSION 19GRCh38
KEYWORDS .
SOURCE human
ORGANISM Homo sapiens
Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria;
Deuterostomia; Chordata; Craniata; Vertebrata; Gnathostomata;
Teleostomi; Euteleostomi; Sarcopterygii; Dipnotetrapodomorpha;
Tetrapoda; Amniota; Mammalia; Theria; Eutheria; Boreoeutheria;
Euarchontoglires; Primates; Haplorrhini; Simiiformes; Catarrhini;
Hominoidea; Hominidae.

gene 107104..117102
/gene=ENSG00000176695.8
/locus_tag="OR4F17"
/note="olfactory receptor family 4 subfamily F member 17
[Source:HGNC Symbol;Acc:HGNC:15381]"
CDS 110679..111596
/gene="ENSG00000176695.8"
/protein_id="ENSP00000467301.1"
/note="transcript_id=ENST00000585993.3"
/sequence:
ATGGTGACTGAATTCATTTTTCTGGGTCTCTCTGATTCTCAGGGACTCCAGACCTTCCTATTTATGTTGTTTTTTGTATTCTATGGAGGAATCG
TGTTTGGAAACCTTCTTATTGTCATAACAGTGGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGA
TCTGTCTCTGTCTTCAGTCACAGCCCCCAAGATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGGGCTGCCTTGTTCAGATA
TTTCTCCTTCACTTCTTTGGTGGGAGTGAGATGGTGATCCTCATAGCCATGGGCTTTGACAGATATATAGCAATATGCAAACCCCTACACTACA
CTACAATTATGTGTGGCAACGCATGTGTCGGCATTATGGCTGTCGCATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCCTTTGCCGT
GCACTTACCCTTCTGTGGTCCCAATGAGGTCGATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTGTACAGATACCTACAGGCTA
GATATTATGGTCATTGCTAACAGTGGTGTGCTCACTGTGTGTTCTTTTGTTCTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGC
ATCGCCCTTTAGATAAGTCGTCCAAAGCTCTGTCCACTTTGACTGCTCACATTACAGTAGTTCTTTTGTTCTTTGGACCATGTGTCTTTATTTA
TGCCTGGCCATTCCCCATCAAGTCATTAGATAAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTGAACCCAATTATATACACACTG
AGGAACAAAGACATGAAGACGGCAATAAGACAGCTGAGAAAATGGGATGCACATTCTAGTGTAAAGTTTTAG
CDS join(107149..107157,110625..111596)
/gene="ENSG00000176695.8"
/protein_id="ENSP00000493422.2"
/note="transcript_id=ENST00000618231.3"
/sequence:
ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGAAACGAATAACTCTATGGTGACTGAATTCATTTTTCTGGGTCTCT
CTGATTCTCAGGGACTCCAGACCTTCCTATTTATGTTGTTTTTTGTATTCTATGGAGGAATCGTGTTTGGAAACCTTCTTATTGTCATAACAGT
GGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGATCTGTCTCTGTCTTCAGTCACAGCCCCCAAG
ATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGGGCTGCCTTGTTCAGATATTTCTCCTTCACTTCTTTGGTGGGAGTGAGA
TGGTGATCCTCATAGCCATGGGCTTTGACAGATATATAGCAATATGCAAACCCCTACACTACACTACAATTATGTGTGGCAACGCATGTGTCGG
CATTATGGCTGTCGCATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCCTTTGCCGTGCACTTACCCTTCTGTGGTCCCAATGAGGTC
GATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTGTACAGATACCTACAGGCTAGATATTATGGTCATTGCTAACAGTGGTGTGC
TCACTGTGTGTTCTTTTGTTCTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGCATCGCCCTTTAGATAAGTCGTCCAAAGCTCT
GTCCACTTTGACTGCTCACATTACAGTAGTTCTTTTGTTCTTTGGACCATGTGTCTTTATTTATGCCTGGCCATTCCCCATCAAGTCATTAGAT
AAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTGAACCCAATTATATACACACTGAGGAACAAAGACATGAAGACGGCAATAAGAC
AGCTGAGAAAATGGGATGCACATTCTAGTGTAAAGTTTTAG
CDS 110679..111596
/gene="ENSG00000176695.8"
/protein_id="ENSP00000315047.3"
/note="transcript_id=ENST00000318050.4"
/sequence:
ATGGTGACTGAATTCATTTTTCTGGGTCTCTCTGATTCTCAGGGACTCCAGACCTTCCTATTTATGTTGTTTTTTGTATTCTATGGAGGAATCG
TGTTTGGAAACCTTCTTATTGTCATAACAGTGGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGA
TCTGTCTCTGTCTTCAGTCACAGCCCCCAAGATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGGGCTGCCTTGTTCAGATA
TTTCTCCTTCACTTCTTTGGTGGGAGTGAGATGGTGATCCTCATAGCCATGGGCTTTGACAGATATATAGCAATATGCAAACCCCTACACTACA
CTACAATTATGTGTGGCAACGCATGTGTCGGCATTATGGCTGTCGCATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCCTTTGCCGT
GCACTTACCCTTCTGTGGTCCCAATGAGGTCGATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTGTACAGATACCTACAGGCTA
GATATTATGGTCATTGCTAACAGTGGTGTGCTCACTGTGTGTTCTTTTGTTCTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGC
ATCGCCCTTTAGATAAGTCGTCCAAAGCTCTGTCCACTTTGACTGCTCACATTACAGTAGTTCTTTTGTTCTTTGGACCATGTGTCTTTATTTA
TGCCTGGCCATTCCCCATCAAGTCATTAGATAAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTGAACCCAATTATATACACACTG
AGGAACAAAGACATGAAGACGGCAATAAGACAGCTGAGAAAATGGGATGCACATTCTAGTGTAAAGTTTTAG

gene complement(281040..291403)
/gene=ENSG00000141934.10
/locus_tag="PLPP2"
/note="phospholipid phosphatase 2 [Source:HGNC
Symbol;Acc:HGNC:9230]"
CDS join(complement(290952..291066),
complement(288020..288171),complement(287474..287751),
complement(282752..282809),complement(282134..282310),
complement(281388..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000329697.1"
/note="transcript_id=ENST00000327790.7"
/sequence:
ATGGGGGTCGCGAGAGGCCCGGGGAGCCGGGGCCAGCATCCCCCGCCCCGGCAGCAGGAAGTCTGTGCGGAGGGGCCGCGCGCGCGCCTCCATC
CCGCCCCGCCTGGCCTGGGAG
CCTCCCTGCCCTTCGCTATCCTGACGCTGGTGAACGCCCCGTACAAGCGAGGATTTTACTGCGGGGATGACTCCATCCGGTACCCCTACCGTCC
AGATACCATCACCCACGGGCTCATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAGCCCAGCCTGTCACTGACGT
TGACCCTGGGCGAGGCTGACCACAACCACTATGGATACCCGCACTCCTCCTCCTGA
CDS join(complement(291285..291336),
complement(288020..288171),complement(287474..287751),
complement(282752..282809),complement(282134..282310),
complement(281388..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000388565.2"
/note="transcript_id=ENST00000434325.7"
/sequence:
ATGCAGCGGAGGTGGGTCTTCGTGCTGCTCGACGTGCTGTGCTTACTGGTCG
CCTCCCTGCCCTTCGCTATCCTGACGCTGGTGAACGCCCCGTACAAGCGAGGATTTTACTGCGGGGATGACTCCATCCGGTACCCCTACCGTCC
AGATACCATCACCCACGGGCTCATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAGCCCAGCCTGTCACTGACGT
TGACCCTGGGCGAGGCTGACCACAACCACTATGGATACCCGCACTCCTCCTCCTGA
CDS join(complement(288020..288055),
complement(287474..287751),complement(282752..282809),
complement(282134..282310),complement(281388..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000269812.2"
/note="transcript_id=ENST00000269812.7"
/sequence:
ATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAGCCCAGCCTGTCACTGACGT
TGACCCTGGGCGAGGCTGACCACAACCACTATGGATACCCGCACTCCTCCTCCTGA
CDS join(complement(288020..288055),
complement(287474..287751),complement(282752..282809),
complement(282134..282310),complement(281463..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000488312.1"
/note="transcript_id=ENST00000633125.1"
/sequence:
ATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAG
CDS join(complement(287474..287636),
complement(282752..282809),complement(282122..282310))
/codon_start="3"
/gene="ENSG00000141934.10"
/protein_id="ENSP00000466947.1"
/note="transcript_id=ENST00000586998.3"
/sequence:
CCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTGCGACCCCGACTGGAGCCGGGT
CAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACTGTGAGCTTCTA
A
CDS join(complement(291285..291336),
complement(288020..288189),complement(287474..287751),
complement(282775..282809))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000466545.2"
/note="transcript_id=ENST00000591572.2"
/sequence:
ATGCAGCGGAGGTGGGTCTTCGTGCTGCTCGACGTGCTGTGCTTACTGGTCG
GCTTTTCTTCCCCACCAGCCTCCCTGCCCTTCGCTATCCTGACGCTGGTGAACGCCCCGTACAAGCGAGGATTTTACTGCGGGGATGACTCCAT
CCGGTACCCCTACCGTCCAGATACCATCACCCACGGGCTCATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGA

!ATENȚIE! la CDS-urile ce fac referire la mai multe secvențe folosind diverși operatori cum ar fi join, complement,
order ș.a. Aceste CDS-uri trebuie interpretate în mod corespunzător (5’->3’) înainte de a fi adăugate în fișierul
final. O descriere actualizată se poate consulta pe site-ul GDDBJ / ENA / GenBank Feature Table Definition,
secțiunea 3.4.2.2. Operators [link] . Ca rezultat final al execuției programului, toate aceste secvențe trebuie să
apară în varianta 5’->3’ sub forma unui unic șir continuu de caractere, fără spații (\s), fără separatori (\t \n \r),
fără absolut nimic altceva decât caracterele corespunzătoare formatului FASTA pentru descrierea secvențelor.

Este obligatoriu ca programul să poată funcționa cu orice fișier în format GenBank.


În principiu, programul ar trebui să aibă nevoie de trei parametri:
1. numele fișierului care trebuie citit (orice fișier organizat în baza standardului menționat).
2. intervalul pe baza căruia să fie identificate genele și CDS-urile corepsunzătoare acestora.
3. numele fișierului.txt în care urmează să fie organizată și stocată informația conform descrierii de mai sus.

Programul (program.pl) va beneficia de o descriere succintă (sub formă de comentarii inserate în program) din
care să reiese clar modul de utilizare (parametrii cu care trebuie lansat în execuție și/sau module create separat în
locații proprii, vezi use lib), rolul variabilelor alese și rolul instrucțiunilor de decizie și control ce guvernează
execuția acestuia.

Astfel, fișierul .pl ce reprezintă programul, va fi trimis numai pe adresa de e-mail


maniu.calin@biologieuaic.onmicrosoft.com, până cel târziu la data la care a fost programat examenul. La ora 22
(ora poștei electronice) examenul este considerat ca fiind încheiat.

NU trimiteți decât fișierul .pl ce reprezintă programul realizat și, doar dacă este cazul, fișiere .pm
în cazul în care ați realizat module cu funcțiile necesare programului.

În cazul în care folosiți clientul de mail Outlook în scopul de a trimite fișiere cu extensia .pl, acestea trebuie în
prealabil arhivate (zip, rar, ...) pentru că acest program nu permite expedierea atașamentelor sub formă de
scripturi perl. Aceste fișiere sunt considerate periculoase pentru marea majoritate a utilizatorilor neavizați.
Modificarea acestui comportament poate fi făcută doar din registry. O descriere detaliată poate fi consulată pe
site-ul Microsoft la această adresă [link] . Modificările efectuate în registry trebuie operate cu mare atenție
pentru a nu compromite diverse funcționalități ale sistemului de operare sau ale altor aplicații.

Pentru accesul la diverse baze de date direct prin FTP folosind Total Commander, puteți configura clientul de FTP
al acestuia cu următoarele adrese:

ftp.ebi.ac.uk (European Bioinformatics Institute)


ftp.ensembl.org (Ensembl)
ftp.ncbi.nih.gov (NCBI)
ftp.pdbj.org (PDBjapan)
ftp.rcsb.org (RCSB Protein Data Bank)

În oricare din cazurile descrise User name și Password se completează cu anonymous vezi imaginea de mai jos:

În cazul Ensembl puteți descărca datele despre genomul


diverselor organisme folosind orice browser ce suportă
FTP direct de pe această pagină:
http://www.ensembl.org/info/data/ftp/index.html cele
de interes sunt la secțiunea Annotated sequence
(GenBank).

S-ar putea să vă placă și