Documente Academic
Documente Profesional
Documente Cultură
Fișierele în format GenBank, datorită structurii lor complexe, sunt mai dificil de exploatat în studii comparative. În
acest scop, să se conceapă un program care să fie capabil să identifice genele și porțiunile CDS corespunzătoare
acestora ce se găsesc descrise în secțiunea FEATURES și la care să fie adăugate secvențele lor nucleotidice ce le
corespund din secțiunea ORIGIN, creând astfel un nou fișier.txt.
După cum se poate observa, în fișierele GenBank, există două secțiuni majore FEATURES și ORIGIN care
delimitează datele în două zone. Exemplul care este reprodus mai jos este preluat din descrierea cromozomului
19 conform fișierului Homo_sapiens.GRCh38.99.chromosome.19.dat. În porțiunea extrasă, în secțiunea FEATURES
apare următoarea descriere.
...
Deci, prima secțiune majoră care începe cu FEATURES conține adnotări privitoare la locația genelor, indicativul
acestora, zone codificatoare, tot ceea ce se cunoaște despre întreaga secvență a cromozomului a cărei lungime
este indicată la început în porțiunea DEFINITION.
A doua secțiune majoră care începe cu ORIGIN conține întreaga secvență nucleotidică ce aparține cromozomului
respectiv. În exemplul indicat ea are 58617616 de nucleotide numerotate 1, 61, 121 ...
Având în vedere aceste aspecte, programul conceput trebuie să poată să identifice genele cuprinse într-un
interval dat ca parametru și să extragă, din orice fișier în format genbank, porțiunile CDS cu descrierea lor (vezi
exemplul de mai jos) la care să adauge secvența nucleotidică corespunzătoare prin extragerea selectivă a acesteia
din secțiunea ORIGIN. Toate aceste date vor fi salvate într-un nou fișier.txt care să conțină, în ordine, genele și
descrierile CDS-urilor aferente acestora ce se încadrează în intervalul dat la care apar adăugate secvențele
nucleotidice corespunzătoare în varianta 5’->3’.
Dacă intervalul specificat ar fi 100000..320000, noul fișier.txt va conține informația într-o variantă de genul
următor:
LOCUS 19 58617616 bp DNA HTG 23-NOV-2019
DEFINITION Homo sapiens chromosome 19 GRCh38 full sequence 1..58617616 reannotated via
EnsEMBL
ACCESSION chromosome:GRCh38:19:1:58617616:1
VERSION 19GRCh38
KEYWORDS .
SOURCE human
ORGANISM Homo sapiens
Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria;
Deuterostomia; Chordata; Craniata; Vertebrata; Gnathostomata;
Teleostomi; Euteleostomi; Sarcopterygii; Dipnotetrapodomorpha;
Tetrapoda; Amniota; Mammalia; Theria; Eutheria; Boreoeutheria;
Euarchontoglires; Primates; Haplorrhini; Simiiformes; Catarrhini;
Hominoidea; Hominidae.
gene 107104..117102
/gene=ENSG00000176695.8
/locus_tag="OR4F17"
/note="olfactory receptor family 4 subfamily F member 17
[Source:HGNC Symbol;Acc:HGNC:15381]"
CDS 110679..111596
/gene="ENSG00000176695.8"
/protein_id="ENSP00000467301.1"
/note="transcript_id=ENST00000585993.3"
/sequence:
ATGGTGACTGAATTCATTTTTCTGGGTCTCTCTGATTCTCAGGGACTCCAGACCTTCCTATTTATGTTGTTTTTTGTATTCTATGGAGGAATCG
TGTTTGGAAACCTTCTTATTGTCATAACAGTGGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGA
TCTGTCTCTGTCTTCAGTCACAGCCCCCAAGATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGGGCTGCCTTGTTCAGATA
TTTCTCCTTCACTTCTTTGGTGGGAGTGAGATGGTGATCCTCATAGCCATGGGCTTTGACAGATATATAGCAATATGCAAACCCCTACACTACA
CTACAATTATGTGTGGCAACGCATGTGTCGGCATTATGGCTGTCGCATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCCTTTGCCGT
GCACTTACCCTTCTGTGGTCCCAATGAGGTCGATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTGTACAGATACCTACAGGCTA
GATATTATGGTCATTGCTAACAGTGGTGTGCTCACTGTGTGTTCTTTTGTTCTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGC
ATCGCCCTTTAGATAAGTCGTCCAAAGCTCTGTCCACTTTGACTGCTCACATTACAGTAGTTCTTTTGTTCTTTGGACCATGTGTCTTTATTTA
TGCCTGGCCATTCCCCATCAAGTCATTAGATAAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTGAACCCAATTATATACACACTG
AGGAACAAAGACATGAAGACGGCAATAAGACAGCTGAGAAAATGGGATGCACATTCTAGTGTAAAGTTTTAG
CDS join(107149..107157,110625..111596)
/gene="ENSG00000176695.8"
/protein_id="ENSP00000493422.2"
/note="transcript_id=ENST00000618231.3"
/sequence:
ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGAAACGAATAACTCTATGGTGACTGAATTCATTTTTCTGGGTCTCT
CTGATTCTCAGGGACTCCAGACCTTCCTATTTATGTTGTTTTTTGTATTCTATGGAGGAATCGTGTTTGGAAACCTTCTTATTGTCATAACAGT
GGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGATCTGTCTCTGTCTTCAGTCACAGCCCCCAAG
ATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGGGCTGCCTTGTTCAGATATTTCTCCTTCACTTCTTTGGTGGGAGTGAGA
TGGTGATCCTCATAGCCATGGGCTTTGACAGATATATAGCAATATGCAAACCCCTACACTACACTACAATTATGTGTGGCAACGCATGTGTCGG
CATTATGGCTGTCGCATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCCTTTGCCGTGCACTTACCCTTCTGTGGTCCCAATGAGGTC
GATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTGTACAGATACCTACAGGCTAGATATTATGGTCATTGCTAACAGTGGTGTGC
TCACTGTGTGTTCTTTTGTTCTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGCATCGCCCTTTAGATAAGTCGTCCAAAGCTCT
GTCCACTTTGACTGCTCACATTACAGTAGTTCTTTTGTTCTTTGGACCATGTGTCTTTATTTATGCCTGGCCATTCCCCATCAAGTCATTAGAT
AAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTGAACCCAATTATATACACACTGAGGAACAAAGACATGAAGACGGCAATAAGAC
AGCTGAGAAAATGGGATGCACATTCTAGTGTAAAGTTTTAG
CDS 110679..111596
/gene="ENSG00000176695.8"
/protein_id="ENSP00000315047.3"
/note="transcript_id=ENST00000318050.4"
/sequence:
ATGGTGACTGAATTCATTTTTCTGGGTCTCTCTGATTCTCAGGGACTCCAGACCTTCCTATTTATGTTGTTTTTTGTATTCTATGGAGGAATCG
TGTTTGGAAACCTTCTTATTGTCATAACAGTGGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGA
TCTGTCTCTGTCTTCAGTCACAGCCCCCAAGATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGGGCTGCCTTGTTCAGATA
TTTCTCCTTCACTTCTTTGGTGGGAGTGAGATGGTGATCCTCATAGCCATGGGCTTTGACAGATATATAGCAATATGCAAACCCCTACACTACA
CTACAATTATGTGTGGCAACGCATGTGTCGGCATTATGGCTGTCGCATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCCTTTGCCGT
GCACTTACCCTTCTGTGGTCCCAATGAGGTCGATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTGTACAGATACCTACAGGCTA
GATATTATGGTCATTGCTAACAGTGGTGTGCTCACTGTGTGTTCTTTTGTTCTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGC
ATCGCCCTTTAGATAAGTCGTCCAAAGCTCTGTCCACTTTGACTGCTCACATTACAGTAGTTCTTTTGTTCTTTGGACCATGTGTCTTTATTTA
TGCCTGGCCATTCCCCATCAAGTCATTAGATAAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTGAACCCAATTATATACACACTG
AGGAACAAAGACATGAAGACGGCAATAAGACAGCTGAGAAAATGGGATGCACATTCTAGTGTAAAGTTTTAG
gene complement(281040..291403)
/gene=ENSG00000141934.10
/locus_tag="PLPP2"
/note="phospholipid phosphatase 2 [Source:HGNC
Symbol;Acc:HGNC:9230]"
CDS join(complement(290952..291066),
complement(288020..288171),complement(287474..287751),
complement(282752..282809),complement(282134..282310),
complement(281388..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000329697.1"
/note="transcript_id=ENST00000327790.7"
/sequence:
ATGGGGGTCGCGAGAGGCCCGGGGAGCCGGGGCCAGCATCCCCCGCCCCGGCAGCAGGAAGTCTGTGCGGAGGGGCCGCGCGCGCGCCTCCATC
CCGCCCCGCCTGGCCTGGGAG
CCTCCCTGCCCTTCGCTATCCTGACGCTGGTGAACGCCCCGTACAAGCGAGGATTTTACTGCGGGGATGACTCCATCCGGTACCCCTACCGTCC
AGATACCATCACCCACGGGCTCATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAGCCCAGCCTGTCACTGACGT
TGACCCTGGGCGAGGCTGACCACAACCACTATGGATACCCGCACTCCTCCTCCTGA
CDS join(complement(291285..291336),
complement(288020..288171),complement(287474..287751),
complement(282752..282809),complement(282134..282310),
complement(281388..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000388565.2"
/note="transcript_id=ENST00000434325.7"
/sequence:
ATGCAGCGGAGGTGGGTCTTCGTGCTGCTCGACGTGCTGTGCTTACTGGTCG
CCTCCCTGCCCTTCGCTATCCTGACGCTGGTGAACGCCCCGTACAAGCGAGGATTTTACTGCGGGGATGACTCCATCCGGTACCCCTACCGTCC
AGATACCATCACCCACGGGCTCATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAGCCCAGCCTGTCACTGACGT
TGACCCTGGGCGAGGCTGACCACAACCACTATGGATACCCGCACTCCTCCTCCTGA
CDS join(complement(288020..288055),
complement(287474..287751),complement(282752..282809),
complement(282134..282310),complement(281388..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000269812.2"
/note="transcript_id=ENST00000269812.7"
/sequence:
ATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAGCCCAGCCTGTCACTGACGT
TGACCCTGGGCGAGGCTGACCACAACCACTATGGATACCCGCACTCCTCCTCCTGA
CDS join(complement(288020..288055),
complement(287474..287751),complement(282752..282809),
complement(282134..282310),complement(281463..281537))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000488312.1"
/note="transcript_id=ENST00000633125.1"
/sequence:
ATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACT
GTCTGCTACATCTCAGACTTCTTCAAAGCCCGACCCCCACAGCACTGTCTGAAGGAGGAGGAGCTGGAACGGAAG
CDS join(complement(287474..287636),
complement(282752..282809),complement(282122..282310))
/codon_start="3"
/gene="ENSG00000141934.10"
/protein_id="ENSP00000466947.1"
/note="transcript_id=ENST00000586998.3"
/sequence:
CCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTGCGACCCCGACTGGAGCCGGGT
CAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGATGTACTGCATGGTGTTCTTGGCG
CTGTATGTGCAGGCACGACTCTGTTGGAAGTGGGCACGGCTGCTGCGACCCACAGTCCAGTTCTTCCTGGTGGCCTTTGCCCTCTACGTGGGCT
ACACCCGCGTGTCTGATTACAAACACCACTGGAGCGATGTCCTTGTTGGCCTCCTGCAGGGGGCACTGGTGGCTGCCCTCACTGTGAGCTTCTA
A
CDS join(complement(291285..291336),
complement(288020..288189),complement(287474..287751),
complement(282775..282809))
/gene="ENSG00000141934.10"
/protein_id="ENSP00000466545.2"
/note="transcript_id=ENST00000591572.2"
/sequence:
ATGCAGCGGAGGTGGGTCTTCGTGCTGCTCGACGTGCTGTGCTTACTGGTCG
GCTTTTCTTCCCCACCAGCCTCCCTGCCCTTCGCTATCCTGACGCTGGTGAACGCCCCGTACAAGCGAGGATTTTACTGCGGGGATGACTCCAT
CCGGTACCCCTACCGTCCAGATACCATCACCCACGGGCTCATGGCTGGGGTCACCATCACGGCCACCGTCATCCTT
GTCTCGGCCGGGGAAGCCTACCTGGTGTACACAGACCGGCTCTATTCTCGCTCGGACTTCAACAACTACGTGGCTGCTGTATACAAGGTGCTGG
GGACCTTCCTGTTTGGGGCTGCCGTGAGCCAGTCTCTGACAGACCTGGCCAAGTACATGATTGGGCGTCTGAGGCCCAACTTCCTAGCCGTCTG
CGACCCCGACTGGAGCCGGGTCAACTGCTCGGTCTATGTGCAGCTGGAGAAGGTGTGCAGGGGAAACCCTGCTGATGTCACCGAGGCCAG
GTTGTCTTTCTACTCGGGACACTCTTCCTTTGGGA
!ATENȚIE! la CDS-urile ce fac referire la mai multe secvențe folosind diverși operatori cum ar fi join, complement,
order ș.a. Aceste CDS-uri trebuie interpretate în mod corespunzător (5’->3’) înainte de a fi adăugate în fișierul
final. O descriere actualizată se poate consulta pe site-ul GDDBJ / ENA / GenBank Feature Table Definition,
secțiunea 3.4.2.2. Operators [link] . Ca rezultat final al execuției programului, toate aceste secvențe trebuie să
apară în varianta 5’->3’ sub forma unui unic șir continuu de caractere, fără spații (\s), fără separatori (\t \n \r),
fără absolut nimic altceva decât caracterele corespunzătoare formatului FASTA pentru descrierea secvențelor.
Programul (program.pl) va beneficia de o descriere succintă (sub formă de comentarii inserate în program) din
care să reiese clar modul de utilizare (parametrii cu care trebuie lansat în execuție și/sau module create separat în
locații proprii, vezi use lib), rolul variabilelor alese și rolul instrucțiunilor de decizie și control ce guvernează
execuția acestuia.
NU trimiteți decât fișierul .pl ce reprezintă programul realizat și, doar dacă este cazul, fișiere .pm
în cazul în care ați realizat module cu funcțiile necesare programului.
În cazul în care folosiți clientul de mail Outlook în scopul de a trimite fișiere cu extensia .pl, acestea trebuie în
prealabil arhivate (zip, rar, ...) pentru că acest program nu permite expedierea atașamentelor sub formă de
scripturi perl. Aceste fișiere sunt considerate periculoase pentru marea majoritate a utilizatorilor neavizați.
Modificarea acestui comportament poate fi făcută doar din registry. O descriere detaliată poate fi consulată pe
site-ul Microsoft la această adresă [link] . Modificările efectuate în registry trebuie operate cu mare atenție
pentru a nu compromite diverse funcționalități ale sistemului de operare sau ale altor aplicații.
Pentru accesul la diverse baze de date direct prin FTP folosind Total Commander, puteți configura clientul de FTP
al acestuia cu următoarele adrese:
În oricare din cazurile descrise User name și Password se completează cu anonymous vezi imaginea de mai jos: