Sunteți pe pagina 1din 17

Costovici Ina, ȘBA2101m

Lucrare practică nr.1


Tema: Baze de date şi moduri de accesare

Scopul:

1. De a face cunoştinţă cu bazele de date accesibile în domeniul filogeneticii;


2. De a însuşi algoritmul de căutare a secvenţelor nucleotidice după denumirea genei ori a
proteinei codificate;
3. De a însuşi algoritmul de căutare a informaţiei despre gene şi proteine în baza unei
secvenţe de nucleotide ori de aminoacizi;
4. De a însuşi modalitatea de căutare a literaturii ştiinţifice cu referire la o protein ori o
genă concretă;
5. De a însuşi algoritmul alcătuirii unui fişier FASTA cu mai multe secvenţe proteice ori
nucleotidice.

Mod de lucru:

1. Am vizualizat și analizat o listă destul de consistent a bazelor de date biologice, inclusiv


baze de date moleculare accesând:
https://en.wikipedia.org/wiki/List_of_biological_databases#Meta_databases
2. Una dintre cele mai performante şi mai utilizate resurse de biologie moleculară la
moment este baza integrată ENTREZ pe NCBI. Baza a fost creată şi este menţinută
profesional, echipa de asistenţă răspunde chiar şi la întrebări de ordin tehnic. În prezent,
acesta este cel mai potrivit loc pe Internet pentru căutarea datelor de biologie
moleculară. În acest subpunct avem drept scop de a găsi gena care codifică enzima
izocitrat dehidrogenaza la Escherichia coli.
Pentru a îndeplini sarcina procedăm în felul următor:
 deschidem pagina: http://www.ncbi.nlm.nih.gov/gquery/ (care poate fi accesată de
asemenea introducând adresa http://www.ncbi.nlm.nih.gov/Entrez/)
 În rândul SEARCH introducem denumirea enzimei care ne interesează (urmărim ca
denumirea să fie introdusă corect în limba engleză).

 În rezultatul căutării, baza de date ne oferă o listă enormă de rezultate, inclizând diferite
domenii: literatură ştiinţifică, sănătate, organisme, secvenţe nucleotidice, genom,
proteine, căi metabolice etc. Deoarece sarcina noastră constă în a găsi gena care codifică
sinteza acestei enzime, ne vom limita la Secvenţe de nucleotide, Secvenţe ADN şi ARN
Chiar şi limitarea la Nucleotide ne oferă un masiv enorm de informaţii, care include in cazul
nostru 94 181 secvenţe (la data de 14.02.2022). Pentru a ne orienta în acest masiv este necesar
de a introduce limite de căutare, care vor permite să reducem considerabil volumul de lucru.
Astfel, introducem Limitele de căutare accesând link-urile costumize din partea stângă a
ecranului:

 Ne vom limita la selectarea tipului de molecule si vom alege ARNm. Pentru aceasta pe
dreapta găsim compartimentul Molecule type și alegem mRNA
 În acest caz, din numărul iniţial de rezultate rămân 13 284. Dacă vrem să vedem doar
rezultatele ce au referire la specia umană, adăugăm în linia de cautare „and Homo
sapiens”.
 În rezultatul acestei operaţii numărul de rezultate se limitează la 627. Rezultatul de
interes este primul. Informaţia oferită include locaţia genei, mărimea ei (1596 perechi de
baze), nr de acces, organismul din care a fost obţinută şi taxonomia acestuia, referinţele
bibliografice, care conţin informaţia despre această moleculă, segmentul cds
(codificator), produsul transcripţiei cds şi însăşi secvenţa.
Secvenţa nucleotidică este prezentată în formă de şir de litere (conform codului AN), care
incepe cu ORIGIN ţi se termină cu //.
 Informaţia obţinută poate fi vizualizată sub formă de fişier FASTA. Pentru aceasta se
accesează link-ul Fasta din partea de sus-stânga. Informaţia este prezentată în următoarea
formă FASTA:
 Sau Grafică:

3. Căutare unei gene ori proteine în baza unei secvenţe de nucleotide ori de aminoacizi.
La această etapă vom căuta o proteină după o secvenţă aminoacidică:
GSHMLEADLELERAADVRWEEQAEISGSSPILSITISEDGSMSIKNEEEEQTLG
 Pentru a îndeplini sarcina accesăm https://www.ncbi.nlm.nih.gov/ , după care urmăm la
lincul „Proteins” . În geamul deschis selectăm Protein tools, iar în geamul următor –
Protein blast
 Introducem secvenţa: cu ajutorul Choose Searce Set şi Program Selection alegem bazele
de date la care vom apela, putem limita lista organismelor pentru care vom efectua
căutarea şi vom selecta instrumentele de calcul pe care le vom aplica. După introducerea
informaţiei necesare activăm butonul Blast:
 Calculul durează de la câteva secunde, până la câteva minute. Rezultatul se prezintă în
următoarea formă:
 Din informaţia expusă, reiese că această secvență aminoacidică este lanţul A al proteazei
NS3 din suprafamilia proteică Flavi Ns2b a virusului Dengue cu numărul de acces în
PDB 2FOMA. Accesând acest link putem vizualiza informaţia disponibilă despre această
proteină.
4. Căutarea literaturii ştiinţifice cu referire la o proteină ori o genă concretă.
 Cea mai simplă modalitate de a accesa publicaţiile ştiinţifice despre o genă sau o proteină
concretă este de pe pagina cu informaţia completă despre acestea din GenBank, activând
butonul PUBMED din stânga paginii, ori butonul Full text in PMC din dreapta ei:
O altă modalitate este de a accesa pagina http://www.ncbi.nlm.nih.gov/pubmed/, unde în linia
de căutare se introduc cuvintele cheie de interes.

5. Algoritmul alcătuirii unui fişier FASTA cu mai multe secvenţe proteice ori nucleotidice.

În cazul cand în computer este încărcat setul Fasta, atunci crearea fişierelor de acest tip se
poate face automat din bazele de date integrative (ENTREZ, de exemplu).

În lipsa acestora fişierul de tip fasta se generează manual prin deschiderea unui fişier de text
simplu (WordPad, de exemplu) şi inserarea în el a conţinutului formatului Fasta al descrierii
genei ori a proteinei. Secvenţele următoare se introduce din rând nou.
>gi|93279692|pdb|2FOM|A Chain A, Dengue Virus Ns2bNS3 PROTEASE
GSHMLEADLELERAADVRWEEQAEISGSSPILSITISEDGSMSIKNEEEEQTLGGGGSGGGG
>gi|573974166|gb|AHG23110.1| polyprotein, partial [Dengue virus 2]
AIKDNRAVHADMGYWIESALNDTWKMEKASFIEVKSCHWPKSHTLWSNGVLESEMIIPKNFAG
PVSQHNYRPGYHTQTAGPWHLGKLEMDFDFCEGTTVVVTEDCGNRGPSLRTTTASGKLITEWC
CRSCTLPPLRYRGEDGCWYGMEIRPLKEKEENLVNSLVTAGHGQIDNFSLGVLGMALFLEEML
TRIGTKHAILLVAVSFVTLITGNMSFRDLGRVMVMVGATMTDDIGMGVTYLALLAAFKVRPTF
AAGLLLRKLTSKELMMATIGIALLSQS
>gi|564112273|gb|AHB63925.1| nonstructural protein 2B, partial [Dengue virus]
SWPLNEAIMAVGMVSILASSLLKNDIPMTGPLVAGGLLTVCYVLTGRSADLELERAADVRWED
QAEVSGSSPILSITISEDGSMSIKNEEEEQTLTILIRTGLLVISGLFPVSIPITAAAWYLWEV
KKQR

S-ar putea să vă placă și