Documente Academic
Documente Profesional
Documente Cultură
Bioinformatica Curs1
Bioinformatica Curs1
Bioinformatica Curs1
Laborator 1
Introducere în sistemul integrat furnizat de NCBI (National Center
for Biotechnology Information )
Introducere în Bioinformatică
Introducere în Internet
Internet este la ora actuală o „reţea de reţele” formată în urma interconectării reţelelor
regionale din lumea întreagă. Originile sale constau în proiectul de cercetare de la Advanced
Research Projects Agency (ARPA) din cadrul U.S. Department of Defence din 1969, proiect
numit ARPANET. Reţeaua iniţială a fost formată din conectarea a patru noduri de pe coasta
de vest cu scopul de a transmite informaţii. În urma reuşitei acestui proiect au apărut mai
multe reţele care permiteau transferul de informaţii şi fişiere. În 1982 ARPA a introdus
Transmission Control Protocol (TCP) şi Internet Protocol (IP); TCP/IP a permis ca reţele
diferite să poată comunica între ele şi a dus la crearea sistemului de astăzi.
În momentul în care calculatoarele din reţea au fost interconectate între ele a fost
nevoie de o metodă necesară de a identifica o anume maşină. Pentru aceasta, fiecare
calculator conectat direct la internet a primit un număr IP (adresă IP). Datorită faptului că
Bioinformatica L01 1
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
adresele IP asociate este greu de memorat, acestea sunt asociate nu nume. Conversia numelui
în numărul corespunzător este realizată către nişte calculatoare speciale numite Domain Name
server (DNS).
Servicii Oferite
E-mail
Prin email se pot transmite şi primi mesaje la fel ca prin poşta obişnuită. Principalele
avantaje sunt:
- transmiterea se face mult mai rapid
- prezintă o metodă convenabilă de a transmite fişiere
- trimiterea unui mesaj costă foarte puţin
- mesajele pot fi citite de oriunde
Principalul dezavantaj al acestui serviciu constă în lipsa securităţii. De la transmisie
până la recepţie mesajul poate parcurge mai multe noduri unde pot fi interceptate şi citite. O
altă problemă este ridicată de confidenţialitate: în multe companii email-ul este folosit doar
pentru comunicări oficiale şi este controlat permanent. Transmiterea de fişiere este deseori
limitată: se pot transmite doar fişiere mai mici de o anumită dimensiune, iar numărul acestora
poate fi limitat.
Acest serviciu poate fi folosit şi pentru realiza căutări în bazele de date. Utilizatorii pot
trimite mesaje scrise într-un format predefinit către un server de căutare. Serverul va realiza
căutările dorite şi va trimite rezultatele înapoi prin email. Pentru cele mai multe servere la
trimiterea unui mesaj help vor răspunde cu instrucţiuni despre operaţiile realizate şi modul în
care trebuie formatate datele care trebuiesc trimise.
Bioinformatica L01 2
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
memorează tot textul unei pagini oferind foarte multe rezultate. Altele memorează doar
titlurile paginilor în încercarea de a oferi rezultate la obiect. Datorită metodelor diferite de
abordare căutările cu diferite motoare de căutare oferă de multe ori rezultate diferite.
NCBI a fost creat in noiembrie 1988 un Statele Unite ca o divizie a National Library
of Medicine (NLM). NLM a fost aleasa datorită experienţei în crearea şi menţinerea bazelor
de date biomedicale, iar ca parte a National Institute of Health (NIH) putea stabili si programe
de cercetare. Prin intermediul NCBI colectivul de cercetare al NIH a creat in domeniul
ştiinţelor biomedicale una din cele mai mari baze de date din lume.
Fiind o resursă naţională în domeniul informaţiilor din biologie, misiunea NCBI este
dezvoltarea tehnologiilor informatice pentru a ajuta la înţelegerea proceselor genetice şi
moleculare care controlează sănătatea şi bolile. Mai specific, NCBI a fost însărcinată cu:
- crearea sistemelor automate pentru stocarea si analizarea cunoştinţelor despre biologia
moleculară, biochimie şi genetică
- crearea de unelte care să uşureze accesul la această bază de date de către cercetători şi
comunitatea medicală
- coordonarea eforturilor de adunare a informaţiilor in domeniu
- crearea unor programe de cercetare a unor metode avansate de procesare a
informaţiilor pentru analizarea structurii şi funcţiilor unor molecule importante pentru
biologie
Programe si activităţi
Cercetarea de bază
NCBI este un grup de cercetare multidisciplinar (calculatoare, biologie moleculară,
biochimie, etc) care nu aduce contribuţii importante în ştiinţele de bază ci acţionează pentru
descoperirea de noi metode pentru activităţile ştiinţifice. Se studiază probleme medicale
fundamentale la nivel molecular folosind metode matematice şi de calcul. Aceste probleme
includ organizarea genelor, secvenţe de analize şi predicţia structurilor. Cercetările curente
cuprind:
- detecţia şi analiza organizării genelor
- modele de secvenţe care se repetă
- proteine şi elemente structurale
- modelarea matematică a infecţiei cu HIV
- analiza şi efectele erorilor de căutare în bazele de date
Bioinformatica L01 3
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
BLAST este un program de căutare a similarităţii secvenţelor dezvoltat de NCBI şi este folosit
la identificarea genelor. BLAST poate executa secvenţe de căutare într-o bază de date ADN în
mai puţin de 15 secunde.
NCBI deţine şi servere de mail care oferă o metodă alternativă de acces la bazele de date
pentru căutările de text sau de similaritate a secvenţelor.
Bioinformatica L01 4
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
Bioinformatica L01 5
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
Primul pas la iniţierea unei căutări în sistemul Entrez este alegerea bazei de date în
care se face căutarea. Odată ce a fost selectată baza de date următorul pas constă în furnizarea
modului de căutare. Entrez realizează căutări după: subiect, frază, autor, identificator unic, şi
acolo unde este aplicabil după greutatea moleculară. Frazele şi cuvintele cheie introduse
pentru căutare sunt tratate ca în orice alt motor de căutare (Google, Yahoo). Dacă fraza sau
cuvintele sunt puse între ghilimele, ele vor duce la afişarea rezultatelor care conţin fraza
exactă introdusă la căutare.
O căutare poate fi realizată prin intermediul numărului de identificare unic atunci când
se cunoaşte exact codul de accesare a unei anume secvenţe. Formatul numărului de accesare
diferă însă de la o bază de date la alta. Entrez permite şi căutarea după greutatea moleculară
incluzâd şi căutarea tuturor moleculelor cu greutatea cuprinsă într-una numit interval.
Sistemul memorează temporar ultimele 100 de căutări, pentru a le afişa, revizui sau
combina rezultatele. Căutările memorate sunt şterse după o oră de inactivitate în sistem.
Rezultatele pot fi afişate în mai multe formate, sau pot fi salvate pe disc sau tipărite la
imprimantă direct din browser. Atunci când sunt disponibile legături externe acestea sunt
afişate.
Bioinformatica L01 6
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
Vizualizare secvențe
In genetica moleculară, un cadru deschis de citire (ORF - open reading frame) este partea unui
cadru de citire care are capacitatea de a fi tradus. Un ORF este o extensie continuă de codoni
care începe cu un codon de start (de obicei AUG) și se termină cu un codon stop (de obicei
UAA, UAG sau UGA)
Codul genetic este setul de reguli utilizate de celulele vii pentru traducerea informațiilor
codificate în material genetic (secvențe de ADN sau mRNA) în proteine. Traducerea se
realizează prin ribozomul care leagă aminoacizii într-o ordine specificată de ARN-ul mesager
(ARNm messenger), folosind molecule de transfer de ARN (tRNA) pentru a transporta
aminoacizi și pentru a citi ARNm-ul trei nucleotide la un moment dat. Codul genetic este
foarte similar între toate organismele și poate fi exprimat într-un tabel simplu cu 64 de intrări.
Codul definește modul în care secvențele de triplete nucleotidice, numite codoni, specifică ce
aminoacid va fi adăugat în timpul sintezei proteinelor. Cu câteva excepții, un codon de trei
nucleotide într-o secvență de acid nucleic specifică un singur aminoacid. Marea majoritate a
genelor sunt codificate cu o singură schemă (vezi tabelul cu codon ARN). Această schemă
este adesea menționată ca codul genetic canonic sau standard sau pur și simplu codul genetic,
deși există variante de coduri (cum ar fi mitocondriile umane).
Bioinformatica L01 7
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
> seqviewer
Pentru a prelua o secvență din baza de date NCBI, selectați File > Download Sequence from >
NCBI.
În caseta Enter Sequence, introduceți un număr de acces pentru o intrare din baza de date
NCBI, de exemplu, NM_000520. Faceți clic pe butonul opțiunii Nucleotide, apoi pe OK.
Bioinformatica L01 8
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
1. În arborele din stânga panoului, faceți clic pe Comments. Panoul din dreapta afișează
informații generale despre secvență.
2. Acum faceți clic pe Features. Panoul din dreapta afișează informații despre
caracteristica NCBI, inclusiv numerele index pentru o genă și orice secvențe CDS.
3. Faceți clic pe ORF pentru a afișa rezultatele căutării pentru ORF în cele șase cadre de
citire.
4. Faceți clic pe Annotated CDS pentru a afișa partea de codificare a proteinei dintr-o
secvență de nucleotide
Căutarea cuvintelor
De asemenea, puteți căuta cuvinte caracteristice sau șabloane de secvențe utilizând expresii
regulate. Puteți introduce simbolurile nucleotidelor IUB / IUPAC și simbolurile de aminoacizi
care sunt transformate automat în nucleotide și aminoacizi corespunzători în consecință.
Pentru detalii despre interpretarea simbolurilor, consultați tabelele de conversie a
nucleotidelor și aminoacizilor din seq2regexp. De exemplu, dacă căutați cuvântul "TAR" cu
caseta Regular Expression (Expresie regulată), aplicația evidențiază toate aparițiile "TAA" și
"TAG" în ordine deoarece R = [AG].
1. Select Sequence > Find Word
2. În caseta de dialog Find Word, tastați un cuvânt secvențial sau un șablon, de exemplu,
atg, apoi faceți clic pe Find
Explorarea ORF
Următoarea procedură ilustrează modul de identificare a părții care codifică proteina dintr-o
secvență nucleotidică și o copiați într-o vizualizare nouă. Identificarea secțiunilor de
codificare ale unei secvențe de nucleotide este o sarcină comună de bioinformatică. După ce
localizați partea de codare a unei secvențe, o puteți copia într-o vizualizare nouă, traduceți-o
într-o secvență de aminoacizi și continuați cu analiza.
1. Pe panoul din stânga, faceți clic pe ORF. Sequence Viewer afișează ORF-urile pentru
cele șase cadre de citire din panoul din dreapta jos. Plasați cursorul peste un cadru
pentru a afișa informații despre acesta.
Bioinformatica L01 9
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală
2. Faceți clic pe cel mai lung ORF din cadrul de citire 2. ORF este evidențiat pentru a
indica partea secvenței care este selectată.
3. Faceți clic cu butonul din dreapta pe ORF selectat și apoi selectați Export către spațiul
de lucru. În caseta de dialog Exportă în spațiul de lucru MATLAB, tastați un nume de
variabilă, de exemplu NM_000520_ORF_2, apoi faceți clic pe Export.
4. Select File > Import from Workspace. Introduceți numele unei variabile cu un ORF
exportat, de exemplu, NM_000520_ORF_2, apoi faceți clic pe Import. Sequence
Viewer adaugă o filă în partea de jos a noii secvențe, lăsând secvența originală
deschisă.
5. În panoul din stânga, faceți clic pe Full Translation. Selectați Display > Amino Acid
Residue Display > One Letter Code
Sequence Viewer afișează secvența de aminoacizi de sub secvența nucleotidică.
Închidem secvența:
> seqviewer('close')
Bioinformatica L01 10