Bioinformatica Curs1

S-ar putea să vă placă și

Sunteți pe pagina 1din 10

U.M.F. Gr. T.

Popa Iaşi – Facultatea de Bioinginerie Medicală

Laborator 1
Introducere în sistemul integrat furnizat de NCBI (National Center
for Biotechnology Information )

Introducere în Bioinformatică

În ultimele decenii descoperirile din domeniul biologiei moleculare împreună cu cele


din domeniul genomului au dus la o creştere explozivă a informaţiilor generate de
comunitatea ştiinţifică. Aceasta a impus nevoia pentru:
- crearea unor baze de date pe calculator pentru a organiza, indexa şi păstra datele,
- crearea unor unelte specializate pentru afişarea şi analiza datelor
Bioinformatica este ştiinţa în care biologia, ştiinţa calculatoarelor şi tehnologiile
infomaţionale formează o singură disciplină. Obiectivul acesteia este să permită realizare de
descoperiri noi în domeniul biologiei. Iniţial scopul bioinformaticii era crearea şi menţinerea
unor baze de date cu informaţii biologice cum ar fi secvenţele de aminoacizi de exemplu.
Dezvoltarea acestor tipuri de baze de date a dus la crearea unor interfeţe complexe prin care
cercetătorii să poată accesa şi introduce şi modifica datele. În momentul actual bioinformatica
a evoluat incluzând analiza şi interpretarea mai multor tipuri de date cum ar fi secvenţele de
aminoacizi şi structura proteinelor. Procesul actual de analiză şi interpretare a datelor include:
- dezvoltarea şi implementarea de unelte care să permită accesul şi managementul
eficient pentru diferite tipuri de informaţie
- dezvoltarea de noi algoritmi şi statistici pentru a evidenţia relaţiile între diferite seturi
de date

Bazele de date biologice


O bază de date biologică este o cantitate mare de date, asociate cu software folosit
pentru aducerea la zi a informaţiilor şi regăsirea anumitor componente din datele memorate. O
bază de date simplă poate fi un fişier conţinând mai multe înregistrări, fiecare dintre
înregistrări având acelaşi tip de informaţie. Pentru cercetătorii care beneficiază de datele
memorate sunt necesare:
- acces uşor la informaţii
- metode care să permită numai extragerea informaţiilor utile

Introducere în Internet

Internet este la ora actuală o „reţea de reţele” formată în urma interconectării reţelelor
regionale din lumea întreagă. Originile sale constau în proiectul de cercetare de la Advanced
Research Projects Agency (ARPA) din cadrul U.S. Department of Defence din 1969, proiect
numit ARPANET. Reţeaua iniţială a fost formată din conectarea a patru noduri de pe coasta
de vest cu scopul de a transmite informaţii. În urma reuşitei acestui proiect au apărut mai
multe reţele care permiteau transferul de informaţii şi fişiere. În 1982 ARPA a introdus
Transmission Control Protocol (TCP) şi Internet Protocol (IP); TCP/IP a permis ca reţele
diferite să poată comunica între ele şi a dus la crearea sistemului de astăzi.
În momentul în care calculatoarele din reţea au fost interconectate între ele a fost
nevoie de o metodă necesară de a identifica o anume maşină. Pentru aceasta, fiecare
calculator conectat direct la internet a primit un număr IP (adresă IP). Datorită faptului că

Bioinformatica L01 1
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

adresele IP asociate este greu de memorat, acestea sunt asociate nu nume. Conversia numelui
în numărul corespunzător este realizată către nişte calculatoare speciale numite Domain Name
server (DNS).

Servicii Oferite
E-mail
Prin email se pot transmite şi primi mesaje la fel ca prin poşta obişnuită. Principalele
avantaje sunt:
- transmiterea se face mult mai rapid
- prezintă o metodă convenabilă de a transmite fişiere
- trimiterea unui mesaj costă foarte puţin
- mesajele pot fi citite de oriunde
Principalul dezavantaj al acestui serviciu constă în lipsa securităţii. De la transmisie
până la recepţie mesajul poate parcurge mai multe noduri unde pot fi interceptate şi citite. O
altă problemă este ridicată de confidenţialitate: în multe companii email-ul este folosit doar
pentru comunicări oficiale şi este controlat permanent. Transmiterea de fişiere este deseori
limitată: se pot transmite doar fişiere mai mici de o anumită dimensiune, iar numărul acestora
poate fi limitat.
Acest serviciu poate fi folosit şi pentru realiza căutări în bazele de date. Utilizatorii pot
trimite mesaje scrise într-un format predefinit către un server de căutare. Serverul va realiza
căutările dorite şi va trimite rezultatele înapoi prin email. Pentru cele mai multe servere la
trimiterea unui mesaj help vor răspunde cu instrucţiuni despre operaţiile realizate şi modul în
care trebuie formatate datele care trebuiesc trimise.

FTP (File Transfer Protocol)


Acest serviciu este folosit pentru transmiterea de fişiere. Modalitatea de transmitere
este foarte simplă: este realizată o conexiune între două calculatoare după care se vor transfera
fişierele dorite. Calculatorul care a iniţiat conexiunea se numeşte client iar cel care acceptă
conexiunea se numeşte server. Conexiunea este menţinută activă pe toată durata transferului
de fişiere. De obicei nu există limite cu privire la dimensiunea fişierului sau numărul de
fişiere transferate. Cele mai multe servere de FTP permit reluarea transferului unui fişier (în
cazul întreruperii conexiunii sau a unor căderi ale reţelei, transmiterea va fi reluată din punctul
în care era la întrerupere).

WWW (World Wide Web)


Cu toate avantajele sale, FTP are un mare neajuns: conţinutul unui fişier poate fi văzut
numai după ce a fost copiat. Pentru aceasta a fost creat WWW, care permite vizualizarea şi
navigarea de la un fişier la altul să fie mult mai simplă. Web este o cercetare începută la
European Nuclear Research Council (CERN) în 1989 şi avea ca scop distribuţia datelor în mai
multe locaţii. Aceasta a condus la crearea unui mediu în care textul, imaginea şi sunetul pot fi
transmise utilizatorilor la cerere, oriunde ar fi aceştia.
Navigarea în WWW nu necesită cunoaşterea locaţiei din care sunt aduse informaţiile.
Utilizatorii pot naviga selectând un anumit text sau imagine. Aceste elemente sunt numite
legături. Programul folosit pentru a vizualiza şi naviga între pagini se numeşte browser.
Aceste se conectează la server descarcă toate fişierele necesare, afişează informaţiile din
acestea şi se deconectează.
Datorită creşterii continue a cantităţii de informaţie existentă în WWW au fost create
motoarele de căutare. Un motor de căutare este un program specializat care realizează căutări
ale unor texte în baze de date speciale. Motoarele de căutare folosesc diferite metode de
organizare şi memorare a informaţiilor pentru a-şi menţine bazele de date. O primă categorie

Bioinformatica L01 2
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

memorează tot textul unei pagini oferind foarte multe rezultate. Altele memorează doar
titlurile paginilor în încercarea de a oferi rezultate la obiect. Datorită metodelor diferite de
abordare căutările cu diferite motoare de căutare oferă de multe ori rezultate diferite.

Prezentare generală a NCBI

NCBI a fost creat in noiembrie 1988 un Statele Unite ca o divizie a National Library
of Medicine (NLM). NLM a fost aleasa datorită experienţei în crearea şi menţinerea bazelor
de date biomedicale, iar ca parte a National Institute of Health (NIH) putea stabili si programe
de cercetare. Prin intermediul NCBI colectivul de cercetare al NIH a creat in domeniul
ştiinţelor biomedicale una din cele mai mari baze de date din lume.

Fiind o resursă naţională în domeniul informaţiilor din biologie, misiunea NCBI este
dezvoltarea tehnologiilor informatice pentru a ajuta la înţelegerea proceselor genetice şi
moleculare care controlează sănătatea şi bolile. Mai specific, NCBI a fost însărcinată cu:
- crearea sistemelor automate pentru stocarea si analizarea cunoştinţelor despre biologia
moleculară, biochimie şi genetică
- crearea de unelte care să uşureze accesul la această bază de date de către cercetători şi
comunitatea medicală
- coordonarea eforturilor de adunare a informaţiilor in domeniu
- crearea unor programe de cercetare a unor metode avansate de procesare a
informaţiilor pentru analizarea structurii şi funcţiilor unor molecule importante pentru
biologie

Pentru îndeplinirea acestor obiective NCBI face următoarele lucruri:


- conduce cercetări in probleme fundamentale din domeniul biomedical la nivel
molecular folosind metode matematice
- menţine colaborarea cu NIH, academia, industrie şi alte agenţii guvernamentale
- organizează comunicări ştiinţifice prin sponsorizarea unor întâlniri, sesiuni de
comunicări ştiinţifice, etc.
- dezvoltă, distribuie, menţine şi coordonează accesul la un mare număr de baze de date
şi software pentru comunitatea medicală şi ştiinţifică
- dezvoltă şi promovează standarde pentru baze de date, schimbul şi păstrarea datelor

Programe si activităţi

Cercetarea de bază
NCBI este un grup de cercetare multidisciplinar (calculatoare, biologie moleculară,
biochimie, etc) care nu aduce contribuţii importante în ştiinţele de bază ci acţionează pentru
descoperirea de noi metode pentru activităţile ştiinţifice. Se studiază probleme medicale
fundamentale la nivel molecular folosind metode matematice şi de calcul. Aceste probleme
includ organizarea genelor, secvenţe de analize şi predicţia structurilor. Cercetările curente
cuprind:
- detecţia şi analiza organizării genelor
- modele de secvenţe care se repetă
- proteine şi elemente structurale
- modelarea matematică a infecţiei cu HIV
- analiza şi efectele erorilor de căutare în bazele de date

Bioinformatica L01 3
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

- dezvoltarea de algoritmi noi pentru căutare şi analiza secvenţelor multiple


- construcţia unor baze de date ne-redundante
- modele matematice pentru estimarea statistică a similarităţii unor secvenţe

Baze de date şi software


NCBI şi-a asumat responsabilitatea pentru baza de date a secvenţelor de ADN
GenBank în octombrie 1992. Personalul NCBI cu antrenament avansat în biologia moleculara
a construita baza de date din secvenţe oferite de laboratoare individuale şi din schimburile de
date cu alte institute care deţineau baze de date cu nucleotide: European Molecular Biology
Laboratory (EMBL) şi DNA Database of Japan (DDBJ). Înţelegerile cu Oficiul de Patente al
Statelor Unite a permis încorporarea secvenţelor patentate.
În plus, NCBI oferă şi distribuie mediului medical şi ştiinţific o mare varietate de baze
de date. Aceasta include:
- Online Mendelian Inheritance in Man (OMIM)
- Molecular Modeling Database (MMDB) of 3D protein structures
- Unique Human Gene Sequence Collection (UniGene)
- Gene Map of the Human Genome
- Taxonomy Browser
- Cancer Genome Anatomy Project (CGAP), în colaborare cu National Cancer Institute

Sistemul de căutare care oferă utilizatorului acces integrat la secvenţe, mapări,


taxonomie şi date de structură se numeşte Entrez(pr. ahn' tray). Acesta oferă şi vederi grafice
ale secvenţelor şi hărţilor de cromozomi. O facilitate puternică şi unică la Entrez este
abilitatea de a oferi secvenţe, structuri şi referinţe care sunt legate între ele. Literatura de
specialitate este disponibilă prin PubMed, o interfaţă de căutare web care oferă acces la 11
milioane de titluri şi conţine legături la articole complete către alte servere web participante.

BLAST este un program de căutare a similarităţii secvenţelor dezvoltat de NCBI şi este folosit
la identificarea genelor. BLAST poate executa secvenţe de căutare într-o bază de date ADN în
mai puţin de 15 secunde.

NCBI deţine şi servere de mail care oferă o metodă alternativă de acces la bazele de date
pentru căutările de text sau de similaritate a secvenţelor.

Procesul de căutare cu sistemul Entrez

Această secţiune descrie o serie din problemele şi conceptele implicate de o căutare


simplă într-o bază de date accesibilă prin Internet, realizată de sistemul Entrez.
În cadrul NCBI bazele de date sunt legate între ele prin intermediul unui sistem unic
de căutare şi prezentare a informaţiilor numit Entrez. Acesta permite utilizatorilor acces la
informaţii integrate în mai multe baze de date ale NCBI. De exemplu baza de date cu proteine
este legată de cea cu taxonomia. Aceasta permite unui cercetător găsirea informaţiilor despre
taxonomie pe baza unor proteine descoperite.
Descoperirea de soluţii în problemele biologiei moleculare implică multe căutări în
mai multe baze de date. Pentru a uşura această muncă au fost create sisteme de căutare şi
prezentare a informaţiilor care creează automat legăturile dintre principalele baze de date
online. Structura bazei de date folosite de Entrez este dată mai jos:

Bioinformatica L01 4
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

Legăturile realizate de program sunt între baze de date diferite (PubMed-Nucleotide)


dar şi între înregistrări ale aceleiaşi baze de date (la găsirea unei secvenţe din Nucleotide se
vor putea obţine cu ajutorul BLAST legături către secvenţele asemănătoare).
Există două versiuni ale programului: o versiune care lucrează pe calculatorul personal
al clientului numită Networked Entrez şi una care este accesată prin intermediul unui browser
web (online). Networked Entrez comunică direct cu NCBI prin intermediul unei conexiuni
client-server. Fiecare versiune oferă aceeaşi funcţionalitate, dar versiunea care lucrează pe
calculatorul clientului va fi executată mai repede şi oferă o interfaţă mai bogată şi mai
flexibilă cu mai multe ferestre şi reprezentări grafice.
Principalul dezavantaj al Networked Entrez este faptul că nu se pot accesa direct
informaţiile din afara sistemului şi faptul că sunt necesare realizarea de instalare periodică a
pachetelor oferite pentru a menţine aplicaţia la zi. Versiunea online permite afişarea şi
accesarea legăturilor către informaţii din afara NCBI. În plus, aceasta nu necesită update
permanent, şi poate fi accesată de oriunde şi nu este necesară instalarea vreunui pachet de
programe suplimentare.
Facilităţile oferite de Entrez includ un mare număr de unelte pentru a defini şi a
redefini căutarea în bazele de date. Aceste unelte permit selectarea bazei de date, impunerea
unor limite de căutare, salvarea rezultatelor.
Schema procesului de căutare este dată mai jos. Entrez ascunde utilizatorului
complexitatea bazei de date, facilitând un proces interactiv de introducere a criteriilor de
căutare, vizualizarea rezultatelor şi redefinirea criteriilor.

Bioinformatica L01 5
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

Primul pas la iniţierea unei căutări în sistemul Entrez este alegerea bazei de date în
care se face căutarea. Odată ce a fost selectată baza de date următorul pas constă în furnizarea
modului de căutare. Entrez realizează căutări după: subiect, frază, autor, identificator unic, şi
acolo unde este aplicabil după greutatea moleculară. Frazele şi cuvintele cheie introduse
pentru căutare sunt tratate ca în orice alt motor de căutare (Google, Yahoo). Dacă fraza sau
cuvintele sunt puse între ghilimele, ele vor duce la afişarea rezultatelor care conţin fraza
exactă introdusă la căutare.
O căutare poate fi realizată prin intermediul numărului de identificare unic atunci când
se cunoaşte exact codul de accesare a unei anume secvenţe. Formatul numărului de accesare
diferă însă de la o bază de date la alta. Entrez permite şi căutarea după greutatea moleculară
incluzâd şi căutarea tuturor moleculelor cu greutatea cuprinsă într-una numit interval.
Sistemul memorează temporar ultimele 100 de căutări, pentru a le afişa, revizui sau
combina rezultatele. Căutările memorate sunt şterse după o oră de inactivitate în sistem.
Rezultatele pot fi afişate în mai multe formate, sau pot fi salvate pe disc sau tipărite la
imprimantă direct din browser. Atunci când sunt disponibile legături externe acestea sunt
afişate.

Bioinformatica L01 6
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

Vizualizare secvențe

Matlab, Key Features


 Next Generation Sequencing analysis and browser
 Sequence analysis and visualization, including pairwise and multiple sequence
alignment and peak detection
 Microarray data analysis, including reading, filtering, normalizing, and visualization
 Mass spectrometry analysis, including preprocessing, classification, and marker
identification
 Phylogenetic tree analysis
 Graph theory functions, including interaction maps, hierarchy plots, and pathways
 Data import from genomic, proteomic, and gene expression files, including SAM,
FASTA, CEL, and CDF, and from databases such as NCBI and GenBank

In genetica moleculară, un cadru deschis de citire (ORF - open reading frame) este partea unui
cadru de citire care are capacitatea de a fi tradus. Un ORF este o extensie continuă de codoni
care începe cu un codon de start (de obicei AUG) și se termină cu un codon stop (de obicei
UAA, UAG sau UGA)

Codul genetic este setul de reguli utilizate de celulele vii pentru traducerea informațiilor
codificate în material genetic (secvențe de ADN sau mRNA) în proteine. Traducerea se
realizează prin ribozomul care leagă aminoacizii într-o ordine specificată de ARN-ul mesager
(ARNm messenger), folosind molecule de transfer de ARN (tRNA) pentru a transporta
aminoacizi și pentru a citi ARNm-ul trei nucleotide la un moment dat. Codul genetic este
foarte similar între toate organismele și poate fi exprimat într-un tabel simplu cu 64 de intrări.

Codul definește modul în care secvențele de triplete nucleotidice, numite codoni, specifică ce
aminoacid va fi adăugat în timpul sintezei proteinelor. Cu câteva excepții, un codon de trei
nucleotide într-o secvență de acid nucleic specifică un singur aminoacid. Marea majoritate a
genelor sunt codificate cu o singură schemă (vezi tabelul cu codon ARN). Această schemă
este adesea menționată ca codul genetic canonic sau standard sau pur și simplu codul genetic,
deși există variante de coduri (cum ar fi mitocondriile umane).

În timp ce "codul genetic" determină o secvență de aminoacizi a proteinei, alte regiuni


genomice determină când și unde aceste proteine sunt produse conform diferitelor "coduri de
reglare genetică")

Regiunea de codificare a unei gene, de asemenea cunoscută


sub numele de CDS (din secvența de codificare – Coding
Sequence), este acea porțiune a ADN-ului sau a ARN-ului
unei gene care codifică proteinele. Regiunea începe, de
obicei, la capătul 5 'printr-un codon de pornire și se termină
la capătul 3' cu un codon stop.

Bioinformatica L01 7
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

Explorare Secvență de Nucleotide folosind Sequence Viewer App

> seqviewer

Pentru a prelua o secvență din baza de date NCBI, selectați File > Download Sequence from >
NCBI.

În caseta Enter Sequence, introduceți un număr de acces pentru o intrare din baza de date
NCBI, de exemplu, NM_000520. Faceți clic pe butonul opțiunii Nucleotide, apoi pe OK.

Bioinformatica L01 8
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

Vizualizarea informațiilor secvenței de nucleotide


După ce importați o secvență în aplicația Sequence Viewer, puteți citi informațiile stocate în
secvență sau puteți vizualiza reprezentările grafice pentru ORF și CDS.

1. În arborele din stânga panoului, faceți clic pe Comments. Panoul din dreapta afișează
informații generale despre secvență.
2. Acum faceți clic pe Features. Panoul din dreapta afișează informații despre
caracteristica NCBI, inclusiv numerele index pentru o genă și orice secvențe CDS.
3. Faceți clic pe ORF pentru a afișa rezultatele căutării pentru ORF în cele șase cadre de
citire.
4. Faceți clic pe Annotated CDS pentru a afișa partea de codificare a proteinei dintr-o
secvență de nucleotide

Căutarea cuvintelor
De asemenea, puteți căuta cuvinte caracteristice sau șabloane de secvențe utilizând expresii
regulate. Puteți introduce simbolurile nucleotidelor IUB / IUPAC și simbolurile de aminoacizi
care sunt transformate automat în nucleotide și aminoacizi corespunzători în consecință.
Pentru detalii despre interpretarea simbolurilor, consultați tabelele de conversie a
nucleotidelor și aminoacizilor din seq2regexp. De exemplu, dacă căutați cuvântul "TAR" cu
caseta Regular Expression (Expresie regulată), aplicația evidențiază toate aparițiile "TAA" și
"TAG" în ordine deoarece R = [AG].
1. Select Sequence > Find Word
2. În caseta de dialog Find Word, tastați un cuvânt secvențial sau un șablon, de exemplu,
atg, apoi faceți clic pe Find

Sequence Viewer caută și afișează locația cuvântului selectat.

3. Ștergeți afișajul făcând clic pe butonul Clear selecția cuvântului pe toolbar.

Explorarea ORF
Următoarea procedură ilustrează modul de identificare a părții care codifică proteina dintr-o
secvență nucleotidică și o copiați într-o vizualizare nouă. Identificarea secțiunilor de
codificare ale unei secvențe de nucleotide este o sarcină comună de bioinformatică. După ce
localizați partea de codare a unei secvențe, o puteți copia într-o vizualizare nouă, traduceți-o
într-o secvență de aminoacizi și continuați cu analiza.

1. Pe panoul din stânga, faceți clic pe ORF. Sequence Viewer afișează ORF-urile pentru
cele șase cadre de citire din panoul din dreapta jos. Plasați cursorul peste un cadru
pentru a afișa informații despre acesta.

Bioinformatica L01 9
U.M.F. Gr. T. Popa Iaşi – Facultatea de Bioinginerie Medicală

2. Faceți clic pe cel mai lung ORF din cadrul de citire 2. ORF este evidențiat pentru a
indica partea secvenței care este selectată.
3. Faceți clic cu butonul din dreapta pe ORF selectat și apoi selectați Export către spațiul
de lucru. În caseta de dialog Exportă în spațiul de lucru MATLAB, tastați un nume de
variabilă, de exemplu NM_000520_ORF_2, apoi faceți clic pe Export.

Variabila NM_000520_ORF_2 este adăugată în spațiul de lucru MATLAB.

4. Select File > Import from Workspace. Introduceți numele unei variabile cu un ORF
exportat, de exemplu, NM_000520_ORF_2, apoi faceți clic pe Import. Sequence
Viewer adaugă o filă în partea de jos a noii secvențe, lăsând secvența originală
deschisă.
5. În panoul din stânga, faceți clic pe Full Translation. Selectați Display > Amino Acid
Residue Display > One Letter Code
Sequence Viewer afișează secvența de aminoacizi de sub secvența nucleotidică.

Închidem secvența:

> seqviewer('close')

Bioinformatica L01 10

S-ar putea să vă placă și