Sunteți pe pagina 1din 6

Bionformatica

Laborator 1
Introducere n sistemul integrat furnizat de NCBI (National Center
for Biotechnology Information )
Introducere n Bioinformatic
n ultimele decenii descoperirile din domeniul biologiei moleculare mpreun cu cele
din domeniul genomului au dus la o cretere exploziv a informaiilor generate de
comunitatea tiinific. Aceasta a impus nevoia pentru:
- crearea unor baze de date pe calculator pentru a organiza, indexa i pstra datele,
- crearea unor unelte specializate pentru afiarea i analiza datelor
Bioinformatica este tiina n care biologia, tiina calculatoarelor i tehnologiile
infomaionale formeaz o singur disciplin. Obiectivul acesteia este s permit realizare de
descoperiri noi n domeniul biologiei. Iniial scopul bioinformaticii era crearea i meninerea
unor baze de date cu informaii biologice cum ar fi secvenele de aminoacizi de exemplu.
Dezvoltarea acestor tipuri de baze de date a dus la crearea unor interfee complexe prin care
cercettorii s poat accesa i introduce i modifica datele. n momentul actual bioinformatica
a evoluat incluznd analiza i interpretarea mai multor tipuri de date cum ar fi secvenele de
aminoacizi i structura proteinelor. Procesul actual de analiz i interpretare a datelor include:
- dezvoltarea i implementarea de unelte care s permit accesul i managementul
eficient pentru diferite tipuri de informaie
- dezvoltarea de noi algoritmi i statistici pentru a evidenia relaiile ntre diferite seturi
de date
Bazele de date biologice
O baz de date biologic este o cantitate mare de date, asociate cu software folosit
pentru aducerea la zi a informaiilor i regsirea anumitor componente din datele memorate. O
baz de date simpl poate fi un fiier coninnd mai multe nregistrri, fiecare dintre
nregistrri avnd acelai tip de informaie. Pentru cercettorii care beneficiaz de datele
memorate sunt necesare:
- acces uor la informaii
- metode care s permit numai extragerea informaiilor utile
Introducere n Internet
Internet este la ora actual o reea de reele format n urma interconectrii reelelor
regionale din lumea ntreag. Originile sale constau n proiectul de cercetare de la Advanced
Research Projects Agency (ARPA) din cadrul U.S. Department of Defence din 1969, proiect
numit ARPANET. Reeaua iniial a fost format din conectarea a patru noduri de pe coasta
de vest cu scopul de a transmite informaii. n urma reuitei acestui proiect au aprut mai
multe reele care permiteau transferul de informaii i fiiere. n 1982 ARPA a introdus
Transmission Control Protocol (TCP) i Internet Protocol (IP); TCP/IP a permis ca reele
diferite s poat comunica ntre ele i a dus la crearea sistemului de astzi.
n momentul n care calculatoarele din reea au fost interconectate ntre ele a fost
nevoie de o metod necesar de a identifica o anume main. Pentru aceasta, fiecare
calculator conectat direct la internet a primit un numr IP (adres IP). Datorit faptului c
1

Bionformatica
adresele IP asociate este greu de memorat, acestea sunt asociate nu nume. Conversia numelui
n numrul corespunztor este realizat ctre nite calculatoare speciale numite Domain Name
server (DNS).
Servicii Oferite
E-mail
Prin email se pot transmite i primi mesaje la fel ca prin pota obinuit. Principalele
avantaje sunt:
- transmiterea se face mult mai rapid
- prezint o metod convenabil de a transmite fiiere
- trimiterea unui mesaj cost foarte puin
- mesajele pot fi citite de oriunde
Principalul dezavantaj al acestui serviciu const n lipsa securitii. De la transmisie
pn la recepie mesajul poate parcurge mai multe noduri unde pot fi interceptate i citite. O
alt problem este ridicat de confidenialitate: n multe companii email-ul este folosit doar
pentru comunicri oficiale i este controlat permanent. Transmiterea de fiiere este deseori
limitat: se pot transmite doar fiiere mai mici de o anumit dimensiune, iar numrul acestora
poate fi limitat.
Acest serviciu poate fi folosit i pentru realiza cutri n bazele de date. Utilizatorii pot
trimite mesaje scrise ntr-un format predefinit ctre un server de cutare. Serverul va realiza
cutrile dorite i va trimite rezultatele napoi prin email. Pentru cele mai multe servere la
trimiterea unui mesaj help vor rspunde cu instruciuni despre operaiile realizate i modul n
care trebuie formatate datele care trebuiesc trimise.
FTP (File Transfer Protocol)
Acest serviciu este folosit pentru transmiterea de fiiere. Modalitatea de transmitere
este foarte simpl: este realizat o conexiune ntre dou calculatoare dup care se vor transfera
fiierele dorite. Calculatorul care a iniiat conexiunea se numete client iar cel care accept
conexiunea se numete server. Conexiunea este meninut activ pe toat durata transferului
de fiiere. De obicei nu exist limite cu privire la dimensiunea fiierului sau numrul de
fiiere transferate. Cele mai multe servere de FTP permit reluarea transferului unui fiier (n
cazul ntreruperii conexiunii sau a unor cderi ale reelei, transmiterea va fi reluat din punctul
n care era la ntrerupere).
WWW (World Wide Web)
Cu toate avantajele sale, FTP are un mare neajuns: coninutul unui fiier poate fi vzut
numai dup ce a fost copiat. Pentru aceasta a fost creat WWW, care permite vizualizarea i
navigarea de la un fiier la altul s fie mult mai simpl. Web este o cercetare nceput la
European Nuclear Research Council (CERN) n 1989 i avea ca scop distribuia datelor n mai
multe locaii. Aceasta a condus la crearea unui mediu n care textul, imaginea i sunetul pot fi
transmise utilizatorilor la cerere, oriunde ar fi acetia.
Navigarea n WWW nu necesit cunoaterea locaiei din care sunt aduse informaiile.
Utilizatorii pot naviga selectnd un anumit text sau imagine. Aceste elemente sunt numite
legturi. Programul folosit pentru a vizualiza i naviga ntre pagini se numete browser.
Aceste se conecteaz la server descarc toate fiierele necesare, afieaz informaiile din
acestea i se deconecteaz.
Datorit creterii continue a cantitii de informaie existent n WWW au fost create
motoarele de cutare. Un motor de cutare este un program specializat care realizeaz cutri
ale unor texte n baze de date speciale. Motoarele de cutare folosesc diferite metode de
organizare i memorare a informaiilor pentru a-i menine bazele de date. O prim categorie
2

Bionformatica
memoreaz tot textul unei pagini oferind foarte multe rezultate. Altele memoreaz doar
titlurile paginilor n ncercarea de a oferi rezultate la obiect. Datorit metodelor diferite de
abordare cutrile cu diferite motoare de cutare ofer de multe ori rezultate diferite.
Prezentare general a NCBI
NCBI a fost creat in noiembrie 1988 un Statele Unite ca o divizie a National Library
of Medicine (NLM). NLM a fost aleasa datorit experienei n crearea i meninerea bazelor
de date biomedicale, iar ca parte a National Institute of Health (NIH) putea stabili si programe
de cercetare. Prin intermediul NCBI colectivul de cercetare al NIH a creat in domeniul
tiinelor biomedicale una din cele mai mari baze de date din lume.
Fiind o resurs naional n domeniul informaiilor din biologie, misiunea NCBI este
dezvoltarea tehnologiilor informatice pentru a ajuta la nelegerea proceselor genetice i
moleculare care controleaz sntatea i bolile. Mai specific, NCBI a fost nsrcinat cu:
- crearea sistemelor automate pentru stocarea si analizarea cunotinelor despre biologia
molecular, biochimie i genetic
- crearea de unelte care s uureze accesul la aceast baz de date de ctre cercettori i
comunitatea medical
- coordonarea eforturilor de adunare a informaiilor in domeniu
- crearea unor programe de cercetare a unor metode avansate de procesare a
informaiilor pentru analizarea structurii i funciilor unor molecule importante pentru
biologie
-

Pentru ndeplinirea acestor obiective NCBI face urmtoarele lucruri:


conduce cercetri in probleme fundamentale din domeniul biomedical la nivel
molecular folosind metode matematice
menine colaborarea cu NIH, academia, industrie i alte agenii guvernamentale
organizeaz comunicri tiinifice prin sponsorizarea unor ntlniri, sesiuni de
comunicri tiinifice, etc.
dezvolt, distribuie, menine i coordoneaz accesul la un mare numr de baze de date
i software pentru comunitatea medical i tiinific
dezvolt i promoveaz standarde pentru baze de date, schimbul i pstrarea datelor

Programe si activiti
Cercetarea de baz
NCBI este un grup de cercetare multidisciplinar (calculatoare, biologie molecular,
biochimie, etc) care nu aduce contribuii importante n tiinele de baz ci acioneaz pentru
descoperirea de noi metode pentru activitile tiinifice. Se studiaz probleme medicale
fundamentale la nivel molecular folosind metode matematice i de calcul. Aceste probleme
includ organizarea genelor, secvene de analize i predicia structurilor. Cercetrile curente
cuprind:
- detecia i analiza organizrii genelor
- modele de secvene care se repet
- proteine i elemente structurale
- modelarea matematic a infeciei cu HIV
- analiza i efectele erorilor de cutare n bazele de date
3

Bionformatica
-

dezvoltarea de algoritmi noi pentru cutare i analiza secvenelor multiple


construcia unor baze de date ne-redundante
modele matematice pentru estimarea statistic a similaritii unor secvene

Baze de date i software


NCBI i-a asumat responsabilitatea pentru baza de date a secvenelor de ADN
GenBank n octombrie 1992. Personalul NCBI cu antrenament avansat n biologia moleculara
a construita baza de date din secvene oferite de laboratoare individuale i din schimburile de
date cu alte institute care deineau baze de date cu nucleotide: European Molecular Biology
Laboratory (EMBL) i DNA Database of Japan (DDBJ). nelegerile cu Oficiul de Patente al
Statelor Unite a permis ncorporarea secvenelor patentate.
n plus, NCBI ofer i distribuie mediului medical i tiinific o mare varietate de baze
de date. Aceasta include:
- Online Mendelian Inheritance in Man (OMIM)
- Molecular Modeling Database (MMDB) of 3D protein structures
- Unique Human Gene Sequence Collection (UniGene)
- Gene Map of the Human Genome
- Taxonomy Browser
- Cancer Genome Anatomy Project (CGAP), n colaborare cu National Cancer Institute
Sistemul de cutare care ofer utilizatorului acces integrat la secvene, mapri,
taxonomie i date de structur se numete Entrez(pr. ahn' tray). Acesta ofer i vederi grafice
ale secvenelor i hrilor de cromozomi. O facilitate puternic i unic la Entrez este
abilitatea de a oferi secvene, structuri i referine care sunt legate ntre ele. Literatura de
specialitate este disponibil prin PubMed, o interfa de cutare web care ofer acces la 11
milioane de titluri i conine legturi la articole complete ctre alte servere web participante.
BLAST este un program de cutare a similaritii secvenelor dezvoltat de NCBI i este folosit
la identificarea genelor. BLAST poate executa secvene de cutare ntr-o baz de date ADN n
mai puin de 15 secunde.
NCBI deine i servere de mail care ofer o metod alternativ de acces la bazele de date
pentru cutrile de text sau de similaritate a secvenelor.
Procesul de cutare cu sistemul Entrez
Aceast seciune descrie o serie din problemele i conceptele implicate de o cutare
simpl ntr-o baz de date accesibil prin Internet, realizat de sistemul Entrez.
n cadrul NCBI bazele de date sunt legate ntre ele prin intermediul unui sistem unic
de cutare i prezentare a informaiilor numit Entrez. Acesta permite utilizatorilor acces la
informaii integrate n mai multe baze de date ale NCBI. De exemplu baza de date cu proteine
este legat de cea cu taxonomia. Aceasta permite unui cercettor gsirea informaiilor despre
taxonomie pe baza unor proteine descoperite.
Descoperirea de soluii n problemele biologiei moleculare implic multe cutri n
mai multe baze de date. Pentru a uura aceast munc au fost create sisteme de cutare i
prezentare a informaiilor care creeaz automat legturile dintre principalele baze de date
online. Structura bazei de date folosite de Entrez este dat mai jos:

Bionformatica

Legturile realizate de program sunt ntre baze de date diferite (PubMed-Nucleotide)


dar i ntre nregistrri ale aceleiai baze de date (la gsirea unei secvene din Nucleotide se
vor putea obine cu ajutorul BLAST legturi ctre secvenele asemntoare).
Exist dou versiuni ale programului: o versiune care lucreaz pe calculatorul personal
al clientului numit Networked Entrez i una care este accesat prin intermediul unui browser
web (online). Networked Entrez comunic direct cu NCBI prin intermediul unei conexiuni
client-server. Fiecare versiune ofer aceeai funcionalitate, dar versiunea care lucreaz pe
calculatorul clientului va fi executat mai repede i ofer o interfa mai bogat i mai
flexibil cu mai multe ferestre i reprezentri grafice.
Principalul dezavantaj al Networked Entrez este faptul c nu se pot accesa direct
informaiile din afara sistemului i faptul c sunt necesare realizarea de instalare periodic a
pachetelor oferite pentru a menine aplicaia la zi. Versiunea online permite afiarea i
accesarea legturilor ctre informaii din afara NCBI. n plus, aceasta nu necesit update
permanent, i poate fi accesat de oriunde i nu este necesar instalarea vreunui pachet de
programe suplimentare.
Facilitile oferite de Entrez includ un mare numr de unelte pentru a defini i a
redefini cutarea n bazele de date. Aceste unelte permit selectarea bazei de date, impunerea
unor limite de cutare, salvarea rezultatelor.
Schema procesului de cutare este dat mai jos. Entrez ascunde utilizatorului
complexitatea bazei de date, facilitnd un proces interactiv de introducere a criteriilor de
cutare, vizualizarea rezultatelor i redefinirea criteriilor.

Bionformatica

Primul pas la iniierea unei cutri n sistemul Entrez este alegerea bazei de date n
care se face cutarea. Odat ce a fost selectat baza de date urmtorul pas const n furnizarea
modului de cutare. Entrez realizeaz cutri dup: subiect, fraz, autor, identificator unic, i
acolo unde este aplicabil dup greutatea molecular. Frazele i cuvintele cheie introduse
pentru cutare sunt tratate ca n orice alt motor de cutare (Google, Yahoo). Dac fraza sau
cuvintele sunt puse ntre ghilimele, ele vor duce la afiarea rezultatelor care conin fraza
exact introdus la cutare.
O cutare poate fi realizat prin intermediul numrului de identificare unic atunci cnd
se cunoate exact codul de accesare a unei anume secvene. Formatul numrului de accesare
difer ns de la o baz de date la alta. Entrez permite i cutarea dup greutatea molecular
incluzd i cutarea tuturor moleculelor cu greutatea cuprins ntr-una numit interval.
Sistemul memoreaz temporar ultimele 100 de cutri, pentru a le afia, revizui sau
combina rezultatele. Cutrile memorate sunt terse dup o or de inactivitate n sistem.
Rezultatele pot fi afiate n mai multe formate, sau pot fi salvate pe disc sau tiprite la
imprimant direct din browser. Atunci cnd sunt disponibile legturi externe acestea sunt
afiate.