Documente Academic
Documente Profesional
Documente Cultură
Laborator 1
Introducere n sistemul integrat furnizat de NCBI (National Center
for Biotechnology Information )
Introducere n Bioinformatic
n ultimele decenii descoperirile din domeniul biologiei moleculare mpreun cu cele
din domeniul genomului au dus la o cretere exploziv a informaiilor generate de
comunitatea tiinific. Aceasta a impus nevoia pentru:
- crearea unor baze de date pe calculator pentru a organiza, indexa i pstra datele,
- crearea unor unelte specializate pentru afiarea i analiza datelor
Bioinformatica este tiina n care biologia, tiina calculatoarelor i tehnologiile
infomaionale formeaz o singur disciplin. Obiectivul acesteia este s permit realizare de
descoperiri noi n domeniul biologiei. Iniial scopul bioinformaticii era crearea i meninerea
unor baze de date cu informaii biologice cum ar fi secvenele de aminoacizi de exemplu.
Dezvoltarea acestor tipuri de baze de date a dus la crearea unor interfee complexe prin care
cercettorii s poat accesa i introduce i modifica datele. n momentul actual bioinformatica
a evoluat incluznd analiza i interpretarea mai multor tipuri de date cum ar fi secvenele de
aminoacizi i structura proteinelor. Procesul actual de analiz i interpretare a datelor include:
- dezvoltarea i implementarea de unelte care s permit accesul i managementul
eficient pentru diferite tipuri de informaie
- dezvoltarea de noi algoritmi i statistici pentru a evidenia relaiile ntre diferite seturi
de date
Bazele de date biologice
O baz de date biologic este o cantitate mare de date, asociate cu software folosit
pentru aducerea la zi a informaiilor i regsirea anumitor componente din datele memorate. O
baz de date simpl poate fi un fiier coninnd mai multe nregistrri, fiecare dintre
nregistrri avnd acelai tip de informaie. Pentru cercettorii care beneficiaz de datele
memorate sunt necesare:
- acces uor la informaii
- metode care s permit numai extragerea informaiilor utile
Introducere n Internet
Internet este la ora actual o reea de reele format n urma interconectrii reelelor
regionale din lumea ntreag. Originile sale constau n proiectul de cercetare de la Advanced
Research Projects Agency (ARPA) din cadrul U.S. Department of Defence din 1969, proiect
numit ARPANET. Reeaua iniial a fost format din conectarea a patru noduri de pe coasta
de vest cu scopul de a transmite informaii. n urma reuitei acestui proiect au aprut mai
multe reele care permiteau transferul de informaii i fiiere. n 1982 ARPA a introdus
Transmission Control Protocol (TCP) i Internet Protocol (IP); TCP/IP a permis ca reele
diferite s poat comunica ntre ele i a dus la crearea sistemului de astzi.
n momentul n care calculatoarele din reea au fost interconectate ntre ele a fost
nevoie de o metod necesar de a identifica o anume main. Pentru aceasta, fiecare
calculator conectat direct la internet a primit un numr IP (adres IP). Datorit faptului c
1
Bionformatica
adresele IP asociate este greu de memorat, acestea sunt asociate nu nume. Conversia numelui
n numrul corespunztor este realizat ctre nite calculatoare speciale numite Domain Name
server (DNS).
Servicii Oferite
E-mail
Prin email se pot transmite i primi mesaje la fel ca prin pota obinuit. Principalele
avantaje sunt:
- transmiterea se face mult mai rapid
- prezint o metod convenabil de a transmite fiiere
- trimiterea unui mesaj cost foarte puin
- mesajele pot fi citite de oriunde
Principalul dezavantaj al acestui serviciu const n lipsa securitii. De la transmisie
pn la recepie mesajul poate parcurge mai multe noduri unde pot fi interceptate i citite. O
alt problem este ridicat de confidenialitate: n multe companii email-ul este folosit doar
pentru comunicri oficiale i este controlat permanent. Transmiterea de fiiere este deseori
limitat: se pot transmite doar fiiere mai mici de o anumit dimensiune, iar numrul acestora
poate fi limitat.
Acest serviciu poate fi folosit i pentru realiza cutri n bazele de date. Utilizatorii pot
trimite mesaje scrise ntr-un format predefinit ctre un server de cutare. Serverul va realiza
cutrile dorite i va trimite rezultatele napoi prin email. Pentru cele mai multe servere la
trimiterea unui mesaj help vor rspunde cu instruciuni despre operaiile realizate i modul n
care trebuie formatate datele care trebuiesc trimise.
FTP (File Transfer Protocol)
Acest serviciu este folosit pentru transmiterea de fiiere. Modalitatea de transmitere
este foarte simpl: este realizat o conexiune ntre dou calculatoare dup care se vor transfera
fiierele dorite. Calculatorul care a iniiat conexiunea se numete client iar cel care accept
conexiunea se numete server. Conexiunea este meninut activ pe toat durata transferului
de fiiere. De obicei nu exist limite cu privire la dimensiunea fiierului sau numrul de
fiiere transferate. Cele mai multe servere de FTP permit reluarea transferului unui fiier (n
cazul ntreruperii conexiunii sau a unor cderi ale reelei, transmiterea va fi reluat din punctul
n care era la ntrerupere).
WWW (World Wide Web)
Cu toate avantajele sale, FTP are un mare neajuns: coninutul unui fiier poate fi vzut
numai dup ce a fost copiat. Pentru aceasta a fost creat WWW, care permite vizualizarea i
navigarea de la un fiier la altul s fie mult mai simpl. Web este o cercetare nceput la
European Nuclear Research Council (CERN) n 1989 i avea ca scop distribuia datelor n mai
multe locaii. Aceasta a condus la crearea unui mediu n care textul, imaginea i sunetul pot fi
transmise utilizatorilor la cerere, oriunde ar fi acetia.
Navigarea n WWW nu necesit cunoaterea locaiei din care sunt aduse informaiile.
Utilizatorii pot naviga selectnd un anumit text sau imagine. Aceste elemente sunt numite
legturi. Programul folosit pentru a vizualiza i naviga ntre pagini se numete browser.
Aceste se conecteaz la server descarc toate fiierele necesare, afieaz informaiile din
acestea i se deconecteaz.
Datorit creterii continue a cantitii de informaie existent n WWW au fost create
motoarele de cutare. Un motor de cutare este un program specializat care realizeaz cutri
ale unor texte n baze de date speciale. Motoarele de cutare folosesc diferite metode de
organizare i memorare a informaiilor pentru a-i menine bazele de date. O prim categorie
2
Bionformatica
memoreaz tot textul unei pagini oferind foarte multe rezultate. Altele memoreaz doar
titlurile paginilor n ncercarea de a oferi rezultate la obiect. Datorit metodelor diferite de
abordare cutrile cu diferite motoare de cutare ofer de multe ori rezultate diferite.
Prezentare general a NCBI
NCBI a fost creat in noiembrie 1988 un Statele Unite ca o divizie a National Library
of Medicine (NLM). NLM a fost aleasa datorit experienei n crearea i meninerea bazelor
de date biomedicale, iar ca parte a National Institute of Health (NIH) putea stabili si programe
de cercetare. Prin intermediul NCBI colectivul de cercetare al NIH a creat in domeniul
tiinelor biomedicale una din cele mai mari baze de date din lume.
Fiind o resurs naional n domeniul informaiilor din biologie, misiunea NCBI este
dezvoltarea tehnologiilor informatice pentru a ajuta la nelegerea proceselor genetice i
moleculare care controleaz sntatea i bolile. Mai specific, NCBI a fost nsrcinat cu:
- crearea sistemelor automate pentru stocarea si analizarea cunotinelor despre biologia
molecular, biochimie i genetic
- crearea de unelte care s uureze accesul la aceast baz de date de ctre cercettori i
comunitatea medical
- coordonarea eforturilor de adunare a informaiilor in domeniu
- crearea unor programe de cercetare a unor metode avansate de procesare a
informaiilor pentru analizarea structurii i funciilor unor molecule importante pentru
biologie
-
Programe si activiti
Cercetarea de baz
NCBI este un grup de cercetare multidisciplinar (calculatoare, biologie molecular,
biochimie, etc) care nu aduce contribuii importante n tiinele de baz ci acioneaz pentru
descoperirea de noi metode pentru activitile tiinifice. Se studiaz probleme medicale
fundamentale la nivel molecular folosind metode matematice i de calcul. Aceste probleme
includ organizarea genelor, secvene de analize i predicia structurilor. Cercetrile curente
cuprind:
- detecia i analiza organizrii genelor
- modele de secvene care se repet
- proteine i elemente structurale
- modelarea matematic a infeciei cu HIV
- analiza i efectele erorilor de cutare n bazele de date
3
Bionformatica
-
Bionformatica
Bionformatica
Primul pas la iniierea unei cutri n sistemul Entrez este alegerea bazei de date n
care se face cutarea. Odat ce a fost selectat baza de date urmtorul pas const n furnizarea
modului de cutare. Entrez realizeaz cutri dup: subiect, fraz, autor, identificator unic, i
acolo unde este aplicabil dup greutatea molecular. Frazele i cuvintele cheie introduse
pentru cutare sunt tratate ca n orice alt motor de cutare (Google, Yahoo). Dac fraza sau
cuvintele sunt puse ntre ghilimele, ele vor duce la afiarea rezultatelor care conin fraza
exact introdus la cutare.
O cutare poate fi realizat prin intermediul numrului de identificare unic atunci cnd
se cunoate exact codul de accesare a unei anume secvene. Formatul numrului de accesare
difer ns de la o baz de date la alta. Entrez permite i cutarea dup greutatea molecular
incluzd i cutarea tuturor moleculelor cu greutatea cuprins ntr-una numit interval.
Sistemul memoreaz temporar ultimele 100 de cutri, pentru a le afia, revizui sau
combina rezultatele. Cutrile memorate sunt terse dup o or de inactivitate n sistem.
Rezultatele pot fi afiate n mai multe formate, sau pot fi salvate pe disc sau tiprite la
imprimant direct din browser. Atunci cnd sunt disponibile legturi externe acestea sunt
afiate.