Curs 1

Curs 1
Bioinformatica
1. 1. Definiţia Bioinformaticii: ce este bioinformatica?
D1. Bioinformatica este utilizarea calculatoarelor pentru procesarea informaţiilor biologice. Termenul
este adesea utilizat pentru a descrie biologie molecular- computaţională, utilizarea calculatoarelor
pentru a stoca, cauta şi caracteriza codul genetic al genelor, proteinele legate de fiecare genă şi funcţiile
lor asociate.
D2. Alte Definiţii:

D2.1. O ştiinţă interdisciplinară, la intersecţia biologiei, calculatoarelor şi ştiinţelor informaţiei
necesare pentru management, procesare şi înţelegere a unui larg volum de date din secvenţa
genomului uman, sau din baze de date foarte mari despre plante şi animale, utilizate în
descoperirea şi dezvoltarea a noi medicamente.
D.2.2. Ştiinţele informatice aplicate în cercetări biologice. Bioinformatica se referă în special la
cecetări genomice, din cauza volumului foarte mare de date complexe generate în aceste
cercetări.
1.2. Procesarea informaţiilor in biologie şi medicina
Biologia este în mod tradiţional o ştiinţă a observaţiilor şi într-o măsura mai mică o ştiinţă a
deducţiilor. Deşi cercetările actuale au schimbat oarecum aceasta orientare de bază, natura datelor
informaţionale s-a schimbat radical. În cazul nucleotidelor şi al amino-acizilor, informaţiile au un
caracter numeric discret. Astfel, este posibila determinarea completă, şi in principiu exactă a unei
secvenţe de genom sau clonă. Nu este posibil a se evita erorile experimentale în totalitate, dar în
genomica secvenţelor actuală, aceasta eroare este extrem de mică.
O caracteristica importantă a bioinformaticii este lucrul cu volum foarte mare de informaţii așa cum se
poate observa din graficele următoare (Fig. 1.1-1.2).
Dogma centrală (principul central) a biologiei molculare se referă la modalitatea în care o bandă
(strand) de DNA (acidul dezoxirobonucleic) corespunde la secvenţa de amino-acizi a unei proteine .
DNA RNA Proteine Fenotip
transcriere translatie
DNA - acidul dezoxirobonucleic

RNA – acidul ribonucleic
Pentru DNA, reprezentarea este un şir:
A = a1a2…ax, aiA’, A’={A, C, G, T}
Pentru RNA, reprezentarea este un şir:

B = b1b2…bx, biB’, B’= {A, C,G, T}
Pentru proteine, reprezentarea este un şir in 20 de litere:

C = c1c2…cn, ciC’, C’={A-Y}, {B,J,O, U, X} C’
1. DNA îşi replică informaţia într-un proces care implică mai multe enzime.
2. DNA codifică pentru pentru producţia mesagerului RNA (mRNA) în timpul transcrierii
3. În celule eucariote, mRNA este procesat (în esenţă prin divizare) şi migreaza din nucleu catre
citoplasmă.
4. Mesagerul RNA transportă informaţia codată în ribozomi. Ribozomii “citesc” aceasta informaţie şi
o utilizează pentru sinteza proteinelor.
O comparaţie între DNA şi RNA este dată mai jos:
1.3. Probleme curente in Bioinformatică
Problemele curente in bioinformatică sunt legate de cele trei domenii majore: genomică, proteomică și
baze de date. Principalele domenii de cercetare sunt:
1. Analiză secvențe (aliniere, filogenie și statistică în principal)

2. Adnotare genomică
3. Biologie computațională evolutivă
4. Analiza expresiei genetice
5. Analiza expresiei proteine
6. Analiza datelor în micro-arii
7. Genomică comparativă
8. Modelare sisteme biologice
9. Predicție structură protein
10. Interacțiuni moleculare
1.4. Formate de baze de date pentru bioinformatică
Exemple de formate de baze de date utilizate de instrumente software pentru acces la înregistrarile
acestor baze de date sunt: gcg, staden, embl, clustal, msf, GenBank (dsitribuita NCBI), rsf (rich
sequence format), FASTA si multi-FASTA.
Portal de acces la intrumente şi baze de date în bioinformatică:

http://www.ncbi.nlm.nih.gov/
http://www.ncbi.nlm.nih.gov/Ftp/ (baze de date disponibile a fi downloadate via ftp)
http://www.expasy.org/ (Acces la server de proteomică)

http://www.ddbj.nig.ac.jp) (DNA Databank of Japan)
sau acces din MATLAB prin comandă din fereastra de comenzi:
web('http://www.ncbi.nlm.nih.gov/')
Vom descrie pe scurt în cele ce urmeaza formatul FASTA. Un format FASTA este constituit dintr-o
singura linie de descriere urmata de linii de secvenţe de date. Primul caracter din linia de descriere este
“>” urmat de descriere. Toate liniile trebuie sa aibă mai puţin de 80 de caractere. Ex:
>Name of the sequence

ctgcgagNcgcgcgatgatagMMM-NNNnnnnncgcggcgagcatgtagcatgctagctgtcgcgagcactUUUURRRrrrrrrr
cggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVvvvcgtaggcagc
cgccgagagacgatggagctgc
Secvenţele sunt reprezentate în standardul IUB/IUPAC al amino-acizilor și codurilor de acizi nucleici,

cu urmatoarele excepţii: litere mici sunt acceptate și sunt transformate în litere mari; pentru a
reprezenta o pauză (gap) nedeterminată se utilizează o liniuţă sau o subliniere; în secvenţele de
amino-acizi U şi * sunt litere acceptate.
Coduri acceptate pentru acizi nucleici
A --> adenosine M --> A C (amino)

C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
- gap of indeterminate length
Pentru a trece dintr-un format în altul se utilizeaza programe software de conversie, în general
disponibile fără cost (ex. NCBI BLAST in format FASTA, READSEQ).
Bibliografie:
1. Neil C. Jones, Pavel A. Pevzner, “An Introduction to Bioinformatics Algorithms (Computational

Molecular Biology)”, The MIT Press, 2004
2. N. Cristianini, M. W. Hahn, Introduction to Computational Genomics, A Case Studies Approach,
Cambridge University Press, 2006
3. Gil Alterovitz, Marco F. Ramoni, Systems Bioinformatics: An Engineering Case-Based Approach,
Artech House Publishers, 2007
Optional
4. Dan E. Krane, Michael L. Raymer, “Fundamental Concepts of Bioinformatics”, Benjamin
Cummings, 2002, ISBN: 0805346333
5. Bryan Bergeron, “Bioinformatics Computing”, Prentice Hall PTR, 2002, ISBN: 0-13-100825-0
6. Arthur M. Lesk, “Introduction to Bioinformatics”, Oxford University Press, 2005
7. Cynthia Gibas, Per Jambeck, “Developing Bioinformatics Computer Skills”, 2001, ISBN: 1-56592-
664-1
8. Teresa Attwood, David Parry-Smith, “Introduction to Bioinformatics”, Prentice Hall, 2001, ISBN:
0582327881
9. Thomas Lengauer, “From Genomes to Drugs”, vol. I-II, 2002
10. David W. Mount, “Bioinformatics: Sequence and Genome Analysis (Genome Analysis)”, Cold
Spring Harbor Laboratory Press, 2001, ISBN: 0879696087
11. Jin Xiong, “Essential Bioinformatics”, Cambridge University Press, 2006
12. Dan E. Krane, Michael L. Raymer , Fundamental Concepts of Bioinformatics, Benjamin
Cummings, 2002
13. Jean-Charles Sanchez, Garry L. Corthals, Denis F. Hochstrasser (Editori), Biomedical Applications
of Proteomics, Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim, 2004

Curs 1

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 1

Încărcat de

Drepturi de autor:

Formate disponibile

Curs 1

1. 1. Definiţia Bioinformaticii: ce este bioinformatica?

D2. Alte Definiţii:

1.2. Procesarea informaţiilor in biologie şi medicina

DNA - acidul dezoxirobonucleic

Pentru RNA, reprezentarea este un şir:

Pentru proteine, reprezentarea este un şir in 20 de litere:

1.3. Probleme curente in Bioinformatică

1. Analiză secvențe (aliniere, filogenie și statistică în principal)

Portal de acces la intrumente şi baze de date în bioinformatică:

http://www.expasy.org/ (Acces la server de proteomică)

sau acces din MATLAB prin comandă din fereastra de comenzi:

>Name of the sequence

Secvenţele sunt reprezentate în standardul IUB/IUPAC al amino-acizilor și codurilor de acizi nucleici,

Coduri acceptate pentru acizi nucleici

A --> adenosine M --> A C (amino)

1. Neil C. Jones, Pavel A. Pevzner, “An Introduction to Bioinformatics Algorithms (Computational

S-ar putea să vă placă și