Documente Academic
Documente Profesional
Documente Cultură
Bioinformatica
D1. Bioinformatica este utilizarea calculatoarelor pentru procesarea informaţiilor biologice. Termenul
este adesea utilizat pentru a descrie biologie molecular- computaţională, utilizarea calculatoarelor
pentru a stoca, cauta şi caracteriza codul genetic al genelor, proteinele legate de fiecare genă şi funcţiile
lor asociate.
Biologia este în mod tradiţional o ştiinţă a observaţiilor şi într-o măsura mai mică o ştiinţă a
deducţiilor. Deşi cercetările actuale au schimbat oarecum aceasta orientare de bază, natura datelor
informaţionale s-a schimbat radical. În cazul nucleotidelor şi al amino-acizilor, informaţiile au un
caracter numeric discret. Astfel, este posibila determinarea completă, şi in principiu exactă a unei
secvenţe de genom sau clonă. Nu este posibil a se evita erorile experimentale în totalitate, dar în
genomica secvenţelor actuală, aceasta eroare este extrem de mică.
O caracteristica importantă a bioinformaticii este lucrul cu volum foarte mare de informaţii așa cum se
poate observa din graficele următoare (Fig. 1.1-1.2).
Dogma centrală (principul central) a biologiei molculare se referă la modalitatea în care o bandă
(strand) de DNA (acidul dezoxirobonucleic) corespunde la secvenţa de amino-acizi a unei proteine .
Dogma centrală: ADN codifică ARN; ARN codifică proteina.
DNA RNA Proteine Fenotip
transcriere translatie
1. DNA îşi replică informaţia într-un proces care implică mai multe enzime.
2. DNA codifică pentru producţia mesagerului RNA (mRNA) în timpul transcrierii
3. În celule eucariote, mRNA este procesat (în esenţă prin divizare) şi migreaza din nucleu catre
citoplasmă.
4. Mesagerul RNA transportă informaţia codată în ribozomi. Ribozomii “citesc” aceasta informaţie şi
o utilizează pentru sinteza proteinelor.
O comparaţie între DNA şi RNA este dată mai jos:
1.3. Probleme curente in Bioinformatică
Problemele curente in bioinformatică sunt legate de cele trei domenii majore: genomică, proteomică și
baze de date. Principalele domenii de cercetare sunt:
Exemple de formate de baze de date utilizate de instrumente software pentru acces la înregistrarile
acestor baze de date sunt: gcg, staden, embl, clustal, msf, GenBank (distribuita NCBI), rsf (rich
sequence format), FASTA si multi-FASTA.
web('http://www.ncbi.nlm.nih.gov/')
Vom descrie pe scurt în cele ce urmeaza formatul FASTA. Un format FASTA este constituit dintr-o
singura linie de descriere urmata de linii de secvenţe de date. Primul caracter din linia de descriere este
“>” urmat de descriere. Toate liniile trebuie sa aibă mai puţin de 80 de caractere. Ex:
Pentru a trece dintr-un format în altul se utilizeaza programe software de conversie, în general
disponibile fără cost (ex. NCBI BLAST in format FASTA, READSEQ).
1. Talasemia - o boală genetică din cauza replicării defectuoase a ADN-ului O mutație într-o genă
este o schimbare în secvența ADN-ului nucleotide. Uneori, chiar și o greșeală a unei singure
poziții poate avea o efect profund. O simplă mutație, dar devastatoare, în gena hemoglobina,
proteina care transportă oxigenul în sânge.
Utilitate
Dozare anticoagulat
Matlab 2021b, bioinformatics toolbox
https://www.mathworks.com/help/pdf_doc/bioinfo/index.html
Bioinformatics Toolbox™ oferă algoritmi și aplicații pentru Next Generation Sequencing (NGS),
analiza microarray, spectrometria de masă și ontologia genelor. Folosind funcțiile toolbox puteți citi
date genomice și proteomice din formate de fișiere standard, cum ar fi SAM, FASTA, CEL și CDF,
precum și din baze de date online, cum ar fi NCBI Gene Expression Omnibus și GenBank®. Puteți
explora și vizualiza aceste date cu browsere de secvențe, hărți termice spațiale și clustergrame. Setul de
instrumente oferă, de asemenea, tehnici statistice pentru detectarea vârfurilor, aproximarea valorilor
pentru datele lipsă și selectarea caracteristicilor.
Puteți combina funcțiile toolbox pentru a sprijini fluxurile de lucru bioinformatice comune. Puteți
utiliza datele ChIP-Seq pentru a identifica factorii de transcripție; analiza datelor ARN-Seq pentru a
identifica genele exprimate diferențial; identificarea variantelor numărului de copii și a SNP-urilor
(Single nucleotide polymorphisms) în datele microarray; și să clasifice profilurile de proteine folosind
date de spectrometrie de masă.
Analiza microarray
Expresia genetică și analiza variantelor genetice a datelor microarray
Analiza secvenței
Secvențe genomice și proteomice, aliniere și filogenetică
Analiză structurală
Vizualizați și manipulați structurile 3-D ale proteinelor și ale altor biomolecule; Predicția și vizualizarea
structurii secundare a ARN
GISAID platform
https://www.gisaid.org/
• GISAID maintains the world's largest repository of SARS-CoV-2 sequences
• 2021, the database contained over 5 million genome sequences
Optional
4. Dan E. Krane, Michael L. Raymer, “Fundamental Concepts of Bioinformatics”, Benjamin
Cummings, 2002, ISBN: 0805346333
5. Bryan Bergeron, “Bioinformatics Computing”, Prentice Hall PTR, 2002, ISBN: 0-13-100825-0
6. Arthur M. Lesk, “Introduction to Bioinformatics”, Oxford University Press, 2005
7. Cynthia Gibas, Per Jambeck, “Developing Bioinformatics Computer Skills”, 2001, ISBN: 1-56592-
664-1
8. Teresa Attwood, David Parry-Smith, “Introduction to Bioinformatics”, Prentice Hall, 2001, ISBN:
0582327881
9. Thomas Lengauer, “From Genomes to Drugs”, vol. I-II, 2002
10. David W. Mount, “Bioinformatics: Sequence and Genome Analysis (Genome Analysis)”, Cold
Spring Harbor Laboratory Press, 2001, ISBN: 0879696087
11. Jin Xiong, “Essential Bioinformatics”, Cambridge University Press, 2006
12. Dan E. Krane, Michael L. Raymer , Fundamental Concepts of Bioinformatics, Benjamin
Cummings, 2002
13. Jean-Charles Sanchez, Garry L. Corthals, Denis F. Hochstrasser (Editori), Biomedical Applications
of Proteomics, Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim, 2004