Sunteți pe pagina 1din 9

Curs 1

Bioinformatica

1. 1. Definiţia Bioinformaticii: ce este bioinformatica?

D1. Bioinformatica este utilizarea calculatoarelor pentru procesarea informaţiilor biologice. Termenul
este adesea utilizat pentru a descrie biologie molecular- computaţională, utilizarea calculatoarelor
pentru a stoca, cauta şi caracteriza codul genetic al genelor, proteinele legate de fiecare genă şi funcţiile
lor asociate.

D2. Alte Definiţii:


D2.1. O ştiinţă interdisciplinară, la intersecţia biologiei, calculatoarelor şi ştiinţelor informaţiei
necesare pentru management, procesare şi înţelegere a unui larg volum de date din secvenţa
genomului uman, sau din baze de date foarte mari despre plante şi animale, utilizate în
descoperirea şi dezvoltarea a noi medicamente.
D.2.2. Ştiinţele informatice aplicate în cercetări biologice. Bioinformatica se referă în special la
cecetări genomice, din cauza volumului foarte mare de date complexe generate în aceste
cercetări.

1.2. Procesarea informaţiilor in biologie şi medicina

Biologia este în mod tradiţional o ştiinţă a observaţiilor şi într-o măsura mai mică o ştiinţă a
deducţiilor. Deşi cercetările actuale au schimbat oarecum aceasta orientare de bază, natura datelor
informaţionale s-a schimbat radical. În cazul nucleotidelor şi al amino-acizilor, informaţiile au un
caracter numeric discret. Astfel, este posibila determinarea completă, şi in principiu exactă a unei
secvenţe de genom sau clonă. Nu este posibil a se evita erorile experimentale în totalitate, dar în
genomica secvenţelor actuală, aceasta eroare este extrem de mică.
O caracteristica importantă a bioinformaticii este lucrul cu volum foarte mare de informaţii așa cum se
poate observa din graficele următoare (Fig. 1.1-1.2).

Dogma centrală (principul central) a biologiei molculare se referă la modalitatea în care o bandă
(strand) de DNA (acidul dezoxirobonucleic) corespunde la secvenţa de amino-acizi a unei proteine .
Dogma centrală: ADN codifică ARN; ARN codifică proteina.
DNA RNA Proteine Fenotip
transcriere translatie

DNA - acidul dezoxirobonucleic


RNA – acidul ribonucleic
Pentru DNA, reprezentarea este un şir:
A = a1a2…ax, aiA’, A’={A, C, G, T}

Pentru RNA, reprezentarea este un şir:


B = b1b2…bx, biB’, B’= {A, C,G, T}

Pentru proteine, reprezentarea este un şir in 20 de litere:


C = c1c2…cn, ciC’, C’={A-Y}, {B,J,O, U, X} C’

1. DNA îşi replică informaţia într-un proces care implică mai multe enzime.
2. DNA codifică pentru producţia mesagerului RNA (mRNA) în timpul transcrierii
3. În celule eucariote, mRNA este procesat (în esenţă prin divizare) şi migreaza din nucleu catre
citoplasmă.
4. Mesagerul RNA transportă informaţia codată în ribozomi. Ribozomii “citesc” aceasta informaţie şi
o utilizează pentru sinteza proteinelor.
O comparaţie între DNA şi RNA este dată mai jos:
1.3. Probleme curente in Bioinformatică

Problemele curente in bioinformatică sunt legate de cele trei domenii majore: genomică, proteomică și
baze de date. Principalele domenii de cercetare sunt:

1. Analiză secvențe (aliniere, filogenie și statistică în principal)


2. Adnotare genomică
3. Biologie computațională evolutivă
4. Analiza expresiei genetice
5. Analiza expresiei proteine
6. Analiza datelor în micro-arii
7. Genomică comparativă
8. Modelare sisteme biologice
9. Predicție structură protein
10. Interacțiuni moleculare

1.4. Formate de baze de date pentru bioinformatică

Exemple de formate de baze de date utilizate de instrumente software pentru acces la înregistrarile
acestor baze de date sunt: gcg, staden, embl, clustal, msf, GenBank (distribuita NCBI), rsf (rich
sequence format), FASTA si multi-FASTA.

Portal de acces la intrumente şi baze de date în bioinformatică:


http://www.ncbi.nlm.nih.gov/
http://www.ncbi.nlm.nih.gov/Ftp/ (baze de date disponibile a fi downloadate via ftp)

http://www.expasy.org/ (Acces la server de proteomică)


https://www.gisaid.org/

sau acces din MATLAB prin comandă din fereastra de comenzi:

web('http://www.ncbi.nlm.nih.gov/')

Vom descrie pe scurt în cele ce urmeaza formatul FASTA. Un format FASTA este constituit dintr-o
singura linie de descriere urmata de linii de secvenţe de date. Primul caracter din linia de descriere este
“>” urmat de descriere. Toate liniile trebuie sa aibă mai puţin de 80 de caractere. Ex:

>Name of the sequence


ctgcgagNcgcgcgatgatagMMM-NNNnnnnncgcggcgagcatgtagcatgctagctgtcgcgagcactUUUURRRrrrrrrr
cggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVvvvcgtaggcagc
cgccgagagacgatggagctgc

Secvenţele sunt reprezentate în standardul IUB/IUPAC al amino-acizilor și codurilor de acizi nucleici,


cu urmatoarele excepţii: litere mici sunt acceptate și sunt transformate în litere mari; pentru a
reprezenta o pauză (gap) nedeterminată se utilizează o liniuţă sau o subliniere; în secvenţele de
amino-acizi U şi * sunt litere acceptate.

Coduri acceptate pentru acizi nucleici


A --> adenosine M --> A C (amino)
C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
- gap of indeterminate length

Pentru a trece dintr-un format în altul se utilizeaza programe software de conversie, în general
disponibile fără cost (ex. NCBI BLAST in format FASTA, READSEQ).

Exemple de boli genetice

1. Talasemia - o boală genetică din cauza replicării defectuoase a ADN-ului O mutație într-o genă
este o schimbare în secvența ADN-ului nucleotide. Uneori, chiar și o greșeală a unei singure
poziții poate avea o efect profund. O simplă mutație, dar devastatoare, în gena hemoglobina,
proteina care transportă oxigenul în sânge.

Utilitate
Dozare anticoagulat
Matlab 2021b, bioinformatics toolbox
https://www.mathworks.com/help/pdf_doc/bioinfo/index.html

Bioinformatics Toolbox™ oferă algoritmi și aplicații pentru Next Generation Sequencing (NGS),
analiza microarray, spectrometria de masă și ontologia genelor. Folosind funcțiile toolbox puteți citi
date genomice și proteomice din formate de fișiere standard, cum ar fi SAM, FASTA, CEL și CDF,
precum și din baze de date online, cum ar fi NCBI Gene Expression Omnibus și GenBank®. Puteți
explora și vizualiza aceste date cu browsere de secvențe, hărți termice spațiale și clustergrame. Setul de
instrumente oferă, de asemenea, tehnici statistice pentru detectarea vârfurilor, aproximarea valorilor
pentru datele lipsă și selectarea caracteristicilor.

Puteți combina funcțiile toolbox pentru a sprijini fluxurile de lucru bioinformatice comune. Puteți
utiliza datele ChIP-Seq pentru a identifica factorii de transcripție; analiza datelor ARN-Seq pentru a
identifica genele exprimate diferențial; identificarea variantelor numărului de copii și a SNP-urilor
(Single nucleotide polymorphisms) în datele microarray; și să clasifice profilurile de proteine folosind
date de spectrometrie de masă.

Secvențiere cu eficienta ridicata


Expresia genelor, factorul de transcripție și analiza de metilare a datelor de secvențiere de generație următoare
(NGS), inclusiv ARN-Seq și ChIP-Seq

Analiza microarray
Expresia genetică și analiza variantelor genetice a datelor microarray

Analiza secvenței
Secvențe genomice și proteomice, aliniere și filogenetică

Analiză structurală
Vizualizați și manipulați structurile 3-D ale proteinelor și ale altor biomolecule; Predicția și vizualizarea
structurii secundare a ARN

Spectrometrie de masă și bioanalitică


Date din tehnici de separare care produc urme cu vârfuri, inclusiv MS, LC/MS, RMN, cromatografie și
electroforeză
Baze de date

• sequence analysis: Genbank, UniProt


• structure analysis: Protein Data Bank (PDB)
• finding Protein Families and Motif Finding: InterPro, Pfam
• Next Generation Sequencing: Sequence Read Archive
• Network Analysis: Metabolic Pathway Databases (KEGG, BioCyc), Interaction Analysis
Databases, Functional Networks
• design of synthetic genetic circuits: GenoCAD

GISAID platform
https://www.gisaid.org/
• GISAID maintains the world's largest repository of SARS-CoV-2 sequences
• 2021, the database contained over 5 million genome sequences

Phylogenetic Assignment of Named Global Outbreak Lineages (PANGOLIN)


https://cov-lineages.org/resources/pangolin.htm

PyBio: An Open Source Bioinformatics Library for Python.

• Biopython: set of freely available tools for biological computation


• PyMOL: molecular visualization system
• PyCogent is a software library for genomic biology
• Galaxy: an open, web-based platform for data intensive biomedical research
• pygr: sequence and comparative genomics analyses, even with extremely large multi-genome data sets
• Biskit: facilitates the manipulation and analysis of macromolecular structures, protein complexes, and
molecular dynamics trajectories
Bibliografie:

1. Neil C. Jones, Pavel A. Pevzner, “An Introduction to Bioinformatics Algorithms (Computational


Molecular Biology)”, The MIT Press, 2004
2. N. Cristianini, M. W. Hahn, Introduction to Computational Genomics, A Case Studies Approach,
Cambridge University Press, 2006
3. Gil Alterovitz, Marco F. Ramoni, Systems Bioinformatics: An Engineering Case-Based Approach,
Artech House Publishers, 2007

Optional
4. Dan E. Krane, Michael L. Raymer, “Fundamental Concepts of Bioinformatics”, Benjamin
Cummings, 2002, ISBN: 0805346333
5. Bryan Bergeron, “Bioinformatics Computing”, Prentice Hall PTR, 2002, ISBN: 0-13-100825-0
6. Arthur M. Lesk, “Introduction to Bioinformatics”, Oxford University Press, 2005
7. Cynthia Gibas, Per Jambeck, “Developing Bioinformatics Computer Skills”, 2001, ISBN: 1-56592-
664-1
8. Teresa Attwood, David Parry-Smith, “Introduction to Bioinformatics”, Prentice Hall, 2001, ISBN:
0582327881
9. Thomas Lengauer, “From Genomes to Drugs”, vol. I-II, 2002
10. David W. Mount, “Bioinformatics: Sequence and Genome Analysis (Genome Analysis)”, Cold
Spring Harbor Laboratory Press, 2001, ISBN: 0879696087
11. Jin Xiong, “Essential Bioinformatics”, Cambridge University Press, 2006
12. Dan E. Krane, Michael L. Raymer , Fundamental Concepts of Bioinformatics, Benjamin
Cummings, 2002
13. Jean-Charles Sanchez, Garry L. Corthals, Denis F. Hochstrasser (Editori), Biomedical Applications
of Proteomics, Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim, 2004

S-ar putea să vă placă și