Bioinformatica Budeanu

UNIVERSITATEA ACADEMIEI DE TIINE A MOLDOVEI CENTRUL DE CERCETARE I FORMARE PROFESIONAL BIOLOGIE MOLECULAR
Maria DUCA, Alexei LEVICHI, Viorel MUNTEANU, Oleg BUDEANU, Angela PORT
Ghid practic pentru analiza genelor i proteinelor
BIOINFORMATICA
Chiinu 2010
3
CZU ... AAceast lucrare a fost elaborat i editat n cadrul proiectului "Activitatea funcional a genomului la plante"
CUPRINS
PREFA ............................................................................................................................................ 5 CAPitolul 1. ISTORIC I ELEMENTE DE BAZ N BIOINFORMATIC 1.1. Scurt istoric i direcii de cercetare n Bioinformatic ............................................................. 1.2. Baze de date, diversitate i importan ........................................................................................ 1.3. Formate i instrumente de nregistrare a secvenelor ............................................................... Capitolul 2. PRINCIPII DE CUTARE A SECVENELOR N BAZE DE DATE 2.1. Modaliti de cutare a informaiei. Organisme-model de analiz a genomului .................. 2.2. Aspecte privind analiza bioinformatic a secvenelor de interes ............................................ 2.3. Analiza BLAST ............................................................................................................................... CAPitolul 3. ANALIZA PERECHILOR DE SECVENE PRIN ALINIERE 3.1. Modele de aliniere a secvenelor. Alinierea global i local ................................................... 3.2. Aplicarea matricelor de scor, gap-urilor i penalitilor n alinierea secvenelor ................. 3.3. Instrumente bioinformatice utilizate n alinierea unei perechi de secvene .......................... CAPitolul 4. ALINIEREA MULTIPL A SECVENELOR 4.1. Tipuri de aliniere multipl. Alinierea multipl global i local a secvenelor ...................... 4.2. Analiza statistic a alinierii secvenelor ....................................................................................... 4.3. Instrumente bioinformatice utilizate n alinierea multipl a secvenelor ................................ CAPitolul 5. ANALIZA FILOGENETIC 5.1. Alegerea secvenelor pentru obinerea arborilor filogenetici .................................................... 5.2. Metode utilizate n analiza filogenetic ........................................................................................ 5.3. Programe utilizate n analiza filogenetic (PHYLIP i PAUP) .................................................. CAPitolul 6. MODELAREA STRUCTURII SECUNDARE A ARN-ului 6.1. Caracteristici ale structurii secundare i teriare ale ARN-lui .................................................. 6.2. Metode i programe utilizate n modelarea structurii secundare ale ADN-lui ...................... CAPitolul 7. IDENTIFICAREA GENELOR 7.1. Metode de identificare a genelor la procariote i eucariote ....................................................... 7.2. Instrumente bioinformatice utilizate n identificarea genelor ................................................... CAPitolul 8. CLASIFICAREA I MODELAREA STRUCTURII PROTEINELOR 8.1. Clasificarea proteinelor n baza similaritii secvenelor ........................................................... 8.2. Vizualizarea structurii moleculare a proteinelor ......................................................................... 8.3. Modelarea structurii proteinelor utiliznd instrumente bioinformatice .................................. CAPitolul 9. ANALIZA GENOMULUI 9.1. Genomul eucariot i procariot ..................................................................................................... 9.2. Asamblarea secvenelor genomului i identificarea genelor .................................................... 9.3. Resurse Web i instrumente computaionale pentru analiza genomului ............................... Glosar de termeni ................................................................................................................................... Bibliografie selectiv .............................................................................................................................
GRUPUL DE AUTORI:
Maria DUCA Doctor habilitat n biologie, profesor universitar, membru corespondent al AM, rector UnAM. Alexei LEVICHI Doctor n biologie, ef Laboratorul Bioinformatic, UnAM. Viorel MUNTEANU Cercettor tiinific, Laboratorul Bioinformatic, UnAM. Oleg BUDEANU Doctor n biologie, cercettor tiintific coordonator, Laboratorul Genomic. Angela PORT Doctor n biologie, confereniar universitar, ef catedr Biologie, UnAM. Descrierea CIP a Camerei Naionale a Crii Bioinformatica. Ghid practic pentru analiza genelor i proteinelor / Maria Duca, Alexei Levichi, Viorel Munteanu, Oleg Budeanu, Angela Port; Universitatea Academiei de tiine din Moldova. Editerra-Prim. Chiinu: [Tipografia], 2010, [152 pag]. Nr de exemplare ISBN ...
Maria Duca, Alexei Levichi, Viorel Munteanu, Oleg Budeanu, Angela Port Universitatea Academiei de tiine din Moldova
ISBN
Capitolul
PREFA
La unul din cursurile sale publice, Bruce Alberts, emerit savant, cunoscut dup manualul Molecular Cell Biology, la moment redactor ef al revistei tiinifice Science, a afirmat c n ultimul deceniu cererea pentru specialitii bioinformaticieni a crescut exponenial i va crete n continuare n urmtorii 20-30 ani. n acest context, este important s beneficiem de oportunitile pe care le ofer unul din cele mai noi domenii ale tiinelor - Bioinformatica. Bioinformatica reprezint o direcie tiinific nou, interdisciplinar, cu o evoluie ascendent catalizat de dezvoltarea tehnologiilor informaionale (TI) i realizrile n domeniul biologiei moleculare din ultimile decenii, n special secvenierea genomului la diverse specii de plante i animale. Performana actual a infrastructurii computaionale asigur o abordare sistemic a organismelor vii, prin integrarea datelor obinute la diferite nivele de organizare a genomului i mbinarea elementelor in vivo, in vitro si in silico ale experimentului biologic. Utilizarea instrumentelor bioinformatice n scopul elucidrii unor probleme multidisciplinare, care implica soluii inteligente, cu un nalt grad de complexitate i creativitate devine un obiectiv al proiectelor de cercetare fundamental i aplicativ n biologie, agricultur i medicin, determinnd astfel, o cerere ridicat n dezvoltarea competenelor profesionale n domeniu. Astfel, majoritatea universitilor prestigioase din Europa, Statele Unite i Japonia ofer studii la nivel de masterat i doctorat n Bioinformatic. Un specialist n bioinformatic deine o palet larg de perspective n cariera sa profesional, fiind solicitat n diverse domenii ale tiinelor vieii, statisticii, informaticii, diagnosticului medical, farmaceuticii etc. i posibiliti mari de angajare n industria tehnicilor informaionale care a devenit condiie obligatirie a vieii sociale. Se contureaz dou ci de formare a specialistului bioinformatician: -n tiine exacte (informatic, computere, fizic, statistic, matematic, chimie, inginerie, etc.), care intenioneaz s profeseze n domeniile promitoare ale tehnicii computerizate; -n tiine ale vieii (biologie, chimie, medicin, etc.), care urmresc utilizrea tehnologiilor informaionale n rezolvarea diverselor probleme biologice i mai puin activitatea experimental de laborator. Cartea este adresat viitorilor specialiti n domeniul tiine ale vieii, constituind un suport metodologic n pregtirea cercettorilor, cadrelor universitare, precum i tuturor celor care sunt interesai n cunoaterea tehnicilor informaionale de prelucrare a datelor biologice i integrare pe vertical a informaiei la nivel molecular i pn la nivel de populaii, specii i comuniti interspecifice. Ne exprimm sperana, c informaia cuprins n lucrarea de fa va contribui la dezvoltarea unor noi capaciti de analiz i interpretare a realizrilor din domeniu conform exigenelor la nivel internaional. Aducem mulumirile noastre dnei dr. Manuela Elisabeta Sidoroff (PreedinteDirector general al Institutului Naional de Cercetare-Dezvoltare pentru tiine Biologice, Bucureti, Romnia) pentru sugestiile valoroase n elaborarea acestui manual. Autorii
IsTorIC I ElEMEnTE dE BAz n BIoInforMATIC
Capitolul 1.
ISTORIC I ELEMENTE DE BAZ N BIOINFORMATIC
Baze de date format analiz bioinformatic software GenBank EMBL SwissProt FASTA
Capitolul
1.1. Scurt istoric i direcii de cercetare n Bioinformatic

Instrumentele i tehnicile de cuantificare sunt indispensabile oricrui tip de analiz indiferent de domeniu, tiine exacte sau cele ale vieii. Analiza matematic, statistic, tehnica de calcul sunt aplicate de ctre cercettorul biolog n sinteza, prelucrarea, interpretarea i integrarea diferitor tipuri de informaii. Numeroase exemple demonstreaz utilitatea operaiilor de calcul i biostatistic n activitatea de fiecare zi a laboratorului, aa ca: pregtirea reagenilor de diferit concentraie procentual, molar, normal etc., a seriilor de diluii, monitorizarea dezvoltrii coloniilor bacteriene, estimarea schimbrilor n ecosisteme privind diversitatea vegetal /animal sau ali factori de inciden a cror fluctuaie numeric /cantitativ are un impact esenial asupra mediului ambiant i societii. Prin analiza cantitativ a caracterelor variabile geneticienii celebri Gregor Mendel i Thomas Morgan au reuit s descopere principiile i legile motenirii genetice. Pronosticarea ratei de cretere a populaiei umane, studierea cineticii enzimatice sau descrierea modelului de debit cardiac se realizeaz prin intermediul a mii de ecuaii difereniale etc. Cu toate acestea, nici unul dintre exemplele prezentate nu poate fi atribuit unui mod de analiz bioinformatic, apariia creia se datoreaz descoperirii structurii ADN-ului (1953) i dezvoltrii exponeniale a biologiei moleculare. Acumularea unui volum mare de cunotine noi impunea, pe de o parte, necesitatea structurrii informaiei n subdomenii de cercetare, iar pe de alt parte, dicta utilizarea unor perspective de studiu mai moderne. Dilema informaional care se accentua odat cu dezvoltarea componentei moleculare a tiinelor biologice a fost i este rezolvat cu ajutorul computerelor i soft-urilor, care sunt n perfecionare
Capitolul
6
continu n ultimii 30 - 40 de ani. Aceste cerine ale mediului academic au catalizat dezvoltarea unei noi discipline Bioinformatica (BI), care are scopul de a analiza cantitativ informaiile referitoare la macromolecule biologice cu ajutorul computerelor i a algoritmilor de programare. Primul proiect major n bioinformatic a fost realizat de Margaret Dayhoff n anul 1965, care a format o baz de date primar a secvenelor proteice (Fig. 1.1). Mai trziu, specialistul n fizica teoretic, Walter Goad a efectuat prima asamblare a secvenelor ADN n baza de date, elabornd i prima baz de date de secvene proteice Protein Information Resource (PIR). La nceputul anilor 1970, Brookhaven National laboratory dispunea de o Banc de Date pentru arhivarea structurii tridimensionale a proteinelor. Tot n acea perioad a fost elaborat algoritmul de aliniere a secvenei primare pas fundamental n dezvoltarea bioinformaticii, fcnd accesibil compararea secvenelor, obiectiv practicat n investigaiile biologiei contemporane. Figura 1.1. Margaret DayPrimul algoritm al descifrrii structurii proteinei hoff, 1965. Elaboreaz prima baz de date a secvena fost propus de Chou i Fasman n anul 1974. Acest alelor proteice goritm poate fi considerat pionier n evoluia prezicerii structurii proteinelor cu toate c este destul de rudimentar conform standardului de astzi. Peste ase ani (1980) a fost nfiinat GenBank i bazele de date cu algoritmi rapizi de cutare, cum ar fi FAStA propus de William Pearson i BlASt de Stephen Altschul. Iniial, genele i proteinele erau secveniate una cte una folosind tehnici incomode care limitau cantitatea datelor generate. Dezvoltarea unui echipament mai sofisticat i elaborarea unor tehnici noi de analiz a determinat industrializarea biologiei moleculare i, odat cu aceasta, apariia premizelor pentru realizarea celui mai mare proiect pentru secvenierea genomului uman. Astfel, s-a dezvoltat o infrastructur public care conine milioane de secvene de acizi nucleici, proteine i date despre acestea ntr-un mod structurat. Avansarea rapid a tehnicilor de secveniere a biopolimerilor i elaborarea algoritmilor folosii pentru analiza alinierii a determinat mrirea vitezei de cumulare a informaiei n bazele de date (mai mult de 850000 baze pe or). n paralel se accentua i dezvoltarea rapid a resurselor informatice, inclusiv Protein Information Resource, Swiss-PROT, Protein Research Foundation (PRF) i Protein Data Bank (PDB). Dinamica performanei sistemelor de calcul a dus de asemenea la dezvoltarea de noi algoritmi pentru descoperirea structurii i testarea datelor secvenierii. Aceste orientri au continuat n anii 1990 cu nfiinarea centrului National Center for Biotechnology information (NCBI) i organizarea n Europa a institutului European Bioinformatics institute (EBI). n octombrie 1992, NCBI i-a asumat rspunderea pentru GenBank ADN sequence database - prima baz de secvene de nucleotide care rmne i pn astzi cea mai cuprinztoare surs de informaii cu acces liber pentru public. Managementul i sistemul transparent de operare a datelor biologice, la care asistm n ultimii ani, a determinat finalizarea mai multor proiecte de secveniere a genomului, precum i iniierea multiplelor proiecte pentru studiul transcriptome-ului i proteome-ului la diverse organisme, conferind bioinformaticii o importan deosebit n cercetrile la nivel molecular. Caracterul multidisciplinar al bioinformaticii necesit competene n diverse domenii: Biologie Molecular, Genetic, Informatic, Matematic, Tehnici Computaionale, Chimie, Fizic, Inginerie, etc. Bioinformatica, din punct de vedere operaional, include dou domenii mari: instrumentele de calcul i bazele de date, care sunt aplicate n generarea de informaii biologice pentru a nelege mai profund sistemele vii. Instrumentele de calcul includ software-ul pentru scrierea secvenei, analiza structural i funcional, formarea i gestionarea bazelor de date biologice (Fig. 1.2.).
APLICAII
7
Capitolul
Modelarea structurii acidului nucleic Modelarea structurii proteinei Clasificarea struc turii proteinei Compararea struc turii proteinei
Compararea genomului Filogenie Modelarea structurii genei i promotorului Descoperirea motivului Cutarea secvene lor n bazele de date Alinierea secven elor DEZvOLTAREA SOFTuRILOR
Modelarea cilor metabolice Profilul expresiei genelor Modelarea structurii proteinei Modelarea localizrii subcelulare a prote inelor
FORMAREA I COORDONAREA BAZELOR DE DATE
Figura 1.2. Obiective ale bioinformaticii
Bioinformatic este esenial nu numai pentru cercetrile fundamentale ale genomului, dar ctig tot mai mult teren n domeniile aplicative ale biotehnologiei (industriale, agricole, alimentare), tiinelor medicale, farmaceutic (Fig. 1.3.). Studiile computaionale a interaciunii protein - ligand stau la baza crerii noilor medicamente sintetice. Cunoaterea structurii proteice tridimensionale permite crearea proteinelor cu un grad major de afinitate i specificitate pentru receptorii proteinei-int. Aceste realizri reduc semnificativ timpul i costurile necesare pentru a elabora medicamente sau ali compui cu activitate biologic cu mai puine efecte secundare.
Paragraful
8
9
Medicina Tradiional Complementar Agricultura de generaie nou Suplimente alimentare Nutriceutice Bolile tropicale Culturi rezistente la boli
ntr-o baz de date biologic se colecteaz secvene i structuri ale biopolimerilor), informaii obinute din testele de laborator, experimente in silico, in vitro, in vivo etc. BD sunt proiectate ca rezervoare, concepute pentru a stoca date eficient i raional cu scopul sintezei unificate i accesibilitii la noi tipuri de informaii prin standardizarea datelor n diferite BD (Fig. 1.4.).
Publicaii i ontologie Genomuri Expresia genelor Tehnologiile microbiene Biocombustibil Familii de proteine, domenii i motive Interaciuni moleculare Secvenele nucleotidice i proteice Proteomuri Structuri proteice
AGRICULTURA
Culturi nalt productive Substanele naturale
Bioinformatica
Capitolul
SNTATEA
Testrile clinice
BIOTEHNOLOGIA
Compui chimici Ci metabolice
Chimia verde
Instrumentele diagnostice i biomedicale
Vaccinurile
Biomateriale
Enzime/catalize SISTEME BIOLOGICE Figura 1.4. Diversitatea datelor stocate n baze de date genomice
Figura 1.3. Intersectarea tehnologiilor cu diverse ramuri ale biologiei
1.2. Baze de date, diversitate i importan

Baza de date (BD) reprezint o modalitate de stocare a informaiilor i datelor pe un suport cu posibilitatea manipulrii acestora prin intermediul sistemelor de gestiune i accesrii rapide a acestora. Sistemele de gestiune a bazelor de date (SGDB) includ totalitatea programelor utilizate pentru crearea, prelucrarea i ntreinerea bazei de date i conine: module comune cu cele ale sistemelor de operare ale calculatoarelor, module cu funcii specifice. Subsistemele monitor includ programele de control ale perifericelor i sistemul de gestiune al fiierelor. Subsistemele externe sunt alctuite din procesorul de definiie i programul de administrare. ntre utilizator i sistem exist dou interfee: definirea BD i utilizarea BD. Definirea unei baze de date se execut sub controlul procesorului de definiie (PD), capabil s prelucreze programe de descriere, formulate folosind limbaje specializate, cunoscute sub denumirea de limbaje de definiie a datelor (LDD). Cel mai rspndit tip de baze de date este cel relaional n care datele sunt memorate sub form de tabele. O baz de date relaional mai poate conine: indicatori, utilizatori i grupuri de utilizatori, tipuri de date, mecanisme de securitate i de gestiune a operaiilor etc.
Pentru eficiena de accesare a datelor genetice, genomice i proteomice, care sunt att de variate ca coninut i complexitate, se impun urmtoarele criterii pentru o BD (http://nar.oupjournals.org): accesibilitate - pstrarea i gestionarea datelor oferite de cercettori, asigurnd accesul liber la informaie; compatibilitate - acceptarea i utilizarea strict a standardelor unice pentru posibilitatea schimbului, utilizrii i facilitii nelegerii datelor; actualitatea i complexitatea seturilor de date actualizarea prin negociere i transfer permanent de date; portabilitate - accesibilitatea descrcrii seturilor de date i a sistemelor software ntregi pentru utilizarea la nivel local; calitate adnotarea s fie efectuat de biologi de o nalt calificare, iar cea automat s fie supus unui control de calitate foarte riguros. Revista tiinific Nucleic Acids Research (http://nar.oupjournals.org/) public anual lista de baze de date noi i reactualizate, accesibile on-line, care include pentru anul 2010: Biblioteca virtual (Virtual Library) i alte resurse consacrate organismelor model i geneticii cu numeroase referine pe Internet (http://ceolas.org/VL/
Capitolul
10
mo; http://www.nih.gov/science/models/; http://www.ornl.gov/TechResources/Human_Genome/); institutul Naional de Cercetare a Genomului Uman (National Human Genome Research Institute, NHGRI) susine o serie de surse privind genomul (http://www.genome.gov/); departamentul energiei (Department of Energy: DOE) administreaz un site dedicat proiectului de secveniere a genomului uman (http://public.ornl.gov/ hgmis/); portalul ExPASy prezint referine la variate resurse informaionale (http:// www.expasy.org/). n BD se stocheaz informaii privind att secvene genetice individuale, ct i poziia relativ a lor, orientare, prezena /absena funciei acestora. BD a proteinelor nu se limiteaz numai la sinteza i acumularea de secvene proteice, dar ofer i posibilitatea prediciei structurilor 3-D a secvenelor de proteine i funciile acestora, precum i informaii despre genele codificatoare. Cea mai mare baz de date genomic, n care sunt stocate secvenele colectate timp de 25 ani n forma n care au fost determinate, interpretate i publicate de autorii lor, servind ca o punte ntre trecutul i prezentul biologiei moleculare, este GenBank, n consoriu cu NCBI, EMBL, i DDBJ. n cazul proteinelor cele mai multe legturi ntre gene, proteine i funcii se bazeaz pe UniProtKB / Swiss-Prot - sursa central de secvene proteice finanat de Institutul Elveian de Bioinformatic (SIB) n colaborare cu Institutul European de Bioinformatic (EBI). Bazele de date se difereniaz dup tipul de informaii asupra structurilor moleculare, precum i datele suplimentare care descriu secvenele nregistrate (tab. 1.1).
Tabelul 1.1. Resurse principale ale datelor moleculare
BAZA DE DATE, uRL DESCRIERE SuCCINT
11
PROSITE http://expasy.org/prosite nregistrri: 1579 documentate, 1308 patternuri, 888 de profiluri, 883 structuri ProRule (05.2010).
conine informaii stocate de la Universitatea Amos Bairoch din Geneva; structuri la nivel secundar i teriar reprezentate 3D; informaii despre motive i domene din diverse familii proteice.
conine informaii despre structura 3-D a macromoleculelor RCSBPDB biologice obinute prin cristalografia cu raze X, RMN i www.rcsb.org/pdb/home/home.do Cryo-EM. Este gestionat de Universitatea de Stat din nregistrri: 65378 structuri New Jersey i San Diego Supercomputer Center de la (05.2010). Universitatea din California. MGI (Mouse Genome Informatics) www.informatics.jax.org nregistrri: 2982774 secvene nucleotidice, 237923 secvene proteice, 6829181 secvene de transcripi.
Capitolul
n afar de bazele de date de stocare a secvenelor nucleotidelor si proteinelor exist baze de date a glucidelor (The Glycan Structure Database - www.glycosuite. com), lipidelor (The Lipid Bank - lipidbank.jp) i a altor compui chimici (ChemIDplus - http://chem.sis.nlm.nih.gov/chemidplus/) (tab. 1.2.). Informaiile sunt clasificate pe domenii din punct de vedere taxonomic sau/i funcional.
Tabelul 1.2. Baze de date privind diveri compui chimici, organisme i procese fiziologobiochimice
BAZA DE DATE, uRL DESCRIERE SuCCINT
GenBank http://ncbi.nlm.nih.gov/genbank nregistrri: 106533156756 nt n 108431692 secvene, (08.2009).
una din cele mai rapide i mai cunoscute arhive de secvene genetice; are structura unui fiier textual ASCII; fiierele conin informaii privind numere de acces i numele genei, clasificarea filogenetic i referinele la sursa din literatur. baza de date a secvenelor ADN i ARN colectate din literatura tiinific, cereri de brevet i depuse direct de cercettori; colectarea datelor se face n colaborare cu GenBank (SUA) i Baza de Date ADN din Japonia (DDBJ); se dubleaz ca volum de informaie la fiecare 18 luni. baza de date de secvene aminoacidice care ofer un nivel nalt de integrare cu alte baze de date.
International ImmunoGenetics database (IMGT) www. imgt.cines.fr REBASE www. rebase.neb.com CAZy www.cazy.org/CAZY/ MEROPS www. merops.sanger.ac.uk Protein Kinase Resource (PKR) www.pkr.genomics.purdue.edu/pkr/
specializat n Imunoglobuline, receptorii celulelor T, moleculele complexului major de histocompatibilitate (MHC, Major Histocompatibility Complex) a speciilor de vertebrate. baza de date a enzimelor de restricie, ADN metiltransferaze; conine 4990 gene ale proteinelor de restricie i 8080 de gene ale proteinelor de modificare a enzimilor. surs informaional despre enzime implicate n crearea, degradarea i modificarea legturilor glicozidice. baza de date cu informaii despre proteaze. sursa de informaii privind familiile enzimatice ale proteinkinazelor.
EMBL www.ebi.ac.uk/embl nregistrri: 281478752483 nt n 185231366 secvene (03.2010). SwissProt http://expasy.org/sprot nregistrare: 182146551 aa n 517100 secvene (06.2010).
Capitolul
baza de date complet de informaii genetice a oarecelui de laborator; conine cca. 15500 de surse bibliografice.
12
13
Nuclear Receptor Signaling Atlas (NuRSA) www.nursa.org www. senselab.med.yale.edu Clusters of Orthologous Groups (COG) www.ncbi.nlm.nih.gov/COG SwissModel www. swissmodel.expasy.org Class, Architecture, Topology, Ho mologous superfamily (CATH) www.cathdb.info Structural Classification Of Proteins (SCOP) www. scop.mrc-lmb.cam.ac.uk/scop/ National Center for Biotechnology Information (NCBI) www.ncbi.nlm.nih.gov/Structure/ PubMed www.ncbi.nlm.nih.gov/PubMed WormBase www.wormbase.org TAIR www.arabidopsis.org DDBJ www.ddbj.nig.ac.jp ExPASY http://expasy.org/ OMIM www.ncbi.nlm.nih.gov/OMIM Fly Base http://ybase.org HIvdatabases www.hiv.lanl.gov Microarray Gene expression data base www.ebi.ac.uk/microarray SRS http://srs.ebi.ac.uk PIR http://pir.georgetown.edu/pirwww/
sursa de informaii privind receptorii nucleari, coactivatori, corepresori i liganzii lor. baze de date cu informaii ce in de proteinele implicate n procesele neurale, canale de ioni, receptori membranari, neurotransmiteri i neuromodulatori, i receptorii olfactivi. baza de date ce regrupeaz proteinele a cel puin trei linii filogenetice majore ce corespund domenelor conservate ancestrale. server automat care modeleaz omologia structural a proteinelor; accesibil prin serverul ExPASy. furnizeaz clasificarea ierarhic a structurilor domenelor proteice. furnizeaz descrierea relaiilor structurale i evolutive dintre toate proteinele cu structur cunoscut. integreaz n sine instrumentele pentru vizualizare i analiza comparativ. baza de date bibliografic cu peste 19 mln de citaii. baza de date a genomului Caenorhabditis elegans baza de date a genomului Arabidopsis baza de date a secvenelor nucleotidice primare din Japonia baza de date proteomice informaia despre genetica bolilor umane baza de date a genomului Drosophila baza de date a secvenelor HIV i a informaiilor imunologice de specialitate baza de date a DNA microarray i instrumentele de analiz sistem general de cutare a secvenelor stocheaz secvenele proteice adnotate
Dintre numeroasele faciliti oferite de instrumentele bioinformatice i bazele de date putem enumera: identificarea secvenelor similare n fragmentele noi descoperite cu funcie i structur nc necunoscut i secvenele (stocate n baze de date) la care structura i funcia sunt cunoscute; studiul funciei proteinei necunoscute prin intermediul programelor, de ex., PROSITE sau SMART de cutare i extragere rapid a informaiilor existente n bazele de date; analiza structurilor prin efectuarea comparaiei structurii unei proteine necunoscute cu cea a proteinelor din baza de date a structurilor cunoscute. Deseori, proteinele cu structur secundar, teriar i cuaternar similar au aceleai funcii.
Capitolul
1.3. Formate i instrumente de nregistrare a secvenelor

Calculatorul stocheaz informaia secvenelor sub form de rnduri de caractere numite iruri de caractere. Fiecare caracter este depozitat n cod binar n cea mai mic unitate de memorie numit bit, avnd o posibil valoare de 0 sau 1. O structur de opt bii formeaz un octet, numit i bait. Cu opt bii se pot reprezenta toate numerele naturale ntre 0 i 255 (28 = 256). Fiecare din aceste combinaii sunt reprezentate prin echivalentul lor ASCII (American Standard Code for Information Interchange). Unele din caracterele ASCII sunt identice cu caracterele de pe tastatur, altele reprezint caractere speciale i control, de exemplu, semnalizarea sfritului unui ir sau al ntregului text din fiier. Un fiier ce conine numai caractere ASCII este numit fiier ASCII. Toate valorile binare pot fi scrise n format hexadecimal care corespund formatului decimal 0, 1,......, 9 i literelor A, B, .... F. O secven de ADN este de obicei stocat n calculator ca o serie de cuvinte de 8 bii. O secven proteic apare ca o serie de cuvinte de 8 bii n form binar ce corespunde cu literele aminoacidului. Majoritatea din programele de analiz a secvenelor, pe lng faptul c necesit ca secvena de ADN sau protein, s fie fiier ASCII, lucreaz cu fiiere n format special, de exemplu, formatul FASTA (vezi mai jos). Folosirea programelor n ferestre separate a simplificat mult unele probleme, precum copierea din Web browser a unei secvene de pe site-ul Entrez ntr-un program ce execut translarea. Pentru a analiza la calculator secvenele proteice este mai convenabil utilizarea unei singure litere ce desemneaz aminoacidul. De exemplu, GenBank conine nregistrri din secvenele translate, simbolul aminoacidului fiind o singur liter. Pentru unii aminoacizi denumirea de o liter provine de la litera cu care se ncepe denumirea aminoacidului respectiv (de. ex., C pentru cistein), pentru ali aminoacizi este folosit o liter fonetic similar (R pentru Arginin) sau o liter apropiat alfabetic (K,
Capitolul
14
15
Lizin). Una din dificulti este folosirea n soft-uri de analiz a secvenelor cu format diferit (tab. 1.3.). Dei aceste formate reprezint fiiere ASCII, ele se pot deosebi prin prezena unor caractere sau cuvinte care indic unde se pot gsi informaii referitoare la aceast secven. O list mai ampl de formate a secvenelor poate fi gsit pe site-ul http://emboss.sourceforge.net/ docs/themes/ SequenceFormats.html.
Tabelul 1.3. Formatele secvenelor i descrierea lor
FORMATuL DESCRIERE SuCCINT
Capitolul
FASTA PIR MSF CLUSTAL TXT GIF, JPEG, PNG, PDF XML
Formatul de baz. Format de ordine care conine o linie de antet i secvena. Format de ordine similar cu fasta. Format de aliniere multipl a secvenelor. Format de aliniere multipl a secvenelor (funcioneaz cu T-COFEE). Format textual. Format grafic. Nu se utilizeaz pentru a stoca informaii importante. eXtensible Markup Language
Bazele de date de pe portalul NCBI conin informaii cu privire la descrierea fiecrei secvene pe care le conine, referine bibliografice i alte informaii despre funciile standard ale secvenei aminoacizilor corespunztoare secvenei ADN, ARNm, a regiunilor codificatoare i a regiunii mutaiilor importante. Aceast informaie este organizat n cmpuri, fiecare coninnd un identificator aflat la nceputul fiecrui ir de caractere. n unele nregistrri din bazele de date pentru identificatori pot fi folosite abrevieri, (de exemplu RF de la referin) sau identificatorii pot avea subcmpuri (Fig. 1.5.). Subcmpul CDS (CoDing Sequence) n cmpul FEATURES red secvena aminoacidic obinut prin translare a unui cadru de citire deschis potenial cunoscut, de ex., un set consecutiv de cuvinte din trei litere care ar putea fi codoni ce indic consecutivitatea aminoacizilor dintr-o secven de proteine. Programele din calculator presupun automat c aceast secven se afl ntre identificatorii ORIGIN i //.
Figura 1.5. nregistrarea unei secvene de ADN n formatul GenBank
Secvena include numere pe fiecare ir pentru a fi uor detectat de operator. Deoarece numrul secvenei i suma de control (checksum) este folosit de programele de calculator pentru verificarea compoziiei secvenei, aceste numere nu trebuie modificate manual, cu excepia programelor care sunt destinate pentru aceste operaii. Formatul secvenelor folostite de GenBank trebuie deseori schimbat pentru a fi folosite n soft-uri de analiz.
Capitolul
RAW
Format de ordine, care nu conine nici un antet. Spaiul i numerele sunt de obicei tolerate.
LOCUS GU265762 795 bp cRNA linear VRL 01-FEB-2010 DEFINITION Influenza A virus(A/Berlin/109/2009(H1N1)) segment 6 neuraminidase (NA) gene, partial cds. ACCESSION GU265762 VERSION GU265762.1 GI:281313053 DBLINK Project:37813 KEYWORDS . SOURCE Influenza A virus (A/Berlin/109/2009(H1N1)) ORGANISM Influenza A virus (A/Berlin/109/2009(H1N1)) Viruses; ssRNA negative-strand viruses; Orthomyxoviridae; Influenzavirus A. Chariteplatz 1, Berlin 10117, Germany COMMENT Swine influenza A (H1N1) virus isolated during human swine flu outbreak of 2009. FEATURES Location/Qualifiers source 1..795 /organism=Influenza A virus (A/Berlin/109/2009(H1N1)) /mol_type=viral cRNA /strain=A/Berlin/109/2009 /serotype=H1N1 /isolation_source=nasopharyngeal swab /host=Homo sapiens /db_xref=taxon:697595 /segment=6 /country=Germany /collection_date=Oct-2009 /PCR_primers=fwd_seq: gaatccaaaccaaaagataataacc, rev_seq: attcgagccatgccagttatcc /note=lineage: swl ORIGIN 1 gaatccaaac caaaagataa taaccattgg ttcggtctgt atgacaattg gaatggctaa 61 cttaatatta caaattggaa acataatctc aatatggatt agccactcaa ttcaacttgg 121 gaatcaaaat cagattgaaa catgcaatca aagcgtcatt acttatgaaa acaacacttg 181 ggtaaatcag acatatgtta acatcagcaa caccaacttt gctgctggac agtcagtggt 241 ttccgtgaaa ttagcgggca attcctctct ctgccctgtt agtggatggg ctatatacag 301 taaagacaac agtataagaa tcggttccaa gggggatgtg tttgtcataa gggagccatt 361 catatcatgc tcccccttgg aatgcagaac cttcttcttg actcaagggg ccttgctaaa 421 tgacaaacat tccaatggaa ccattaaaga caggagccca tatcgaaccc taatgagctg 481 tcctattggt gaagttccct ctccatacaa ctcaagattt gagtcagtcg cttggtcagc 541 aagtgcttgt catgatggca tcaattggct aacaattgga atttctggcc cagacaatgg 601 ggcagtggct gtgttaaagt acaacggcat aataacagac actatcaaga gttggagaaa 661 caatatattg agaacacaag agtctgaatg tgcatgtgta aatggttctt gctttactgt 721 aatgaccgat ggaccaagtg atggacaggc ctcatacaag atcttcaaaa tagaaaaggg 781 aaagatagtc aaatc //
16 Formatul de secven FASTA

17 Format de secven SwissProt Sequence

Formatul secvenelor FASTA include trei pri (Fig. 1.6.): (1) rndul de comentarii cu indicatorul > n prima coloan, urmat de numele i originea secvenei; (2) secvena cu denumirea de o liter a aminoacidului; (3) optional, * indicnd sfritul secvenei (poate lipsi). Prezena simbolului * poate fi esenial pentru interpretarea corect a unei secvene de ctre soft - urile de analiz. Acest format reprezint un mod foarte convenabil de a copia secvena dintr-o fereastr n alta deoarece n el nu se conin numere sau alte caractere ce nu aparin secvenei, motiv pentru care formatul FASTA este folosit de multe soft-uri de analiz.
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK* Figura 1.6. Formatul secvenelor FASTA
Formatul nregistrrilor din aceast baz de date este similar cu EMBL, cu excepia unei cantiti mai mari de informaie oferite despre proprietile fizice i chimice a proteinei (Fig. 1.8.).
ID AC DE SQ 100K_RAT STANDARD; PRT; 889 AA. Q62671; 100 kDa protein (EC 6.3.2.-). SEQUENCE 889 AA; 100370 MW; DD7E6C7A CRC32; MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN TFLGCIPPNP FEVPLAEAIP LADQPHLLQP NARKEDLFGR PSQGLYSSSA MDRNCLEVLP TKMSYAANLK NVMNMQNRQK KAGEDQSMLA EEADSSKPGP SSLLAEIGLT ESEGPPLTSF RPQCSFMGMV ISHDMLLGRW RLSLELFGRV SILTELGGFE VKESKFRREM EKLRNQQSRD LSLEVDRDRD LLIQQTMRQL TPMAVHRVKV TFKDEPGEGS GVARSFYTAI AQAFLSNEKL PNLDCIQNAN LRNRGERDRE REREREMRRS SGLRAGSRRD RDRDFRRQLS IDTRPFRPAS LPAHRQALGE RLYPRVQAMQ PAFASKITGM LLELSPAQLL LLLASEDSLR VAHGRENGAD SILDLGLLDS SEKVQENRKR HGSSRSVVDM DLDDTDDGDD RGFYTPRPGK NTEARLNCFR NIGRILGLCL LQNELCPITL NRHVIKVLLG FDPVMYESLR QLILASQSSD ADAVFSAMDL AFAVDLCKEE GGGQVELIPN VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV Figura 1.8. Formatul secvenelor SwissProt
Formatul FASTA este similar cu cel al bazei de date NBRF (National Biomedical Research Foundation) ce conine informaii despre proteine, cu excepia simbolului > din primul rnd a primei coloane, urmat de informaia despre secven. Al doilea rnd conine informaie ce permite identificarea secvenei, iar al treilea conine secvena propriu zis.
AMNQQTTLDT HPFFRRSDSM GSGKCLVEVT SAHDVAAQLK FMEDVGAEPG NNHFGRRCAT KGTHTSLMQR EGNPSDDPDP ARVEEAMELI NAPLFYQPGK RKVNWHDFAF GVNIPVTPQN GCGEVNVQML ASEEGFQPMP
Capitolul
Format de secven European Molecular Biology Laboratory Data Library

European Molecular Biology Laboratory Data (EMBL) ntreine bazele de date a secvenelor de ADN i de proteine. EMBL este foarte asemntor cu GenBank. Diferena principal fiind folosirea identificatorului ORIGIN de ctre GenBank pentru a desemna nceputul secvenei, pe cnd EMBL nu conine variante de secvenele translate, fiecare dintre acestea fiind prezentat ca o nregistrare diferit n baza de date. Astfel, formatele date trebuie modificate dup necesitile soft-ului de analiz. Formatul de ieire DDBJ a secvenei ADN este similar cu cel al GenBank (Fig.1.7.).
ID AC PR DT DT DE KW OS OC OC OC OG DR DR SQ Y08501; SV 2; circular; genomic DNA; STD; PLN; 366924 BP. Y08501; Y08502; Project:11796; 17-JAN-1997 (Rel. 50, Created) 30-JUN-2009 (Rel. 101, Last updated, Version 20) Arabidopsis thaliana mitochondrial genome complete genome. Arabidopsis thaliana (thale cress) Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons; rosids; eurosids II; Brassicales; Brassicaceae; Arabidopsis. Mitochondrion UniProtKB/TrEMBL; Q3EC42; Q3EC42_ARATH. UniProtKB/TrEMBL; Q3EC49; Q3EC49_ARATH. Sequence 366924 BP; 102464 A; 82661 C; 81609 G; 100190 T; 0 other; ggatccgttc gaaacaggtt agcctactat aatataagga ttggattcta ataagttcga 60 aacaggttag ccttagccta ctataggatt agatctttct tatcaaccta ctaacttctt 120 ccttgttggg atgagaaacc cttttgcaac caagcgtgct ttgagtttgt caagggaccc 180 atctgcattc agtttcactc tgaaaaccca tttacaaccg agaagattca tgtcaggtga 240 tgcgggaact aagtcccaag tgtgattctg tgttaatgcc gacatctctt cttgcatagc 300 Figura 1.7. Formatul secvenei EMBL
//
Format de secven Genetic Computer Group
Versiunile anterioare ale programului Genetic Computer Group (GCG) erau capabile s lucreze doar cu un singur format al secvenelor GCG. Versiunile mai recente accept i alte formate. Mai nti este redat informaia despre aceast secven i poziia ei n GenBank, urmat de un rnd de informaii despre secven i o valoare de control. Aceast valoare este furnizat pentru controlul acurateii secvenei prin adiia valorilor ASCII. Dac secvena nu a fost modificat, aceste valori rmn constante. n caz c una sau mai multe caractere din secven sunt modificate din greeal, programul va fi capabil sa detecteze aceast eroare datorit prezenei sumei de control (checksum), care nu va mai fi valabil pentru aceast secven. Rndurile informaionale sunt marcate la nceput i sfrit, astfel, sfritul rndului informaional reprezint nceputul secvenei (Fig. 1.9.). Restul textului nregistrrii este analizat de program ca corpul secvenei. Prezena rndului ce conine cifre este determinat de necesitatea de a marca sfritul secvenei, ntruct nu exist simbol special destinat acestui scop. Secvena nu trebuie modificat, excepie fcnd doar programele ce vor schimba i suma de control mpreun cu caracterele secvenei. Formatul secvenelor GCG uneori trebuie modificat prin aplicaii de reformatare n cazul altor soft-uri de analiz.
>P1; ILEC lexa repressor Escherichia coli MKALTARQQEVFDLIRDHISQTGMPPTRAEIAQRLGFRSPNAAEEHLKALARKGVIEIVSS Figura 1.9. Formatul nregistrrii NBRF
//
Capitolul
18 Format de secven Plain/ASCII Staden

19
Acest format de secvene este un fiier care include doar secvena propriu-zis fr alte informaii suplimentare. Este folosit de ctre programul Staden Sequence Analysis (http://staden.sourceforge.net) elaborat de ctre Roger Starden din Universitatea Cambridge. Secvena necesit formatare suplimentar pentru alte programe de analiz.
i sfritul genei, care n combinaie cu modulele de programare, pot fi folosite pentru vizualizarea genei (http://emboss.sourceforge.net/docs/themes/SequenceFormats.html).
##gff-version 2
##source-version EMBOSS 2.2.1 ##date 2002-01-22 ##DNA HSFAU
Format de secven Abstract Syntax Notation

Abstract Syntax Notation (ASN.1) este un limbaj descriptiv. ASN.1 (www.ncbi. nlm.nih.gov/Sitemap/Summary/asn1.html) a fost preluat de NCBI pentru astfel de date ca secvene, informaie taxonomic, structuri moleculare i sursele bibliografice. Formatul ASN.1 este unul foarte bine structurat i elaborat n special pentru a fi accesibil de pe calculator. Include i alte forme de secvene, de exemplu cele din GenBank. Secvenele pot fi accesate n formatul n care se afl n Entrez, cu toate c aceast informaie este mai greu de perceput fr ajutorul calculatorului.
##ttcctctttctcgactccatcttcgcggtagctgggaccgccgttcagtcgccaatatgc ##agctctttgtccgcgcccaggagctacacaccttcgaggtgaccggccaggaaacggtcg ##cccagatcaaggctcatgtagcctcactggagggcattgccccggaagatcaagtcgtgc ##tcctggcaggcgcgcccctggaggatgaggccactctgggccagtgcggggtggaggccc ##tgactaccctggaagtagcaggccgcatgcttggaggtaaagttcatggttccctggccc ##gtgctggaaaagtgagaggtcagactcctaaggtggccaaacaggagaagaagaagaaga ##agacaggtcgggctaagcggcggatgcagtacaaccggcgctttgtcaacgttgtgccca ##cctttggcaagaagaagggccccaatgccaactcttaagtcttttgtaattctggctttc ##tctaataaaaaagccacttagttcagtcaaaaaaaaaa
Capitolul
Format de secven XML

XML este un format de date standard care devine tot mai folosit pentru a transfera date despre genom ntre calculatoare. Acest format const dintr-un ir de cmpuri amplasate sub form de arbore. Marcrile (tag-uri) folosite pentru a defini aceste cmpuri sunt foarte asemntoare cu cele utilizate n HTML pentru paginile Web n browser-e. De exemplu, o secven din GenBank privit din format XML va fi marcat prin <Seq-data> i <\Seq-data>. Secvenele de pe GenBank pot fi accesate n format XML.
Fig.1.11. Formatul secvenelor GFF
Format de secven Genetic Data Environment

Formatul Genetic Data Environment (GDE) este folosit de ctre un sistem elaborat de Steven Smith (http://help.arb-home.de/gde.html). GDE este incorporat ntr-o interfa SEQLAB i este asemntor cu ASN.1 folosit pentru stocarea tuturor tipurilor de informaie despre secven. Fiierul const din cmpuri separate, limitate de paranteze, fiecare avnd rnduri specifice cu un marcaj propriu. Informaia care urmeaz dup fiecare markaj este plasat ntre " ". Astfel de formate precum GCG, plain i staden pot conine doar o singur secven per file, ce nu permite folosirea lor pentru alinierea multipl sau analiza filogenetic. n general, programul de baz care permite lucrul cu cca. 50 de tipuri de formate i derivatele lor este EMBOSS (http://emboss.sourceforge.net). Secvenele sunt nregistrate prin intermediul instrumentelor bioinformatice, de ex., Tbl2asn de pe NCBI. Acesta reprezint un program cu linia de comand, care automatizeaz crearea nscrierilor de secvene pentru nregistrarea n GenBank. n programul dat sunt aplicate multe funcii precum Sequin i genereaz fiierile .sqn pentru nregistrarea n GenBank. Tbl2asn poate fi descrcat de pe ftp://ftp.ncbi.nih.gov/ toolbox/ncbi_tools/converters/by_program/tbl2asn. Este necesar doar de a descrca versiunea corect pentru platforma corespunztoare a calculatorului, de a dezarhiva, redenumi fiierul n tbl2asn i de a configura programul.
Format de secven AceDB

Acest format indic tipul secvenei, urmat de : i de un numr de inventariere sau un numr de acces. Secvena propriu-zis ncepe din rndul al doilea (Fig. 1.10.).
DNA : "HSFAU1" ctaccattttccctctcgattctatatgtacactcgggacaagttctcctgatcgaaaacggcaaaactaaggccccaagtaggaatgccttagttttcggggttaacaatgattaacactgagcctcacacccacgcgatgccctcagc Figura 1.10. Formatul AceDB
Format de secven General Feature Format

Formatul General Feature (GFF) este folosit pentru setul de programe de analiz EMBOSS (Fig. 1.11.). Acest format posed un ir de proprieti distinctive ce permit stocarea unor informaii suplimentare despre secven, de ex., nceputul
Capitolul
20
Se utilizeaz urmtoarele ase tipuri de fiiere de date:
21
Fiierul model (template) conine textul ASN.1, extensia este .sbt submitblock object; Datele despre secvena nucleotidic n formatul FASTA, extensia .fsa; Tabelul de caracteristici, extensia .tbl; Secvena proteic, extensia .pep; Tabel de surs, extensia .src; Scorul de calitate, extensia .qvl. Pentru a opera cu comenzile este propus un set de argumente aplicate n dependen de informaia necesar pentru extragere (http://www.ncbi.nlm.nih.gov/ Genbank/tbl2asn2.html) -p Path to Files [String] -t Template File [File In] -a s FASTA Set (= Batch submission when multiple sequences in the .fsa file) -r Path for Results [String] -V v Validate with Normal Stringency -Z Discrepancy Report Output File [File Out] Sequin este un instrument creat de NCBI pentru nregistrarea i completarea ntrrilor n bazele de date a secvenelor GenBank, EMBL sau DDBJ. Acesta este capabil s manipuleze cu nregistrri simple care conin secvene unice scurte de ARNm i nregistrri complexe ce conin secvene lungi, adnotri multiple, seturi fragmentare de ADN, sau studii filogenetice i populaionale. Sequin 10.0 este disponibil de pe NCBI (http://www.ncbi.nlm.nih.gov/Sequin/ index.html). Poate fi utilizat pe calculatoarele Macintosh, PC/Windows i UNIX. Instruciunile pentru instalarea programului sunt ataate. Programul, mpreun cu documentaia de asisten i ajutor on-line, este disponibil prin FTP anonim. Folosirea Sequin presupune o etap preliminar privind modul de creare a fiierelor Sequin (http://www.ncbi.nlm.nih.gov/projects/Sequin/sequin.hlp. html#OverviewofSequin) care pot fi prezentate sub form tabelar din 5 coloane, i anume (Fig. 1.12.): 1: Start location of feature 2: Stop location of feature 3: Feature key Line2: 4: Qualifier key 5: Qualifier value.
>Feature Sc_16 1 7000 <1 1050
<1
1009
Capitolul
420 420
1253
1253 2626
420 2535
gene locus_tag YPR027C CDS product Ypr027cp note hypothetical protein protein_id gnl|SGD|S0006231 mRNA product Ypr027cp gene gene trnF locus_tag YPR027T
Figura 1.12. Exemplu de fiier Sequin
Un program extrem de folositor n formatarea secvenelor este READSEQ, elaborat de D.G. Gilbert de la Universitatea din Indiana, Bloomington, SUA. READSEQ poate recunoate o secven de ADN sau protein din unul din formate i s le converteasc n alt format. Formatele obinute pot fi folosite pentru alinierea secvenelor multiple sau analizele filogenetice. READSEQ poate fi accesat de pe site-ul Baylor College of Medicine (http://iubio.bio.indiana.edu/soft/molbio/readseq/). Fiierele de date ce conin mai multe secvene, ca, de ex., fiierele folosite pentru alinierea secvenelor multiple i analizele filogenetice sunt supuse convertirii cu uurin. Sunt posibile i opiunile de nlturare a lacunelor i de creare a secvenelor revers-complimentare. SEQIO este un alt program de conversie a formatelor pentru calculatoare cu sistemul de operare UNIX (http://bioweb.pasteur.fr/docs/seqio/seqio.html, http://www. cs.ucdavis.edu/gusfield/seqio.html). n scopuri de conversie se poate folosi i modulul de programe scris n BioPerl care poate face schimbrile de formate descrise. Modu-
Capitolul
[offset=2000] 1253
<1
1050
REFERENCE PubMed 8849441 gene gene ATH1 locus_tag YPR026W CDS product acid trehalase product Ath1p codon_start 2 protein_id gnl|SGD|S0006230 mRNA product acid trehalase
22
lul de programe GCG poate converti prin intermediul aplicaiei from orice format n format propriu GCG, iar aplicaia to permite efectuarea operaiei inverse. Funciile de convertire CGC: FROMEMBLE, FROMFASTA, FROMGENBANK, FROMIG, FROMPIR, FROMSTADEN, TOFASTA, TOIG, TOPIR, TOSTADEN. Module de convertire n formatele GenBak i EMBL nu exist. n afar de aceasta, modulul de programe CGC mai conine programele: GETSEQ, care permite convertirea fiierelor ASCII n GCG; REFORMAT, permite formatarea fiierului CGC recent editat; SPEW, permite transmiterea la alt calculator a secvenelor GCG prin intermediul unui fiier ASCII. Formatele recunoscute de ctre programul de conversie READSEQ sunt: Fasta/ Pearson, Intelligenetics/Stanford, GenBank, National Biomedical Research Foundation (NBRF), European Molecular Biology Laboratory (EMBL), Genetics Computer group (GCG), DNA Strider, Fitch (pentru analize filogenetice), Phylogenetic Inference Package (PHYLIP v3.3, v3.4), Protein Information Resource (PIR sau CODATA), Multiple sequence format (MSF), Abstract Syntax Notation, Phylogenetic Analysis Using Parsimony (PAUP), formatul NEXUS.
23
EXERCIII DE CONSOLIDARE A MATERIALuLuI

Exerciiul 1.1.
n care format este prezentat secven de mai jos?
TCAAGCAGATCACTGTCCTTCGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCATGCAGNCCCCCACCCGCCGNCTTCTGCACCGAGAGAGATGGAATTAAACCCTTGAACCCAGCANANAAAAAAAAGAAATAAAA
Capitolul
Exerciiul 1.2.
Efectuai analiza statistic a secvenei prezentate n exerciiul anterior: determinai lungimea secvenei, calculai coninutul procentual al nucleotidelor. Determinai secvena ARNm i a proteinei care poate fi codificat de aceast secvena.
Exerciiul 1.3.
Accesai paginile Web ale urmtoarelor baze de date: GenBank, RefSeq Nucleotide, EMBL, DDBJ i PDB. Folosind criteriile funcionrii normale a unei baze de date, elaborai tabelul cu caracteristica acestor baze de date. Analizai articolul http://nar.oxfordjournals.org/cgi/content/full/38/suppl_1/ D1. Care sunt direciile de baz BI de analiz a datelor? Dai exemple (3-5) de baze de date ce conin: secvene nucleotidice, secvene proteice, secvene specifice de ARN, date experimentale (de ex., microarray), referine bibliografice.
Exerciiul 1.4.
Analizai bazele de date accesibile online. Prezentai o descriere general a acestora, indicnd sursa (adresa paginii Web), referina la articol, dac sunt de acces public sau nu, tipul de secvene sau alte informaii biologice care sunt stocate.
Exerciiul 1.5.
Efectuai o cutare a instrumentelor de analiz n domeniul bioinformaticii. Descriei n linii generale, indicnd sursa (pagina Web), referina bibliografic, dac sunt cu acces liber sau nu, metoda sau principiul care st la baza analizei datelor.
Capitolul
Indicai cum ar arta aceast secven n formatele EMBL, SwissProt, ASN.1, XML, FASTA.
24
25
Exerciiul 1.6.
Exerciiul 1.7.
Efectuai analiza comparativ a numrului de nregistrri pentru oricare 5 specii model de studiu n raport cu specia Homo sapiens. Reprezentai grafic rezultatele obinute prin utilizarea programului Microsoft Excel sau unui alt program similar.
Exerciiul 1.8.
Analizai glosarul de termeni NCBI pentru a v familiariza cu terminologia utilizat (http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=handbook&part=A1237).
Exerciiul 1.9.
Care sunt instrumentele de baz utilizate pe portalul NCBI? Care din ele pot fi folosite prin intermediul browserului i care pot fi instalate pe calculator? Dai o descriere scurt pentru fiecare din ele.
Exerciiul 1.10.
Analizai programul de nregistrare a secvenelor Sequin, folosind ghidul rapid (http://www.ncbi.nlm.nih.gov/projects/Sequin/QuickGuide/sequin.htm). Fii ateni la un set de termeni (modifier names) care au un sens i modalitate de completare strict i constant n majoritatea bazelor de date. Descriei etapele de baz de nregistrare a unei secvene n BD prin Sequin.
Revista tiinific Nucleic Acids Research http://nar.oupjournals.org/ http://nar.oxfordjournals.org/cgi/content/full/ 38/suppl_1/D1 Virtual Library http://ceolas.org/VL/mo, http://www.nih.gov/science/models/; http://www.ornl.gov/TechResources/ Human_Genome/ National Human Research Institute, NHGRI http://www.genome.gov/ Department of Energy, DOE http://public.ornl.gov/hgmis/ ExPASy http://www.expasy.org/ GenBank http://ncbi.nlm.nih.gov/genbank EMBL www.ebi.ac.uk/embl SwissProt http://expasy.org/sprot PROSITE http://expasy.org/prosite RCSB-PDB www.rcsb.org/pdb/home/home.do Mouse Genome Informatics, MGI www.informatics.jax.org The Glycan Structure Database www.glycosuite.com The Lipid Bank lipidbank.jp ChemIDplus http://chem.sis.nlm.nih.gov/chemidplus/ International ImmunoGenetics database, IMGT http://imgt.cines.fr REBASE http://rebase.neb.com
Class, Architecture, Topology, Homologous superfamily, CATH www.cathdb.info Structural Classification Of Proteins, SCOP http://scop.mrc-lmb.cam.ac.uk/scop/ National Center for Biotechnology Information, NCBI www.ncbi.nlm.nih.gov/Structure/ PubMed www.ncbi.nlm.nih.gov/PubMed WormBase www.wormbase.org TAIR www.arabidopsis.org DDBJ www.ddbj.nig.ac.jp OMIM www.ncbi.nlm.nih.gov/OMIM Fly Base http://flybase.org HIVdatabases www.hiv.lanl.gov Microarray Gene expression database www.ebi.ac.uk/microarray SRS http://srs.ebi.ac.uk PIR http://pir.georgetown.edu/pirwww/ Staden Sequence Analysis http://staden.sourceforge.net EMBOSS http://emboss.sourceforge.net/docs/themes/ SequenceFormats.html http://emboss.sourceforge.net Tbl2asn
Capitolul
Capitolul
Analizai componentele de baz ale paginii centrale NCBI (www.ncbi.nlm.nih. gov) i resursele la care duc link-urile.
REFERINE
26
PrInCIPII dE CUTArE A sECvEnElor n BAzElE dE dATE
27
Capitolul 2.
PRINCIPII DE CuTARE A SECvENELOR N BAZE DE DATE
Organism-model BLAST scor numr de acces valoarea E procent de suprapunere identitate
Figura 2.1. Pagin de referine a portalului NCBI
Capitolul
2.1. Modaliti de cutare a informaiei

Realizarea cu succes a oricrui proiect de cercetare tiinific depinde de capacitatea i deprinderile autorului de a cuta informaii n bazele de date, de a cunoate criteriile de selectare a rezultatelor obinute, analiza lor statistic i empiric, sinteza acestor date privind sistemele cunoscute i cele elaborate etc. Similar cererii de cutare a informaiei dup termini sau categorii prin utilizarea mainelor de cutare cunoscute (Yahoo, Google, AltaVista etc.) este esenial de a identifica cuvintele-cheie, astfel nct cutarea informaiilor n bazele de date s se soldeze cu rezultatul dorit. n calitate de cuvnt-cheie poate servi orice informaie despre obiectul cutrii, precum denumirea completa sau abreviata a moleculei, denumirea speciei, funcia exercitat, esutul n care a fost determinat, autorii care au lucrat cu secvena, etc. Cu ct mai reuit sunt selectate cuvintele cheie, cu att mai specifice vor fi rezultatele cutrii, cu un numr de referine redus. Un alt criteriu important pentru a asigura succesul cutrii se rezum la cunoaterea exact i scrierea corect a denumirii secvenelor sau speciilor. Complexitatea rezultatelor extrase depinde i de gradul de specializare a bazei de date. O informaie multilateral poate fi obinut de pe portalul NCBI, prin cutarea n mai multe baze de date simultan (Fig. 2.1.).
NCBI, n cazul unei cereri de cutare generale, prezint rezultatele corespunztoare cuvintelor-cheie i bazele de date unde au fost identificate. Urmtorul pas const n selectarea bazei de date necesare (PubMed, Entrez, EST, etc.) i analiza rezultatelor obinute, extrgnd din fiecare din ele informaiile de interes. Pot fi identificate cuvinte-cheie noi pentru o cutare mai specific. Instrumentele plasate pe portal permit de a efectua cutarea i identificarea secvenelor necunoscute. Aceasta se face n baza algoritmilor de aliniere, care, folosind principiile de omologie, pot da un rezultat de asemnare a secvenei cutate cu una sau mai multe secvene nregistrate n BD. Manipulrile cu secvenele de nucleotide sau aminoacizi n baza principiilor transcripiei i translaiei, contribuie la lrgirea i flexibilitatea cutrii. Metodele i instrumentele ce permit identificarea unor regiuni funcionale (diferite site-uri, ORF, regiunile intron-exonice, domene proteice etc.) sunt foarte utile n identificarea informaiei (Fig. 2.2.).
Figura 2.2. Exemplul de identificare a regiunilor funcionale din secvene prin programul ORFFinder
Capitolul
28
29
Dezvoltarea tehnicilor de modelare 3D a secvenelor proteice i perfectarea programelor de analiz a gelurilor electroforetice a facilitat cutarea informaiilor prin compararea imaginilor (Fig. 2.3.).
lizate n calitate de organismemodel n cercetarea mai multor procese i componente moleculare. Organismele-model sunt bine studiate, fapt determinat de o serie de caracteristici ale speciei, de ex., ritm de cretere i dezvoltare rapid, nu necesit condiii stringente de mediu, uor de analizat n cadrul laboratorului i posed un ir de avantaje experimentale (tab. 2.1.).
Tabelul 2.1. Lista organismelor model (http://www.ncbi.nlm.nih.gov/genomeprj)
SPECIILE Cu GENOM SECvENIAT
virusuri Prokariote Figura 2.3. Prezentare a unei structuri proteice 3D (Human erythrocyte catalase, P04040) i a unui profil de electroforez 2D Eukariote unicelulare Eukariote pluricelulare vertebrate
Fagul , X174, Virusul Mozaic al Tutunului (VMT) Escherichia coli, Bacillus subtilis, Caulobacter crescentus Chlamydomonas reinhardtii, Saccharomyces cerevisiae, Dictyostelium discoideum Aspergillus nidulans, Neurosporum crassa, Caenorhabditis elegans, Drosophila melanogaster, Ciona intestinalis, Arabidopsis thaliana, Zea mays, Medicago truncatula, Oryza sativa, Populus trichocarpa Danio rerio, Takifugu rubsipes, Xenopus laevis, Cavia porcellus, Gallus gallus domesticus, Felis cattus, Canis lupus familiaris, Mus musculus, Ratus norvegicus, Rhesus macaque
Capitolul
Datorit faptului, c fiecare nregistrare n orice BD este unical i i se atribuie aa numitul numar (cod) de acces, care reprezint identificatorul secvenei/nregistrri, stocarea datelor este strict determinat i nu haotic. Totodat, informaia cutat poate fi lincat dup sensul su biologic cu alte nregistrri din aceeai sau alt BD. De ex. fiecare gen din BD al NCBI posed un numr de acces, care poate fi de forma NG_XXXX i este lincat semantic cu secvena ARNm, ce posed numrul de acces de forma NM_XXXX. Ambele numere de acces sunt lincate cu informaia privind proteina codificat prin numrul de acces de tipul NP_XXXX. Mai mult ca att, numrul de acces al secvenei genei are legtura cu cel al secvenei cromosomului (sau secvena ntreag a moleculei de ADN n cazul Procariotelor), care este de forma NC_XXXX. Astfel, cutarea anumitor date solicit o serie de operaii oferite de bazele de date. Un alt aspect al cutrii informaiilor este interconectarea bazelor de date ntre ele. Astfel, practic orice secven nregistrat face referina la autorii articolului n care a fost descris. Referinele la toate articole, abstractul i linkul, ctre baza de date extern unde acest articol este stocat, se afl n baza PubMed. n ultimii ani sunt elaborate standarde pentru crearea i completarea bazelor de date, ceea ce faciliteaz operarea ntre ele. Exist echipe de cercetare care analizeaz minuios secvenele nregistrate reducnd volumul de date prin eliminarea nregistrrilor duplicate sau a celor dubioase, rearanjarea lor ntr-o form mai accesibil etc. Totodat, aceasta faciliteaz analiza explorativ a datelor pentru identificarea i valorificarea cunotinelor. Astfel, apar resurse, care devin n calitate de referin pentru alte tipuri de analize sau create dup un singur domeniu, precum Prostate Gene DataBase, Diatom EST database, Kidney Gene Database etc. Astzi, bazele de date reprezint un element esenial de informare i documentare a activitii oricrui laborator, ceea ce impune specialistul n domeniul biologiei contemporane sa-i dezvolte deprinderi de lucru cu ele. Dezvoltarea accelerat a tehnologiei de obinere a secvenelor i adnotarea lor a dus la completarea informaiilor despre o serie de genomuri a diferitor specii, care sunt uti-
n funcie de scop i obiectivele cercetrii se apeleaz la baza de date a unui organism model care poate fi inclus trivial n trei categorii (http://genome.wellcome.ac.uk/ doc_WTD020803.html): model de studii genetice utilizate n cercetri genetice graie faptului c pot fi obinute n numr mare, ntruct au o perioada scurt a unei generaii, pot fi urmrite pe parcursul mai multor generaii. Mutanii acestora dup diverse caractere sunt accesibili n baza de date si pot fi analizai. Astfel de exemple includ: drojdia (Saccharomyces cerevisiae), musculia de oet (Drosophila melanogaster), viermele nematod Caenorhabditis elegans. model de studii experimentale au o perioad lung a unei generaii i nivel mic de acoperire n cartarea genetic ceea ce le dezavantajeaz ca modele de studii genetice, ns prezint unele faciliti n observaiile experimentale. De ex., embrionii de gina i broasca african Xenopus laevis sunt uor de studiat i de manipulat spre deosebire de organismele mature. model de studii genomice unele specii sunt selectate n calitate de organisme model, indiferent de avantajele sau dezavantajele din punct de vedere al analizelor experimentale sau genetice. Acestea au o poziie evolutiv important sau posed unele caracteristici ale genomului, ideale pentru studii. Un exemplu este petele Fugu rubripes, care posed o serie de gene similare celor umane, ns un genom cu mult mai mic 4x108 pb comparativ cu cel uman de 3x109 pb caracteristic prin mult ADN repetitiv, segmente intergenice i introni mai lungi. Informaii privind organismele model pot fi extrase din bazele de date generale, portalul NCBI sau de pe site-urile specializate ale proiectelor genomice (tab. 2.2.).
Capitolul
30
31
Tabelul 2.2. Resurse WEB privind genomul unor organisme (David W. Mount. Bioinformatics. Sequence and genome analysis. Cold Spring Harbor, New York, 2004, 665 p.)
PROIECTE PRIvIND GENOMuL LA: ADRESE WEB
procariot anumit (frecvena codonilor, frecvena codonilor vecini) este posibil de a prognoza localizarea fragmentului. Unul din criteriile de poziionare corect a fragmentului cercetat n genele eucariotelor este determinat de prezena intronilor.
SECVENE ADN DE INTERES
Homo sapiens Mus musculus Drosophila melanogaster Caenorhabditis elegans Genomul diferitor parazii Escherichia coli Arabidopsis thaliana Oryza sativa Saccharomyces cerevisiae
www.ornl.gov/sci/techresurces/Human_Genome/home.shtml http://www.genome.uscs.edu/goldenPath/hgTracks.html http://www.genome.gov/ http://www.informatics.jax.org/ www.ybase.org http://www.wormbase.org/ http://www.ebi.ac.uk/parasites/parasite-genome.html http://www.genome.wisc.edu/ http://www.arabidopsis.org/ http://www.rgp.dna.affrc.go.jp/ http://yeastgenome.org http://www.cshl.org/; http://www.ensembl.org/; http://molbio. info.nih.gov /db.html; http://www.ncbi.nlm.nih.gov/; http://genome-www.stanford.edu/ http://www.tigr.org/; http://www.sanger.ac.uk/; http://www.jgi.doe.gov/; http://genome.wustl.edu/; www.broadinstitute.org Secvene repetitive
Structur i funcie, model proteic Microarray Secveniere Electroforez Cromatografie Spectrometrie de mas etc.
Localizare n genom
Capitolul
Genomul diverselor cereale http://www.gramene.org/
RESURSE I INSTRUMENTE BIOINFORMATICE Genomica funcional Genomica structural Genomica comparativ
Alte proiecte genomice
2.2. Aspecte privind analiza bioinformatic a secvenelor de interes

Existena unui numr mare de resurse informaionale permite efectuarea diferitor analize bioinformatice fundamentale, incluznd o serie de etape i strategii conform obiectivelor i design-ul experimental propus de cercettor (Fig. 2.4.). Odat ce s-a identificat secvena cu care se va efectua cercetarea bioinformatic, urmeaz studierea acesteia prin analiza comparativ prin resursele de secvene a speciilor de interes sau a celor model (Fig. 2.5, 1), necesar pentru a identifica prezena consecutivitii de nucleotide, care se repet n cadrul acestui fragment (Fig. 2.5, 2). Acestea pot corespunde regiunilor centromere, telomere sau repetri de tandemuri (satelii, minisatelii sau microsatelii). Urmtoarea activitate ar fi legat de depistarea genei, utiliznd un complex de metode care prin comparare direct sau indirect cu secvenele cunoscute ofer informaii despre aspectele funcionale ale acestui fragment (Fig. 2.5, 3). Studierea genelor la organismele procariote este cu mult mai simpl, deoarece acestea nu posed introni. Odat ce s-au determinat caracteristicele fragmentului pentru un organism
Structuri ortoloage / paraloage
Forme mutante Promotori Factori de transcripie Domene
Clusterizare Analiz filogenetic
CI DE SEMNALIZARE, REELE DE GENE Figura 2.4. Prezentare schematic a conexiunilor n analiza secvenei de interes prin compararea informaiei privind organismele model i resursele de secvene
n dependen de secvena precutat este necesar de a identifica metodologia corespunztoare (Fig. 2.5, 4). Astfel, secvenele de ADNc sau EST (Fig. 2.5, 5) pot fi studiate prin microarray (Fig. 2.5, 7) n baza informaiilor cunoscute despre genom att pentru specia de interes, ct i pentru speciile model nrudite sau distanate filogenetic (Fig. 2.5, 6). Prezena unor astfel de secvene atest faptul c fragmentul precutat face parte din ADN ce se expreseaz. Analiza expresiei prin microarray ofer o imagine global despre expresia genelor la diferite etape a ciclului celular sau a ontogenezei i poate caracteriza secvenele implicate n aceeai cale de semnalizare sau cicluri metabolice.
Capitolul
ADN ARN EST Proteine Metabolii
32
33
Secvena ADN1 Ajustarea metodelor, dac e necesar4 Electroforeza 2D a proteinelor4
Secvene repetitive4
Prezicerea genelor3 Secvenele EST i ADNc5
Localizarea genelor3
Proteoliza i secvenierea fragmentelor11
Capitolul
Reglarea i cile metabolice9
Auto compararea proteomului15
Genomica comparativ18
Analiza promotorilor8
Genomica funcional12
Familii de parologi16
Identificarea ortologilor19
2.3. Analiza BLAST

Analiza BLAST (Basic Local Alignment Search Tool) este considerat de facto un standard n procedura de cutare i aliniere. Bazat pe un algoritm extrem de avansat a devenit foarte popular datorit disponibilitii, vitezei i preciziei de analiz. O cerere BLAST identific secvenele omoloage prin cutarea n mai multe baze de date i suport diferite configuraii de platform ale calculatorului. Acest algoritm poate fi utilizat i pentru bazele proprii de date. Instalarea programului este disponibil de pe adresa www.ncbi.nlm.nih.gov/BLAST/download.shtml. Analiza BLAST este aplicat pentru: identificarea regiunii/genomului/speciei care conin secvenele de ADN i proteice necunoscute, luate n studiu; identificarea prezenei unor domene cunoscute n structura secvenelor analizate; presupunerea utilizrii secvenelor pentru o analiz filogenetic; analiza succesiunii unei gene de la o specie cunoscut pentru a identifica poziia ei pe cromozom; adnotarea secvenelor. BLAST identific secvenele omoloage pe baza similaritii unor fragmente scurte la solicitarea utilizatorului, prezentnd rezultatele sub forma unui raport al secvenelor omoloage gsite i alinierile locale cu secvenele cercetate. Totui BLAST nu ofer o aliniere cu o valoare optimal ceea ce duce la omiterea unor rezultate. Pentru a mri preciza de analiz poate fi utilizat un alt algoritm - Smith-Waterman.
Analiza familiilor sau domenelor proteice17
Identificarea clusterilor de gene funcional nrudite20
Figura 2.5. Strategia general complex de explorare a resurselor informaionale (David W. Mount. Bioinformatic. Sequence and genome analysis. Cold Spring Harbor, New York, 2004, 665 p.)
Totodat, se studiaz secvenele reglatoare, precum promotorii, pentru fragmentul dat (Fig. 2.5, 8), se identific factorilor de transcripie asociate cu funcionarea regiunii date. Dup ce s-a efectuat analiza comparativ la nivelul ADN, urmeaz determinarea funciei acestei regiuni, prin identificarea funciei ei n cadrul metabolismului (Fig. 2.5, 9), prin cercetarea proteomului (Fig. 2.5, 10, 11) sau n baza principiilor genomicii funcionale (Fig. 2.5, 12). Utilizarea metodelor biochimice sau imunologice ofer cazurile de modificare a nivelului de proteine specifice ca rspuns la influena mediului. Comparativ cu metoda microarray, electroforeza bidimensional a profilului proteic detecteaz multitudinea de produse translate. Studierea mai profund a lor presupune combinarea clivrii proteolitice cu secvenierea aminoacizilor i studiile prin mass
Capitolul
Analiza microarray7
Informaii despre genom6
Harta genelor14
spectroscopie sau HPLC. Genomica funcional, bazat pe obinerea mutanilor pentru genele particulare permite testarea funciilor secvenei respective, prin observarea expresiei sau funciei proteinelor codificate de ele. n rezultat, se cerceteaz paralogia i ortologia secvenei de interes (Fig. 2.5, 15-17, 18-19), prin contrapunerea structurii i funciei acesteia. Analizele respective n bazele de date pentru ADN i proteine in de cutarea domenelor sau motivelor funcionale i structurale similare la alte nregistrri. n cazul cnd nivelul de informare despre genele i genomul speciei cercetate este suficient pentru a identifica locul genei sau secvena pe harta genetic (Fig. 2.5, 1314), poate fi fcut analiza funcional ntre genele nrudite (Fig. 2.5, 20), iar acestea pot fi urmate de analize filogenetice. Strategia de cercetare a genelor, a grupurilor de gene sau integral al genomului difer n funcie de informaiile existente la moment, de accesibilitatea informaiei i de competenele cercettorului. Succesul unor astfel de cercetri este asigurat doar de o bun colaborare ntre diferite laboratoare tiinifice n scopul completrii reciproce, evitrii erorilor posibile i coordonrii cercetrilor la nivel global. Instrumentele bioinformatice i analizele in silico pot facilita realizarea proiectelor reducnd semnificativ costul unor importante resurse umane i financiare, ns rezultatul tiinific este unul ipotetic i devine real doar dac este demonstrat experimental.
34
35
n calitate de secvene de intrare pot fi secvene de ADN, ARN sau proteine, care pot fi comparate cu tipul similar de secvene sau ntre diferite tipuri, care se iau din bazele de date respective. n dependen de scopul investigaiei pot fi utilizate diferite forme ale programului BLAST: blastn, blastp, blastx, blastn, tblastx (tab. 2.3.).
Tabelul 2.3. variante de analiz BLAST i modalitile de lucru
ANALIZA BLAST SECvENA ANALI ZAT BAZA DE DATE MOD DE COMPARAIE
Capitolul
Cele mai frecvent utilizate sunt blastn pentru compararea secvenelor nucleotidice i blastp n cazul secvenelor aminoacide. Rezultatele comparrii nucleotide aminoacizi pot fi mbuntite dac secvena nucleotidic niial se convertete n cea aminoacidic, dup care urmeaz analiza de tipul blastp. Un alt avantaj este i faptul c se poate presupune proteina cu o anumit secven de aminoacizi reieind din succesiunea nucleotidic a genei secveniate. Indiferent de tipul BLAST aplicat, prezentarea rezultatelor are un aspect grafic similar o fereastr din trei panouri orizontale (Fig. 2.6.): primul panou Graphic Summary, din partea de sus a ferestrei reprezint o imagine grafic a suprapunerii secvenelor n regiunile cu cea mai mare grad de similaritate. Secvenele sunt reprezentate prin diferite culori, n dependen de gradul de asemnare. De exemplu, culoarea neagr indic un scor de similaritate mai mic de 40, iar cea roz un scor maximal mai mare de 200. panoul Description este prezentat sub forma unui tabel cu rezultate structurate conform urmtoarelor categorii: numrul de acces (Accession), descrierea (Description), scorul maximal al alinierii (Max. score), scorul total (Total score), procentul de suprapunere a secvenelor aliniate (Query coverage), valoarea coeficientului E (E value), procentul de identitate (Max. ident.) i link-ul ctre baza de date cu referin la secvena indicat (Links). Dac primele dou coloane sunt descriptive, urmtoarele reprezint criterii calculate i cele statistice care pot fi aplicate pentru selectarea rezultatelor. al treilea panou Alignments indic numrul de acces, succesiunea nucleotidic a secvenei, dimensiune, scorul n bii, numrul i procentul de identitate, numrul de lacune, orientarea catenelor suprapuse, regiunile de suprapunere a secvenelor.
Figura 2.6. Aspect grafic al ferestrei de prezentare a rezultatelor analizei BLAST
Citirea rezultatelor poate fi fcut prin interpretarea uneia dintre valorile indicate n tabel, precum scorul sau procentul de similaritate. Este important de a nelege semnificaia valorii E, care poate fi modificat pentru a spori gradul de rezoluie a rezultatelor. O valoare E mai mic indic rezultate mai bune. Acest indice exprim numrul de scoruri ale alinierii locale dintre secvena cercetat i cele aliatorii sau nenrudite. Valoarea E depinde de lungimea secvenei, numrul de secvene n baza de date i tipul sistemului de calculare a scorului i se calculeaz prin distribuia probabilitilor pentru valorile extreme, corectate pentru numrul de secvene din baza de date. n evaluarea alinierii locale dintre dou secvene, o secven poate fi analizat de mai multe ori, iar apoi realiniat cu o alt secven pentru a determina limitele scorurilor ateptate dintre secvenele nenrudite. Secvenele scurte pot avea o valoare E nalt, fapt pentru care se consider un rezultat fals positiv, de exemplu, n cazul unui primer sau unei regiuni scurte de domen etc. Diferite valori ale indicelui E n analiza BLAST indica: E < 10e-100 secvene identice pe un segment lung de aliniere; 10e-50 < E < 10e-100 secvene aproape identice; fragmente lungi ale secvenei cercetate sunt identice cu secvenele din bazele de date; 10e-10 < E < 10e-50 secvene asemntoare, ar putea fi o coinciden sau domeniu similar. E > 1 secvenele nu au nimic comun. E >10 micele coincidene pot fi rezultatul unor erori de determinare sau de citire a secvenei.
Capitolul
blastn blastp blastx blastn tblastx
nucleotide proteine proteine nucleotide nucleotide
nucleotide proteine nucleotide proteine nucleotide
Nucleotida nucleotida Protein protein Protein protein translat Protein translat protein Protein translat protein translat
36
BLAST pune la dispoziie si alte aplicaii de ex.: Primer-BLAST pentru disign-ul secvenelor primer specifici (http://www. ncbi.nlm.nih.gov/tools/primer-blast/); Cutarea arhivelor de secvene urme (Trace Archives) http:// b l a s t . n c bi . n l m . n i h . g ov / B l a s t . c g i ? P R O G R A M = b l a s t n & B L A ST _ SPE C = Tr a c e Arch ive & BL AST _ PRO G R A M S = me g a Bl ast & PAG E _ TYPE=BlastSearch); Identificarea domenelor conservate (cds) n secvenele de interes (http://www. ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi) Identificarea secvenelor cu arhitectura domenelor conservate (cdart) similare (http://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps) Cutarea secvenelor cu profiluri de expresie a genelor (Gene Expression Profiles, GEO) (http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_ SPEC=GeoBlast&BLAST_PROGRAMS=megaBlast&PAGE_ TYPE=BlastSearch) Cutarea imunoglobulinelor (IgBLAST) (http://www.ncbi.nlm.nih.gov/igblast/) Cutarea SNP-urilor (snp) (http://www.ncbi.nlm.nih.gov/SNP/snp_blastByOrg.cgi) Scanarea secvenelor pentru a determina contaminarea cu vectori (vecscreen) (http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html) Cutarea bibliotecilor de transcripi (http://blast.ncbi.nlm.nih.gov/Blast. cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_ TYPE=BlastSearch&BLAST_SPEC=SRA) Instrumentul de aliniere multipl Constraint Based Protein Multiple Alignment Tool (COBALT) (http://www.ncbi.nlm.nih.gov/tools/cobalt/cobalt. cgi?link_loc=BlastHomeLink) Actualmente sunt elaborate i alte programe / subprograme care faciliteaz interpretarea i completeaz rezultatele analizei BLAST. De ex., instrumentul BLAT, care se consider mai exact i de cca. 500 ori mai rapid dect alte instrumente de aliniere a secvenelor ARNm/ADN i de cca. 50 ori mai rapid n alinierea proteinelor secvenelor vertebratelor.
37
Exerciiul 2.1.
Folosind secvena propus n Exerciiul 1.1 ncercai s realizai o scanare n bazele de date propuse n tab. 2.12. Determinai specia care conine secvena analizat. Ce codific secvena dat? Ce rezultate ai obinut? Cu care secven nucleotidic este similar secvena dat? Care este proteina codificata de secvena dat?
Exerciiul 2.2.
Capitolul
Exerciiul 2.3.
Analizai tabelul cu rezultate obinut. Observai c rezultatele sunt grupate n dou categorii (Transcripi i Secvene genomice). Ce reprezint setul de rezultate pentru fiecare din categorii i care secvene sunt prezentate n ele? Indicai parametrii ce demonstreaz asemnarea secvenei de interes cu primul rezultat din fiecare categorie inclusiv valorile lor? Explicai de ce rezultatul pentru prima secven de asemnare din categoria Transcripi este mai optimal, dac secvena a doua i a treia se caracterizeaz printr-un procent de similaritate mai nalt? Analizai ultima secven din categoria Transcripi cu caracteristici mai joase de asemnare, procentul de acoperire de 5% i procentul de identitate 92%. Explicai cauza similaritii identificate pentru cele dou secvene? Explornd paginile respective, argumentai rspunsul.
Exerciiul 2.4.
Care este numrul de acces din GeneID pentru primul rezultat din categoria Transcripi? Ce descrie pagina respectiv? Realizai o descriere complex a secvenei date dup parametrii indicai: simbolul i denumirea oficial a secvenei, bazele de date de referin (See related), regiunea genomic, transcripii, localizarea n genom, numrul de referine bibliografice, numrul de markeri pentru secvena dat, la care fenotip a fost descris, numrul de SNP-uri asociate cu secvena dat, speciile la care aceasta este omoloag, cile metabolice n care a fost descris, funciile i procesele n care particip, codurile de acces pentru regiunea genomic, secvena ARNm i produsul codificat.
Exerciiul 2.5.
Efectuai o analiz BLAST pentru a identifica secvene proteice similare cu secvena de interes. Ce variant BLAST o s aplicai? Care proteine corespund secvenei nucleotidice? Explicai diferena ntre acestea.
Capitolul
Efectuai analiza BLAST (blastn) a acelorai secvene. Comparai rezultatul din Exerciiul 2.1 cu cel obinut. Analizai graficul rezultatelor. Cte rezultate ai obinut? Care este lungimea secvenei de aliniere pentru cel mai bun rezultat de asemnare din grafic? Care este procentul de acoperire pentru cel mai bun rezultat? Care este valoarea E? La care baze de date se face referina n coloana Links? Cte specii conin secvenele care au demonstrat similaritate cu secvena de interes?
38
39
David W. Mount. Bioinformatics. Sequence and genome analysis. Cold Spring Harbor, New York, 2004, 665 p. BLAST www.ncbi.nlm.nih.gov/BLAST/download.shtml Primer-BLAST (http://www.ncbi.nlm.nih.gov/tools/primer-blast/ Trace Archives http://blast.ncbi.nlm.nih.gov/Blast. cgi?PROGRAM=blastn&BLAST_ SPEC=TraceArchive&BLAST_ PROGRAMS=megaBlast&PAGE_ TYPE=BlastSearch CDS http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi CDART http://www.ncbi.nlm.nih.gov/Structure/lexington/ lexington.cgi?cmd=rps GEO http://blast.ncbi.nlm.nih.gov/Blast. cgi?PROGRAM=blastn&BLAST_ SPEC=GeoBlast&BLAST_ PROGRAMS=megaBlast&PAGE_ TYPE=BlastSearch IgBLAST http://www.ncbi.nlm.nih.gov/igblast/ SNP http://www.ncbi.nlm.nih.gov/SNP/snp_blastByOrg.cgi Vecscreen http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html SRA http://blast.ncbi.nlm.nih.gov/Blast. cgi?PROGRAM=blastn&BLAST_ PROGRAMS=megaBlast&PAGE_ TYPE=BlastSearch&BLAST_SPEC=SRA Constraint Based Protein Multiple Alignment Tool, COBALT http://www.ncbi.nlm.nih.gov/tools/cobalt/cobalt. cgi?link_loc=BlastHomeLink Altele http://genome.wellcome.ac.uk/doc_WTD020803.html www.ornl.gov/sci/techresurces/Human_Genome/ home.shtml http://www.genome.uscs.edu/goldenPath/ hgTracks.html http://www.genome.gov/ http://www.informatics.jax.org/ www.flybase.org http://www.wormbase.org/ http://www.ebi.ac.uk/parasites/parasite-genome.html http://www.genome.wisc.edu/ http://www.arabidopsis.org/ http://www.rgp.dna.affrc.go.jp/ http://www.gramene.org/ http://yeastgenome.org http://www.cshl.org/; http://www.ensembl.org/; http://molbio.info.nih.gov /db.html; http://www.ncbi.nlm.nih.gov/; http://genome-www.stanford.edu/ http://www.tigr.org/; http://www.sanger.ac.uk/; http://www.jgi.doe.gov/; http://genome.wustl.edu/; www.broadinstitute.org
Analizai tabelul de rezultate. Determinai numrul de specii pentru care au fost gsite similariti. Selectai referina pentru precursorul proinsulinic uman. Notai numrul ei de acces. Care este lungimea proteinei identificate? Comparai cu secvena iniial nucleotidic i descriei ce diferene ai observat. Explicai de ce ele sunt prezente.
REFERINE
Exerciiul 2.6.
Aplicnd cunotinele din Biochimie i Genomic despre structura genei i proteinei pentru secvena de interes, explicai divergenele prezente cu rezultatele obinute. Analizai structura secvenei codificatoare (CDS).
Exerciiul 2.7.
Capitolul
Exerciiul 2.8.
n baza secvenei de ADN propuse si n baza secvenei de protein efectuai analize aplicnd alte variante de BLAST. Analizai rezultatele din punctul de vedere al asemnrii acestora la nivel nucleotidic i la cel aminoacidic. Explicai de ce rezultatele similaritailor la nivel de ADN (ARN) nu sunt la fel ca i cele de la nivelul de protein.
Exerciiul 2.9.
n baza secvenei analizate elaborai o serie de primeri. Care aplicaie vei folosi? n baza cunotinelor obinute la cursul de Genomic, observai care parametrii de baz pentru elaborarea primerilor sunt utilizai? Explicai de ce. Descriei rezultatele, identificnd perechea de primeri din care rezult cel mai mare i cel mai mic amplicon. ncercai s modificai parametii indicai.
Exerciiul 2.10.
Accesai baza de date a secvenelor EST. Identificai o specie de interes i extragei o secven cu lungimea de cca. 100-150 nt. Cu ajutorul schemei din Fig. 2.5. realizai o investigare a secvenei selectate. Pe parcurs, observai care din acestea au fost posibil de realizat i care nu. n cazul n care n schem se face referin la careva metod de laborator utilizai bazele de date, care deja conin rezultate obinute prin aplicarea metodelor respective, de ex. rezultatele aplicrii metodei microarray sunt stocate n baza de date GEO de pe portalul NCBI. Alctuii un tabel cu etapele de lucru i completai n el coloanele ce corespund bazelor de date sau instrumentelor utilizate. Rezultatele le prezentai n forma electronic sub form de raport cu trei compartimente: descrierea secvenei selectate pentru analiz n baza rezultatelor obinute, schema etapelor de lucru i tabelul cu bazele de date i instrumentele utilizate.
Capitolul
Utiliznd secvena proteic obinut, aplicai BLAST pentru a identifica proteinele similare. Odat cu activarea BLAST o s observai apariia unei scheme suplimentare care ofer descrierea unui domen conservat. Crei familii de domene aparine domenul din secvena analizat? Comparai vizual structurile de domen rezultate prin plasarea cursorului peste ele. n tabelul aprut mai jos, selectai rndul ce corespunde domenului indicat n schem ca Specific hits i extragei structura acestui. Prin ce difer acesta de domenul identificat n secvena de interes?
40
extrem de numeroase, ce nu poate fi efectuat manual. n acest caz sunt aplicaii algoritmice pentru a produce aliniamentele de nalt calitate i, ocazional, n ajustarea rezultatelor finale. Compararea secvenelor este una dintre cele mai dificile sarcini n bioinformatic i problema nu este rezolvat n totalitate, la moment existnd mai multe soluii (tab. 3.1.).
Tabelul 3.1. Metode de analiz a secvenelor
METODA DOMENIu DE APLICAREA
41
AnAlIzA PErECHIlor dE sECvEnE PrIn AlInIErE
Capitolul 3.
ANALIZA PERECHILOR DE SECvENE PRIN ALINIERE
Matrice scor gap penalitate ClustralW dot plot Blast2seqs Protal2dna
Matrice (Dot plot)
Analiza general a secvenei; Determinarea repetrilor; Identificarea inseriilor i deleiilor lungi; Extragerea poriunilor de secvene pentru aliniamentele multiple. Compararea secvenelor cu omologie parial; Efectuarea aliniamentelor de nalt calitate; Efectuarea analizelor aa per aa. Compararea a dou secvene pe toat lungimea; Identificarea inseriilor / deleiilor lungi; Verificarea calitii datelor; Identificarea fiecrei mutaii n secven.
Capitolul
Aliniere local
Aliniere global
3.1. Modele de aliniere a secvenelor. Alinierea global i local

Analiza perechilor de secvene face parte din metodele de baz n analiza bioinformatic i reprezint primul pas spre analiza structural i funcional a secvenelor noi. Analiza de aliniere a perechilor de secvene se realizeaz prin comparaia caracteristicilor comune i stabilirea nucleotidelor i resturilor de aminoacizi. ntr-o matrice de aliniere secvenele, de obicei, sunt reprezentate sub form de rnduri. Lacunele sunt nserate ntre reziduuri, astfel, nct caracterele identice sau similare sunt aliniate n coloane succesive (Fig. 3.1.)
AAB24882 AAB24881 TYHMCQFHCRYVNNHSGEKLYECNERSKAFSCPSHLQCHKRRQIGEKTHEHNQCGKAFPT -------------------YECNQCGKAFAQHSSLKCHYRTHIGEKPYECNQCGKAFSK ****: .***: * *: ** * : ****.:* *******.. 60 40
Alinierea la nivel global prevede studierea a dou secvene care urmeaz s fie aliniate pe toat lungimea. Alinierea este efectuat de la nceputul pn la sfritul ambelor secvene pentru a gsi cele mai bune posibiliti de aliniere pe ntreaga lungime ntre dou secvene. Aceast metod este mult mai aplicabil pentru alinierea a dou secvene de aproximativ aceeai lungime. Pentru secvene divergente i secvene de lungimi variabile, aceast metod poate s nu fie eficient ca s genereze rezultate optime, pentru c nu reuete s recunoasc regiunile locale foarte asemntoare ntre cele dou secvene. Alinierile locale, pe de alt parte, nu presupun faptul c dou secvene n cauz au similaritate pe ntreaga lungime. Ea doar constat regiuni locale, cu cel mai nalt nivel de similaritate ntre cele dou secvene i aliniaz aceste regiuni. Aceast abordare este mai potrivit pentru alinierea secvenelor biologice divergente (Fig. 3.2.).
ALINIEREA GENERAL A SECvENEI ALINIEREA LOCAL A SECvENEI
AAB24882 AAB24881
PSHLQYHERTHTGEKPYECHQCGQAFKKCSLLQRHKRTHTGEKPYE-CNQCGKAFAQ- 116 HSHLQCHKRTHTGEKPYECNQCGKAFSQHGLLQRHKRTHTGEKPYMNVINMVKPLHNS 98 **** *:***********:***:**.: .*************** : *.: :
seq1 seq2
EARDF-NQYYSSIKRSGSIQ . : .::::::::. . . LPKLFIDQYYSSIKRTMG-H
seq1 seq2
NQYYSSIKRS .::::::::. DQYYSSIKRT
Figura 3.1. Prezentare a unui exemplu de aliniere a secvenelor proteice produs de ClustalW
Secvenele scurte sau foarte similare pot fi aliniate manual. ns, n cele mai multe cazuri este nevoie de a efectua alinierea secvenelor lungi, extrem de variabile sau
Figura 3.2. Exemplu de comparaie a perechilor de secvene care indic deosebirea ntre modul de aliniere local i global (":" perechile de reziduuri identice; "." perechile de reziduuri similare)
Capitolul
42
G A T T C T A T C T A A C T A Alinierea la nivel global include toate reziduurile din cele dou secvene. G Regiunea cu cea mai mare similaritate T T este evideniat ntr-o box. Alinierea C local include numai poriuni din cele T dou secvene care au cea mai mare si- A T milaritate regional. Metoda matricei sau dot plot (ma- T C trice de puncte) este mai universal. T Aceasta i are exprimarea grafic prin- A tr-o matrice bidimensional. n matri- A cea de puncte secvenele comparate sunt C scrise pe axele orizontal i vertical a Figura 3.3. Exemplu de comparaie a dou secvene prin metoda dot plot matricei. Comparaia se face prin scanarea fiecrei secvene similare cu alt secven. Daca o pereche de secvene este gsit, se noteaz cu un punct n graficul respectiv. n caz contrar, poziiile matricei sunt lsate necompletate. Atunci cnd cele dou secvene au regiuni nalt similare, se formeaz linia de mai multe puncte pn la forma de linii diagonale nvecinate, care dezvluie alinierea secvenei. Dac exist ntreruperi n mijlocul unei linii pe diagonal, acestea indica inserii sau deleii. Liniile paralele pe diagonal reprezint regiunile repetitive ale secvenei (Fig. 3.3). Linii de legtur ntre puncte n diagonale indic alinierea secvenei. Liniile diagonale de mai sus sau mai jos de diagonala principal reprezint repetri interne a acelorai secvene. n special, este uor de a identifica caracteristicele secvenelor, dac numrul inseriilor, deleiilor, repetiiilor sau repetiiilor inversate. Reprezentarea dot-plot a dou secvene identice este diagonala principal a matricei. n general, acest tip de reprezentare grafic posed o serie de neajunsuri, precum: fundalul, claritatea joas, vizualizarea ne intuitiv, dificultatea extragerii informaiilor statistice sumare a alinierii i a poziiilor de coinciden. Totodat, ea poate fi aplicat doar pentru dou secvene. Astfel, ele pot fi utilizate pentru vizualizarea rapid a dou secvene pentru identificarea repetiiilor ntre secvene sau a celor interne pentru o secven. Aceste dificulti pot fi omise prin aplicarea algoritmurilor de programare dinamic. Ele permit de a realiza alinierea de-alungul ntregii secvene, estimnd poziiile de suprapunere global sau integral. Sunt cunoscute dou algoritmuri de baz: Algoritmul SmithWaterman estimeaz aliniere local; Algoritmul NeedlemanWunsch estimeaz alinierea global. Metoda programrii dinamice pentru calcularea scorului alinierii globale. Fiecare poziie din matricea de poziii poate avea valoare pozitiv, negativ sau 0. Algorit-
43
mul NeedlemanWunsch maximalizeaz numrul de coincidene dintre secvene pe ntreaga lungime. Lacunele pot fi admise la capete doar n cazul cnd o secven este mai lung ca alta, ns pentru acestea poate fi, dei nu e obligatoriu, aplicat penalitatea. ncercnd s se soluioneze problemele alinierii globale i pentru a identifica regiunile nalt conservate a fost elaborat algoritmul SmithWaterman. Acest algoritm urmrete identificarea unei regiuni cu similaritate maximal. Apoi, urmeaz o nou cutare pentru a identifica o regiune nou cu similaritate maximal. Aceasta se adaug la prima i se recalculeaz scorul. Fragmentele secvenelor ce se afl ntre regiunile date determin scderea calitii alinierii, deoarece ele sunt foarte diferite. Toate incoincidenele posed valori negative. Dac valoarea scorului este negativ, atunci algoritmul o transform n 0. Oricum scopul algoritmului este de a identifica cel mai nalt scor, care poate fi 0 n cazul cnd secvenele nu posed similaritate, sau unul pozitiv, cnd sunt identificate regiunile identice.
Capitolul
3.2. Aplicarea matricelor de scor, gapurilor i penalitilor n alinierea secvenelor

Procedura de aliniere prevede utilizarea matricelor de scor, care reprezint un set de valori pentru cuantificarea riscurilor legate de substituirea unui reziduu cu altul n cadrul unei alinieri. Sistemul de scor sau matricea de substituii (substitution matrix) deriv din analiza statistic a substituiei reziduului. Matricele de scor a secvenelor nucleotidelor sunt relativ simple, pe cnd matricele de scor a aminoacizilor sunt mult mai complicate, deoarece scorul reflect proprietile fizico-chimice ale resturilor aminoacizilor. Cea mai simpl matrice de substituie este matricea de identitate. Dac valoarea de coinciden se noteaz cu 1, iar incoincidena cu 0, atunci diagonala principal a matricei este 1:
1 0 0 ... 0 0 1 0 ... 0 0 0 1 ... 0 ... ... ... ... ... 0 0 0 ... 1
n general, la baza elaborrii matricelor de substituii se calculeaz probabilitile modificrilor n fiecare poziie din secven. Deoarece, unele valori sunt foarte mici, i utilizarea lor este complicat, ele se logaritmeaz i se aplic ca scorurile probabilitilor logaritmate. Astfel matricea de scoruri S se calculeaz dup formula:
S = log
M i, j pj
Capitolul
44
unde Mi,j este probabilitatea c aminoacidul i se transform n j, iar pi este frecvena aminoacidului i. Baza logaritmului nu are importan i deseori aceeai matrice de substituie poate fi reprezentat prin diferite valori. Suplimentar la aceasta se utilizeaz i valori, precum valoarea E, valoarea P etc. La calcularea simpl a scorului alinierii, fr admiterea lacunelor, se enumer doar perechile de caractere identice. Astfel, valoarea E se calculeaz: Penalitatea de afinitate pentru lacun se aplic n cazurile cnd existena unei lacune largi este mai preferat dect a mai multor lacune mici. Acest tip de penalitate include penalitatea pentru deschiderea lacunei, notat prin o, i penalitatea pentru extinderea ei, notat prin e. Astfel, o lacun de mrimea I obine penalitatea o+(I-1)e. Deoarece n procesul evoluiei inseriile i deleiile au loc relativ mai rar, comparativ cu substituiile, ntroducerea lacunelor poate crea multe dificulti computaionale. Cu toate acestea, atribuirea penalitilor poate fi mai mult sau mai puin arbitrar deoarece teoria evoluionist nu poate estima valoarea ntroducerii inseriilor sau a deleiilor. n cazurile n care valorile penalitilor sunt mici, lacunele pot fi foarte numeroase i pot deregla stabilirea similaritilor. Dar dac valorile penalitilor vor fi nalte, apariia lacunelor va fi practic imposibil, la fel ca i o aliniere logic. Un alt factor important este estimarea diferenei ntre crearea lacunei i extinderea lacunelor deja existente. Mai multe cercetri au demonstrat utilitatea folosirii acestor n estimarea alinierilor (Altschul, S.F., Gish, W., 1996; Smith, T.F., Waterman, M.S., Burks, C., 1985). Se cunoate c extinderea unei lacune deja iniiate este mai uor de realizat. Astfel, lacuna iniiat va avea un grad de penalitate mai nalt dect extensia lui. Aceasta se bazeaz pe raionamentul c, n cazul nserrii sau eliminrii, pot s apar mai multe reziduuri adiacente, care la fel trebuie nserate sau eliminate. n asemenea cazuri strategia aplicat este de a utiliza valorile prestabilite ale penalitii lacunei pentru lacuna introdus sau extins. De exemplu, se poate folosi schema -12/-1 n care penalitatea deschiderii lacunei este -12 i a extinderii -1. Calcularea scorurilor cu considerarea lacunelor n secvenele nenrudite, presupune stabilirea parametrilor K i . Aceasta se efectuiaz n baza unui set de secvene nenrudite, ce asigur folosirea acestor parametri estimai n baza secvenelor reale, care posed anumit structur i funcii. n acest context, rezultatul alinierii, n mare msur, depinde de sistemul de scor, despre care se va vorbi n capitolul urmtor. Dac valoarea prezenei unei lacune este de 11, atunci scorul alinierii secvenelor va fi 15.
Secvena A Secvena B Scorul = 4+2+4+(11)+9+7 = 15 v D S _ C Y v E S L C Y 4 2 4 11 9 7
45
E = Kmne S ,
unde m i n sunt lungimile secvenelor comparate, e constanta lui Euler, K este caracteristica mrimii spaiului de cutare (totalitatea caracterelor, nt sau aa), caracteristica sistemului de scor (http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html). Probabilitatea, ca posibilitatea specific de a identifica niciun segment de perechi cu cel mai nalt scor (high-scoring segment pairs, HSP) cu scorul >=S este , e E , respectiv probabilitatea identificrii cel putin a unui HSP este , fiind asociat cu valoarea S. De ex., dac se ateapt s se identifice trei HSP cu scorul >=S, probabilitatea de a identifica cel puin una este de 0,95. Efectuarea alinierilor secvenelor adesea implic aplicarea lacunelor care reprezint inserii i deleii. Utilizarea lacunelor posed nu doar sensul metodologic, dar i cel biologic, fiind explicate ca rezultatul (http://www.ebi.ac.uk/help/ gaps.html): mutaiei punctiforme; crossing-over-ului inegal n meioz, care duce la inseria sau deleia nucleotidelor; dereglrile n procesul de replicare, care duc la apariia repetiiilor anumitor fragmente; inseria retrovirusurilor; translocarea ADN dintre cromosomi. Exist cteva tipuri a penalitilor pentru lcune: Penalitatea constant pentru lacun reprezint cel mai simplu tip de penalitate. Un singur parametru, notat d se adaug cnd lacuna se deschide, i indiferent de mrimea sa, este una i aceeai valoare. Penalitatea liniar pentru lacun este valoarea penalitii pentru lungimea lacunei. ntotdeauna este valoarea negativ. n acest caz penalitatea general pentru o lacun mare este aceeai ca i pentru mai multe lacune mici.
Capitolul
La moment strategia aplicrii lacunelor folosete aplicarea valorii nalte pentru deschiderea lacunei i o valoare mai mic pentru extinderea ei, ce a fost demosntrat n cadrul mai multor aplicaii (Henikoff, S. & Henikoff, J.G., 1993; Gotoh, O., 1982; Fitch, W.M., Smith, T.F., 1983; Altschul, S.F., Erickson, B.W., 1986).
Capitolul
46
47
3.3. Instrumente bioinformatice utilizate n alinierea unei perechi de secvene

Instrumente de aliniere descrise mai sus sunt cu adevrat eficiente atunci cnd se dorete s se compare secvene de tip similar proteine cu proteine sau ADN cu ADN. Uneori, este necesar de a compara o protein cu un fragment de ADN (gena sa iniial, de exemplu). Exist mai multe instrumente care permit realizarea obiectivului dat. Ca exemplu pot servi dou surse, unde este posibil de a realiza lucrul on-line. Unul este de la Institutul Pasteur (bioweb.Pasteur.fr/seqanal/interfaces/protal2dna.html), iar cellalt este meninut de Dr. Peer Bork i grupul su de la EMBL n Heidelberg (coot.EMBL.de/pal2nal). Ambele servere vor cere posesia secvenei proteinei i secvenei ADN corespunztoare. Dac avem doar secvena proteinei, putem rula fie un blastx concordat la genomul complet sau putem folosi un server Web numit Protogene (disponibil la www.tcoffee.org). Protogene automat preia secven ADN-ului care rspunde pentru o anumit protein. Exist mai multe servere care ofera gratis aceste posibiliti (tab. 3.2.).
Tabelul 3.2. Programe de aliniere online
NuME ADRESA TIPuL DE ALINIERE
Lalign Plalign
www.ch.embnet.org/software/ LALIGN_form.html fasta.bioch.virginia.edu/fasta_www/lalign.html
Global/Local Global/Local/ Global/Local Local pentru DNA BLAST local Protein contra DNA Protein contra DNA
http://fasta.bioch.virginia.edu/fasta_www2/fasta_www. cgi?rm=lalign Align www.ebi.ac.uk/emboss/align/ xenAliTwo http://users.soe.ucsc.edu/~kent/xenoAli/xenAliTwo.html Blast2seqs www.ncbi.nlm.nih.gov/ blast/bl2seq/wblast2.cgi Protal2dna bioweb.pasteur.fr/seqanal/ interfaces/protal2dna.html Pal2nal coot.embl.de/pal2nal
va diferene importante, care trebuie s fie luate n consideraie pentru interpretarea rezultatelor alinierii. n primul rnd, matricele PAM sunt bazate pe modelul mutaional al evoluiei, care presupune c schimbrile aminoaciziilor se supun proceselor lui Markov, iar fiecare modificare a aminoacizilor ntr-un anumit site este independent de modificrile precedente. Modificrile sunt cuantificate ntre secvenele care sunt cel puin de 85% similaritate obinute prin restabilirea istoriei filogenetice a modificrilor n cadrul fiecrei familii de proteine. Apoi aceste matrici pot fi aplicate pentru a compara proteinele mai distanate prin extrapolarea modificrilor mici, reflectate n matrice, considernd c modificrile ce au avut loc n timp evolutiv mai lung reprezint consecutivitatea modificrilor mici, ce au loc una dup alta. Astfel, pe un interval mai indelungat, frecvena schimbrii unui aminoacid cu altul este aceeai ca i n cazul modificrilor de scurt durat. Matricele BLOSUM neglijeaz modelul evolutiv (Fig. 3.5.), pornind de la consideraia c toate modificrile aminoacidice observate ntr-o regiune aliniat a unei familii de proteine au derivat, indiferent de gradul general de similaritate dintre secvenele proteice. Totui, acestea sunt cunoscute ca fiind nrudite biochimic, i, respectiv, posed o form ancestral comun. Matricele PAM sunt bazate pe cuantificarea scorului tuturor poziii aminoacidice n secvenele nrudite, pe cnd matricele BLOSUM sunt bazate pe substituii i poziiile conservate n blocuri, care reprezint regiunile cele mai asemntoare n proteinele nrudite. Astfel, aplicarea matricelor PAM este justificat n cazul studiilor filogenetice, iar tabelele BLOSUM n cazul cercetrii istoriei domenelor conservate.
C S T P A G N D E Q H R K M I L v F Y W 12 0 2 -2 1 3 -3 1 0 -2 1 1 -3 1 0 -4 1 0 -5 0 0 -5 0 0 -5 -1 -1 -3 -4 -5 -5 -2 -6 -2 -4 0 -8
C C S T P A G N D E Q H R K M I L v F Y W
Capitolul
Dar generarea alinierelor nu este ntotdeauna suficient. Uneori poate fi necesar vizualizarea alinirelor si efectuarea analizelor statistice. (tab. 3.3.)
Tabelul 3.3. Programe de analiz a alinierilor
Lalnview www.expasy.ch/tools/lalnview.html prss www.ch.embnet.org/software/PRSS_form.html graphalign darwin.nmsu.edu/cgi-bin/graph_align.cgi
NuME ADRESA FuNCIA
Vizualizarea Evaluarea Evaluarea
6 1 -1 -1 -1 -1 0 0 0 1 -2 -2 -3 -1 -5 -5 -6
P
2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6
A
5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -5 -7
G
2 2 1 1 2 0 1 -2 -2 -3 -2 -4 -2 -4
C S T P A G N D E Q
4 3 2 1 -1 0 -3 -2 -4 -2 -6 -4 -7
D
4 2 1 -1 0 -2 -2 -3 -2 -5 -4 -7
E
4 3 1 1 -1 -2 -2 -2 -5 -4 -5
Q
n general, toate diferenele existente ntre secvene, pentru a fi cuantificate, au fost analizate ca probabilitatea substituirii unui aminoacid cu altul n contextul evoluiei. Procesarea matematic efectuat a permis n 1978 elaborarea tabelelor (matricelor) de substituii de ctre Margaret Dayhoff, numit matrice de procente a mutaiilor acceptate, PAM (Percent Accepted Mutation) (Fig. 3.4.). Mai trziu a aprut i matrici de tipul BLOSUM (Blocks Amino Acid Substitution Matrices), elaborate de Henikoff and Henikoff (1992). Aceste dou tipuri de matrice se perfecioneaz permament i se bazeaz pe informaiile existente despre proteine i metodica de estimare. ns ntre ele exist cte-
-1 0 0 -2 -1 -3 -1 -3 -3 -2
-1 -1 0 -1 0 -2 0 -3 -3 -5
T
6 2 0 -2 -2 -2 -2 -2 0 -3
6 3 0 -2 -3 -2 -4 -4 2
R
5 0 -2 -3 -2 -5 -4 -3
K M
6 2 5 4 2 2 4 0 -1 -2 1 -4 -5
I
6 2 2 -1 -2
L
4 -5 9 -4 7 10 -5 0 0
v F Y
17
W
H R K M I L v F Y W
Figura 3.4. Matricea PAM250
Capitolul
48
C S T P A G N D E Q H R K M I L v F Y W
49
C S T P A G N D E Q H R K M I L v F Y W 9 -1 4 -1 1 5 -3 -1 -1 0 1 0 -3 0 -2 -3 1 0 -3 0 -1 -4 0 -1 -3 0 -1 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2
C
7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4
P
4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3
A
6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2
G
6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4
N
6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4
D
5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3
E
5 0 1 1 0 -3 -2 -2 -3 -1 -2
Q
N D E Q 8 0 -1 -2 -3 -3 -3 -1 2 -2
H
Extragei din bazele de date NCBI secvena aminoacidic pentru urmtoarele trei proteine: TNNI1_HUMAN, TNNI2_HUMAN, TNNI3_HUMAN. Transferai-le ntr-un fiier cu denumirea TNNI_HUMAN.txt, care se va utiliza pe parcurs. n ce format se vor extrage secvenele, dac ulterior se presupune s se aplice AMS?
-1 -1 0 -1 -2 -2 -2 -2 -2 -3
S
-2 -1 -1 -1 -1 -1 0 -2 -2 -2
T
5 2 -1 -3 -2 -3 -3 -2 -3
R
5 -1 -3 -2 -2 -3 -2 -3
5 1 4 2 2 1 3 0 0 -1 -1 -1 -3
I
4 1 2 -1 -2
L
4 -1 6 -1 3 -3 1
v F
7 2
Y
11
W
K M
H R K M I L v F Y W
Exerciiul 3.2.
Folosind secvenele extrase, aplicai metoda Dot matricelor pentru: a identifica dac n fiecare din secvene exist duplicaii sau careva structuri (domene sau motive); a evidenia careva domene sau motive ntre secvene. Explicai care este importana depistrii motivelor sau domenelor n componena secvenei n AMS.
Capitolul
Exerciiul 3.3.
Alegei din alinierea obinut un fragment continuu de cca 10-20 aa. Folosind tabelele BLOSUM62 i PAM250 (Fig. 3.4 i 3.5) calculai scorul de asemnare dintre cele trei secvene. Iniial efectuai alinierea fr a aplica lacunele. Apoi, introducei lacunele pentru a elabora 4-5 variante de aliniere dintre secvene aplicnd penalitatea pentru lacun de -10. Nu se admite extensia lacunelor. La fiecare rezultat calculai care este lungimea alinierii obinute i procentul de suprapunere a celui mai lung fragment aliniat continuu.
Figura 3.5. Matricea BLOSUM62
Exerciiul 3.4.
Deschidei pagina ClustalW de pe adresa http://www.ebi.ac.uk/Tools/clustalw2/index.html. Analizai urmtorii parametrii de baz propui pentru realizarea AMS: KTUP, WINDOW LENGTH, MATRIX, GAP OPEN, NO END GAPS, GAP EXTENSION, GAP DISTANCES, TREE TYPE i CLUSTERING. Explicai semnificaia fiecruia.
Exerciiul 3.5.
Realizai AMS. Folosii urmtoarele valori pentru parametri: ALIGNMENT=fast, TREE TYPE=nj. ncrcai fiierul cu secvenele extrase n Clustal i lansai aplicaia.
Exerciiul 3.6.
Folosii combinaiile de parametri propuse mai jos. Explicai rezultatele obinute. MATRIX=def, blosum, pam NO END GAPS=no, yes Care este semnificaia notrilor prezentate sub aliniere.
Capitolul
C S T P A G

Exerciiul 3.1.
50
51
Exerciiul 3.7.
Explicai diferenele structurale observate dintre secvene. Care este acoperirea dintre secvene? Care este sensul folosirii diferitor culori n AMS? Ci aminoacizi sunt identici dintre cele 3 secvene? Ci aminoacizi sunt funcional identici ntre secvene?
REFERINE
Altschul, S.F. & Gish, W. (1996) Local alignment statistics. Meth. Enzymol. 266:460-480. Altschul, S.F. & Erickson, B.W. (1986) Optimal sequence alignment using affine gap costs. Bull. Math. Biol. 48:603-616. Gotoh, O. (1982) An improved algorithm for matching biological sequences. J. Mol. Biol. 162:705-708; Fitch, W.M. & Smith, T.F. (1983) Optimal sequence alignments. Proc. Natl. Acad. Sci. USA 80:1382-1386; Henikoff, S. & Henikoff, J.G. (1993) Performance evaluation of amino acid substitution matrices. Proteins 17:49-61; Smith, T.F., Waterman, M.S. & Burks, C. (1985) The statistical distribution of nucleic acid similarities. Nucleic Acids Res. 13:645-656). Lalign www.ch.embnet.org/software/ LALIGN_form.html fasta.bioch.virginia.edu/fasta_www/lalign.html Plalign http://fasta.bioch.virginia.edu/fasta_www2/fasta_ www.cgi?rm=lalign Align www.ebi.ac.uk/emboss/align/ xenAliTwo http://users.soe.ucsc.edu/~kent/xenoAli/xenAliTwo.html Blast2seqs www.ncbi.nlm.nih.gov/ blast/bl2seq/wblast2.cgi Protal2dna bioweb.pasteur.fr/seqanal/ interfaces/protal2dna.html Pal2nal coot.embl.de/pal2nal Lalnview www.expasy.ch/tools/lalnview.html prss www.ch.embnet.org/software/PRSS_ form.html graph-align darwin.nmsu.edu/cgi-bin/graph_align.cgi Altele http://www.ncbi.nlm.nih.gov/BLAST/ tutorial/Altschul-1.html http://www.ebi.ac.uk/help/gaps.html
Exerciiul 3.8.
Aplicnd diferite valori pentru MATRIX, GAP OPEN i GAP EXTENSION. Observai modificrile ale valorilor scorului. Explicai efectele observate. Este oare posibil de a prognoza efectul aplicrii diferitor valori asupra calculrii scorului, far realizarea tuturor combinaiilor dintre parametrii propui.
Exerciiul 3.9.
n baza secvenelor aliniate, extragei cel mai mare fragment aliniat. Analizai fiecare poziie a alinierii i identificai toate variantele de aminoacizi pentru fiecare poziie. Realizai o descriere a variabilitii n cadrul alinierii dup: % aminoacizi conservai i % celor variai. Dintre ultimele, difereniai variaiile sinonimice i cele nesinonimice.
Capitolul
Exerciiul 3.10.
Pentru fiecare protein extras identificai secvena nucleotidic codificatoare i realizai o aliniere. Extragei fragmentul de nucleotide care corespunde fragmentului aminoacidic extras n ex. 3.9. Realizai analiza similar pentru site-urile conservate i cele variabile la nivelul fiecrui codon.
Capitolul
52
Tabelul 4.1. Criteriile principale pentru construcia unei alinieri multiple
CRITERIu DE SIMILARITATE
AlInIErEA MUlTIPl A sECvEnElor AlInIErEA MUlTIPl A sECvEnElor
53
APLICARE
structural
n aceeai coloan se plaseaz aminoacizii cu acelai rol n fiecare structur. Programele de poziionare structural aplic acest criteriu. n aceeai coloana se plaseaz aminoacizii sau nucleotidele corespunztoare aminoacizilor sau nucleotidelor similare din structura ancestral comun. Nici una din programe nu folosete explicit acest criteriu, ns toate ncearc s produc o aliniere ce l respect. n aceeai coloan se plaseaz aminoacizii sau nucleotidele cu aceeai funcie. Nici una din programele nu utilizeaz acest criteriu explicit, ns dac informaia este accesibil este posibil de a impune programelor s-l respecte sau se efectueaz editarea manual a alinierii. n aceeai coloan se plaseaz aminoacizii care determin aliniere cu similaritate maximal. Majoritatea programelor utilizeaz similaritatea secvenei deoarece este cel mai uor criteriu de aplicare. Cnd secvenele sunt nalt nrudite similaritile structural, evolutiv i funcional sunt echivalente similaritii secvenei.
Capitolul 4.
Capitolul
evolutiv
Similaritate AMG AML CLUSTAL Gibbs sampler metoda Pratt TCOFFEE MCOFFEE
funcional
4.1. Tipuri de aliniere multipl. Alinierea multipl global i local a secvenelor

Alinierea multipl a secvenelor (AMS) este cel mai util instrument de investigare bioinformatic, deoarece poate fi aplicat la modelarea structurii sau funciei proteinelor, analize filogenetice etc. Pentru compararea multipl a secvenelor se selecteaz cteva secvene pentru a fi aliniate. Pot fi utilizate trei metode diferite de aliniere multipl a secvenelor: ClustalW cel mai des utilizat, MUSCLE - foarte rapid, Tcoffee - foarte exact. Decizia de aplicare AMS implic definitivarea scopului i preconizarea rezultatelor care se vor obine. De exemplu, AMS nu este util de folosit n combinarea secvenelor n cadrul unui proiect de secveniere. Suprapunerea parial a secvenelor precum EST prin ClustalW, MUSCLE sau Tcoffee poate da rezultate neateptate i nesatisfctoare. Pentru aceasta ar putea fi aplicate alte instrumente de asamblare, precum Phred i Phrap (www.phrap.org) sau cap3 (www.mainlab.clemson.edu/cgi-bin/gdr/ gdr_cap3). O alt situaie este cazul cnd nu este posibil de a identifica oarecare tip de omologie cu orice secven din baza de date. Unele soluii suplimentare pot fi obinute prin identificarea secvenelor n baza criteriilor funcionale sau cutarea domenelor conservate prin Pratt. n general, alinierea secvenelor poate fi efectuat manual, fr utilizarea calculatorului, prin aranjarea nucleotidelor sau aminoacizilor n coloane n baza ctorva criterii de asemnare. Sunt patru criterii majore pentru AMS, toate cu proprieti diferite (tab. 4.1.).
a secvenei
Cnd secvenele sunt destul de similare, alinierea multipl va reflecta relaia evolutiv, structural i funcional care exist dintre acestea, cu condiia c la baza lor se afl o secven de ncredere (tab. 4.2.). La studierea unei secvene de protein sau ADN se urmresc o serie de reguli stricte. Aminoacizii sau nucleotidele de baz s nu fie supuse mutagenezei. De exemplu, site-urile active ale enzimelor sunt foarte conservate. Resturile aminoacide mai puin importante pot s fie supuse mutaiilor mai uor uneori randomizat pentru a adapta o funcie. Astfel, pornind de la prima regul este posibil de a presupune c poziiile conservate (coloanele ce conin aa sau nt similare) sunt mai importante pentru funcia lor dect poziiile neconservate (coloanele ce conin aa sau nt diferite). Acest lucru este facilitat de prezena mai multor secvene pentru a diferenia regiunile eseniale i cele neeseniale. Totodat, utilizarea AMS este o soluie comod pentru prezentarea rezultatelor ntr-o modalitate accesibil, aplicnd culorile.
Capitolul
ALINIEREA MuLTIPL A SECvENELOR
54
Tabelul 4.2. Aplicaiile de baz ale Alinierii Multiple de Secvene
APLICAII PROCEDuR
55
Tabelul 4.3. Indicaii privind selectarea secvenelor corecte
Proteine sau Utilizai secvenele proteice unde este posibil. Acestea pot fi convertite n ADN ADN dup efectuarea alinierii. Multe secvene ncepei cu 10-15 secvene; evitai alinierea mai mult de 50 secvene. Secvenele care au mai puin de 30 % de identitate pot cauza dificulti n Foarte diferite alinierea corect a secvenelor Se recomand de a evita utilizarea secvenelor ce au similaritate mai mult Identice de 90% cu o oricare alt secven din set. Programele de aliniere multipl necesit secvene de aproximativ aceeai Pariale lungime. Aplicaiile deseori au dificulti n compararea setului de fragmente lungi i scurte. Secvenele cu domenele repetate provoac dificulti n special n cazuri Repetate cnd numrul lor este diferit. n acest caz este recomandat extragerea domenului cu Dotlet sau Laling i efectuarea alinierii lor.
PROBLEMA SOLuII
AlInIErEA MUlTIPl A sECvEnElor
Extrapolare
n baza secvenelor selectate pentru AMS este posibil de a reconstiAnaliza filoge tui istoria acestora. Pentru aceasta se aplic serverul Pasteur Phylip netic (bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html). Identificarea patternului Descoperirea poziiilor foarte conservate permite de a identifica o regiune caracteristic pentru o funcie anumit (n secvena de aminoacizi sau de nucleotide). Pentru aceasta se aplic www-lmmb.ncifcrf.gov/~toms/ sequencelogo.html. Este posibil de a converti o AMS ntr-un profil care descrie o familie de proteine sau un domen proteic (PSSM, Position-Specific Scoring Matrix). Este posibil de aplicat acest profil pentru scanare n bazele de date i identificarea noilor membri ai familiei prin NCBI-BLAST pentru producerea i analiza PSSM: www.ncbi.nlm.nih.gov/blast/blastcgihelp.shtml#pssm
Capitolul
O aliniere multipl permite de a determina dac o secven necaracterizat este membrul unei familii reale de proteine. Alinierile care includ secvenele din Swiss-Prot sunt cele mai informative. Utilizai serverul ExPASy-BLAST (www.expasy.ch/tools/blast/) pentru a colecta i alinia secvenele.
Identificarea domenului
Convertirea unei AMS de ADN a unui site de legare ntr-o matrice pondeElemente rat permite scanarea prin alte secvene de ADN pentru site-urile de legareglatoare ale re poteniale. Se aplic Gibbs sampler pentru identificarea acestor site-uri: ADN bayesweb.wadsworth.org/gibbs/gibbs.html Prezicerea structurii O aliniere multipl bun poate asigura o prognoz perfect a structurii secundare a proteinei i ARN. Uneori aceasta poate fi aplicat pentru construirea modelului 3-D.
Alele multiple variate deseori posed secvene aminoacide diferite. Alinierea multipl poate ajuta pentru prognozare dac se observ Polimorfismul de o Analiza nsSNP Singur Nucleotid Nesinonimic (nsSNP, Non-Synonymous Single-Nucleotide Polymorphism). Aplicai site-ul SIFT pentru mai multe detalii: blocks. fhcrc.org/sift/SIFT.html. O aliniere multipl bun poate contribui la identificarea fragmentelor de secven proteic nedefinite prin atribuirea lor la o familie de proteine, ce permite determinarea membrilor noi prin PCR. Pentru aceasta se aplic blocks.fhcrc.org/codehop.html
Analiza PCR
Selectarea secvenelor corecte este determinat de faptul c ele trebuie s fac parte din aceeai familie de proteine i s posede o form ancestral comun. ns, deseori familiile sunt foarte mari pentru a le utiliza integral n AMS, ceea ce determin importana selectrii unei secvene corecte i a instrumentului corespunztor n dependen de scopul cercetrii (tab. 4.3.).
Metodele AMS manifest cele mai bune rezultate la alinierea proteinelor. Aceasta este determinat, pe de o parte, de faptul c codul genetic este degenerat, iar proteinele sunt de trei ori mai scurte, dect secvenele de ADN respective, i, pe de alt parte, de faptul c alfabetul proteinelor este alctuit din 20 de aminoacizi. n cazul realizrii unei analize filogenetice n baza setului de secvene codificatoare de ADN, se recomand efectuarea urmtorilor pai: 1. translarea secvenei cercetate de ADN n protein; 2. efectuai alinierea multipl a proteinelor; 3. aliniai secvena ADN cu rezultatul alinierii multiple aplicnd pal2nal (coot. embl.de/pal2nal) sau Protogene dac nu avei secvena original ADN (www.tcoffee. org). n evaluarea rezultatelor analizei AMS se recomand aplicarea urmtoarei metodologii: se selecteaz cteva secvene; se elaboreaz o aliniere multipl utiliznd unul din serverele propuse; se evalueaz vizual calitatea alinierii; dac alinierea se prezint bine, ea se pstreaz. O aliniere bun conine blocuri conservate, separate prin regiuni de deleii i inserii. n acest caz este posibil de a extinde setul de secvene; dac secvena este greu de interpretat atunci: i. eliminai secvenele ce cauzeaz dificulti, n special cele care sunt cu rudenie ndeprtat, sau cele care cauzeaz apariia zonelor lungi de inserie sau deleie; ii. efectuai alinierea cu setul redus de secvene; iii. eliminai secvenele nedorite din set, pn cnd o s obinei o aliniere uor de interpretat. Este necesar de a lua n consideraie ca fiecare secven s fie cu 30 70% identi-
Capitolul
56
tate cu mai mult de jumtate din secvene din set. Aceasta permite balansarea optimal ntre posibilitatea obinerii informaiilor noi i a calitii secvenei. Alinierea multipl este util pentru descoperirea aspectelor funcionale, structurale i evolutive a secvenelor biologice. Studierea fiecrui din ele are o serie de particulariti, ns toate au etape comune de studiere (Fig. 4.1.).
Selectai secvenele Secvenele selectate sunt proteine NU Secvenele selectate codific proteine (ADN) etc? NU Secvenele selectate codific proteine i conin introni DA Modelai structura genei NU
57
Selectarea unei dintre acestea este determinat de calitatea secvenelor i de scopul analizei.
GLOBAL
LOCAL
FTFTALILLAVAV F--TAL-LLA-AV
FTFTALILL-AVAV --FTAL-LLAAV--
Figura 4.2. Diferena ntre AM global i AM local
Capitolul
Translai secvenele
Alinierea este de calitate nalt? DA Efectuai prelucrarea statistic a scorului de aliniere
NU
Parametrii de calitate: matricea de scor, penalitile pentru gap-uri etc. Repetarea alinierii
Examinai secvenele pentru prezena zonelor cu repetiii sau celor cu complexitate joas
DA
Alinierea s-a mbuntit
NU Scorul de aliniere este semnificativ DA Secvenele sunt semnificativ similare Figura 4.1. Strategia de realizare a alinierii multiple NU Nu este posibil de a detecta similaritatea ntre secvene
Estimarea similaritii unitate cu - unitate (nucleotid sau rest aminoacid) se realizeaz n dou modaliti: alinierea global (AMG) i cea local (AML) (Fig. 4.2.).
Capitolul
Realizai alinierea local
NU
DA
DA
Tehnica general a alinierii globale este algoritmul Needleman-Wunsch, care se bazeaz pe programarea dinamic. Alinierea local este mai semnificativ n cazul secvenelor diferite care probabil c posed regiuni de similaritate sau motive similare n cadrul fragmentului cercetat. Pentru aceasta se aplic algoritmul Smith-Waterman, metod general de aliniere local, la fel, bazat pe programarea dinamic. Deobicei, n cazul secvenelor foarte similare, diferenele dintre aplicarea alinierii globale sau locale sunt minimale. Metodele hibride, cunoscute ca semiglobale, sau glocal, ncearc s gseasc posibilitile cele mai bune de aliniere ce includ nceputul i sfritul a unei sau altei secvene. Aceasta poate fi n special necesar cnd regiunea 3 a unei secvene se suprapune cu regiunea din captul 5 a celeilalte. n acest caz niciuna dintre tehnici nu este convenabil. Calcularea alinierilor este o modalitate de optimizare global i, respectiv, local care impune compararea secvenelor pentru identificarea zonelor similare. Exist o varietate de algoritmuri ce pot fi aplicai pentru determinarea alinierii optimale: programarea dinamic lent, dar veridic; algoritmii heuristici eficieni, dar mai puin veridici; algoritmii probabilistici destinai pentru cutri largi n bazele de date. Alinierea global este mai important n efectuarea alinierii multiple a secvenelor. Utilitatea ei se manifest mai pronunat n cazul aplicrii mai multor secvene, o parte dintre ele fiind mai asemntoare. Pentru nceptori AG, deseori, este mai uor de neles i de aplicat la compararea a dou secvene, ns metoda statistic de evaluare a E nu poate fi realizat, respectiv i semnificaia rezultatelor este mai mic. Folosirea AG este determinat de necesitatea: verificrii diferenelor minore dintre dou secvene, analizei polimorfismului (de ex., SNP) dintre secvenele nalt nrudite, comparrii a dou secvene care parial se suprapun.
58
Aplicarea AML este determinat de dou argumente compararea a dou secvene cu rudenie ndeprtat, ntre care sunt comune doar cteva zone, i analiza elementelor repetitive n cadrul unei secvene. La moment se aplic dou instrumente de baz de realizare a alinierilor multiple: metoda rapid, heuristic BLAST, i alta mai lent, mai exact Lalign (tab. 4.4.).
Tabelul 4.4. Caracteristicele BLAST i Lalign n compararea secvenelor
CARACTERISTICI BLAST LALIGN
59
Tabelul 4.5. Caracteristicile aminoacizilor n AMS din patternurile de conservare
AMINOACIZI
W, Y, F
G, P C H, S K, R, D, E L
viteza Mrimea secvenelor ce pot fi analizate
Foarte rapid Foarte lungi Valoarea E Prezint cea mai bun variant De dorit ADN
ncet Scurte Matricea de scor i valoarea E Prezint cel puin zece cele mai bune De dorit protein
Capitolul
Alinierile Tipul secvenei
Aminoacizii ncrcai sunt implicai n fixarea ligandului. Coloanele conservate pot indica asupra prezenei punilor saline n structura proteinei. Leucinele sunt rar foarte conservate, cu excepia cazurilor cnd snt implicate n interaciunile protein protein, precum modelul leucine zipper.
4.2. Analiza statistic a alinierii secvenelor

Analiza alinierii a secvenelor de proteine se pornete de la cunotinele despre structura proteinei. Toate proteinele conin bucle (loops) care evoluiaz rapid. Scheletul (core) este cea mai rigid parte a structurii proteice i evoluiaz mai ncet. Astfel, n alinierile obinute sunt posibile blocuri fr lacune (gap) ce corespund scheletului, iar regiunile cu multe lacune caracterizeaz buclele. Rezultatele analizei efectuate de program sunt prezentate cu o serie de simboluri precum: indic coloana deplin conservat; indic coloana n care toate resturile au relativ aceeai mrime i caracterul hidropatiei; indic coloane la care mrimea sau hidropatia s-au pstrat n cursul evoluiei. Un bloc este considerat de calitate bun dac conine cel puin 10-30 aminoacizi, i cel puin 1-3 semne *, mai multe : n apropiere i cteva perioade . n diferite poziii. Sunt suficiente 4-5 poziii conservate prin secvena de 50 aminoacizi pentru ca secvena s fie de calitate bun. Aceasta reprezint doar cca 10% de identitate, pe cnd pentru a realiza o aliniere de interes presupune cel puin 25%, ns este suficient pentru a obine rezultate minimale. nc un criteriu este cunoaterea tipului de aminoacizi care se ateapt s fie conservate, deoarece ele se caracterizeaz prin frecvena diferit a mutabilitii / conservrii n AMS (tab. 4.5).
Tabelul 4.6. Modalitile de notare a nucleotidelor conform IuPAC

SIMBOL NOTAREA
G T A C R Y S W K M D H B V N
Guanina Timina Adenina Citozina G sau A T sau C G sau C T sau A
SENS
* : .
G sau T A sau C G sau T sau A T sau A sau C G sau T sau C G sau A sau C G sau A sau T sau C
Guanine Timine Adenine Citozine puRine pYrimidine Strong interactions (3 H bonds) legturi puternice (3 legturi hidrogenice) Weak interactions (2 H bonds) legturi slabe (2 legturi hidrogenice) Keto aMino Not-C (D urmeaz litera C n alfabet) Not-G (H urmeaz litera G n alfabet) Not-A (B urmeaz litera A n alfabet) Not-T sau U (v urmeaz litera U n alfabet) aNy (oricare)
Astfel, studierea unei alinieri multiple se rezum la identificarea poziiilor importante a aminoacizilor ce nu se supun mutagenezei, adic a celor care sunt conservai. Este posibil de a compara nivelul de conservare a capetelor C i N terminal ceea ce posibil este determinat de specificul familiei din care face parte secvena analizat.
Capitolul
Scorul
Este obinuit de a ntlni resturi conservate de triptofan care sunt hidrofobe i se a n interiorul scheletului proteinei. n cazul mutaiei, Trp este substituit cu un alt aminoacid aromatic, precum Phe sau Tyr. Patternurile de aminoacizi conservai reprezint o caracteristic de recunoatere a domenelor proteice. Aceti aminoacizi pot fi deseori identificai ntr-o aliniere multipl. De obicei ei coincid cu extremitile structurilor sau elicelor. Cisteina rspunde de formarea punilor disulfide. Reprezint o caracteristic a unor domene proteice. Histidina i serina deseori sunt implicate n formarea centrelor active, n special a celor proteazice. Regiunile conservate de aceti aminoacizi sunt candidate bune pentru a depista un centru activ.
CARACTERISTICA
60
Dac n setul de secvene acestea sunt foarte conservate, este necesar de a include o serie de fragmente mai puin nrudite, una dup alta, i de a observa efectul produs asupra calitii alinierii. Acest lucru are menirea de a consolida blocurile conservate observate. Strategia posibil de aplicat este integrarea secvenelor n alinierea multipl n special a secvenelor din BLAST cu similaritate marginal. Totodat, pot fi aplicate i rezultatele din Expasy: Se acceseaz pagina Web a serverului ExPASy www.expasy.ch/sprot/. Se introduce numrul de acces al secvenei proteice necesare de fi inclus n set pentru AMS. Se selecteaz modalitatea de descrcare n formatul FASTA. Se tasteaz butonul Create FTP File. Se copie secvena n Clipboard. Se introduce secvena n fereastra de lucru a programului de AMS. Regiunile de alinieri unde se observ mai multe coloane cu mutaii probabil fac parte din bucle (loops). n cazurile n care alinierea nu poate fi efectuat, precum originea diferit a secvenelor ce nu permite considerarea lor ca secvene omoloage, programele de aliniere sunt de puin folos. Acestea doar vor primi secvenele de nucleotide sau aminoacizi, ns nu vor identifica nici o caracteristic ce poate fi utilizat pentru analiz. n acest caz se ncearc de a identifica zonele scurte parial conservate fr introducerea gap-urilor cu ajutorul metodei Gibbs sampler. O alt metod care poate fi aplicat este metoda Pratt care caut paternuri flexibile o categorie special de segmente care conin gap-uri i care trebuie s fie conservate doar n anumite poziii. ClustalW utilizeaz metoda progresiv pentru construirea alinierilor, adugndu-le una dup alta, pn finiseaz construcia alinierii. Cele mai avansate programe de AMS realizeaz cu greu alinierea mai mult de dou secvene. nsa, n Clustal s-a folosit algoritmul de comparare a secvenelor n perechi, care se grupeaz astfel nct rezultatele pot fi reprezentate sub forma de un arbore filogenetic. Cel mai comod mod de ncrcare a secvenelor n Clustal este formatul FASTA, dar pot fi folosite i altele, precum Swiss-Prot i PIR sau formatele de aliniere multipl. Pentru utilizarea efectiv a ClustalW este necesar de a urmri cteva indicaii: Dac n ClustalW se ncarc un set de secvene deja aliniate, Clustal nu va elimina gap-urile din aliniere i ele, respectiv, vor influena i rezultatele din Clustal. Ordinea n care secvenele sunt ncrcate n Clustal uneori poate influena alinierea. Modificarea ordinii acestora poate modifica alinierea. Pentru a ncepe lucrul n Clustal urmeaz succesiunea de pai:
61
Capitolul
4.3. Instrumente bioinformatice utilizate n alinierea multipl a secvenelor

ClustalW reprezint una din cele mai cunoscute i aplicate programe on-line (tab. 4.7.). Dei sunt mai multe servere care ruleaz aceeai versiune a programului, interfaa lor ofer accesul la diferite opiuni.
Tabelul 4.7. Lista serverilor ce conin ClustalW
NuMELE LOCAIA
EBI Europe EMBnet Europe PIR USA BCM USA GenomeNet Japan DDBJ Japan Strasbourg Europe
www.ebi.ac.uk/clustalw www.ch.embnet.org/software/ClustalW.html pir.georgetown.edu/pirwww/search/multialn.shtml searchlauncher.bcm.tmc.edu/multi-align/multi-align.html align.genome.jp/ www.ddbj.nig.ac.jp/search/ clustalw-e.html ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW/
Clustal a fost primul program de aliniere multipl a secvenelor accesibil la orice platform i este cel mai larg citat program (peste 35000 citaii) din istoria biologiei. La momentul actual, exist cteva variaii: ClustalW, ClustalV, ClustalX etc.
Figura 4.3. Pagina de acces pentru ClustalW
1. utiliznd unul din browsere (de ex., Internet Explorer, Opera, Mozilla Firefox etc.) se acceseaz pagina serverului ClustalW www.ebi.ac.uk/clustalw (Fig. 4.5.); 2. se copiaz secvena n spaiul destinat Sequence window; 3. se selecteaz Fast din menul Alignment; 4. se utilizeaz meniul Output Format pentru a selecta formatul de ieire a datelor (se recomand formatul .aln); 5. se selecteaz Input din meniul Output Order; 6. nu se selecteaz tipul arborelui; 7. se apas butonul Run pentru a ncepe procesarea (pe parcursul procesrii datelor apare o fereastr intermediar cu indicarea statutului procesrii); 8. se salveaz rezultatele obinute.
Capitolul
62
Rezultatele obinute sunt repartizate n trei secii, dintre care este necesar seciunea a doua, ce vizualizeaz alinierea multipl. Aceasta poate fi salvat cu extensia .txt. Analiza Clustal poate fi efectuat i cu parametrii modificai, fiind determinate de scopul cercetrii i modalitatea de reprezentare a datelor. Sunt trei parametrii de baz pentru a modifica alinierea: matricele de substituii, penalitile de deschidere i penalitile de extindere a gap-urilor (tab. 4.7.).
Tabelul 4.8. Parametrii alinierii n ClustalW
PARAMETRuL
63
Se deschide pagina serverului Tcoffee accesnd www.tcoffee.org (Fig. 4.4.). Se tasteaz butonul Regular din linia TCOFFEE (prima linie). Se copie secvena cercetat n fereastra larg deschis (pot fi aplicate mai multe formate).
Se apas butonul Submit la captul sau la baza paginii (uneori programul poate s fie lent. Dac dorii s fii informai despre momentul finisrii procesrii, indicai email-ul personal). Se examineaz rezultatele obinute (Tcoffee v prezint hiperlink-ul ctre rezultatele Dstr). Prima linie a tabelului este dedicat AMS i include:
Matricea de substituii
Penalitatea pentru deschiderea gap-urilor (PDG) Penalitatea pentru extinderea gapurilor (PEG)
Matricele de substituie controleaz costul mutaiilor n aliniere de secvene. Dac selectai categoria de matrice ca PAM sau BLOSUM, Clustal W automat va selecta cei mai optimi indici. Prezicerea efectelor modificrii matricelor este dificil, n special c nu exist o matrice ideal. Dac secvenele sunt foarte similare, aceste modificri nu vor avea efect. n caz c, alinierea este greu de interpretat, nu se recomand de a schimba de la BLOSUM la PAM. PDG controleaz valoarea deschiderii gapurilor din aliniere. Cu ct mai nalt este valoarea, cu att mai dificil este de a insera un gap n aliniere. PDG se aplic pentru deschiderea fiecrui gap. Modificarea acestei nu are efecte mari, deoarece ClustalW le reajusteaz automat. PEG controleaz mrimea gapurilor. Nu este posibil de a prezice valorile optimale PDG/PEG, ns pentru fiecare familie de proteine exist valorile optimale, care se identific empiric.
EFECTuL PRODuS DE MODIFICAREA PARAMETRuLuI
msf_aln, clustalw_aln, fasta_aln fiierile txt ce conin alinierea n diferite score_html, score_ascii o reprezentare a alinierii n culori reprezentnd totodat i calitatea alinierii. Culoarea roie indic segmentele nalt similare, albastre acelea cu similaritate joas. Aceste fiiere nu pot fi utilizate n alte procesri.
Capitolul
Deoarece identificarea parametrilor optimali este foarte dificil, n general, se recomand de a utiliza cele de baz. Unicul argument este de a observa dac modificrile efectuate pot mbunti vizualizarea alinierii, n special a regiunilor cu conservare mai slab. Tcoffee este o metod recent dezvoltat pentru realizarea alinierilor multiple. Se bazeaz pe principii similare ClustalW, dar asigur o calitate mai nalt a alinierilor datorit timpului mai mare de procesare. Tcoffee aplic alinierea progresiv ca i ClustalW, dar realizeaz compararea secvenelor prin tot setul de secvene. Pe lng acuratee, proprietatea principal a acestei metode este de a alinia secvenele i structurile (EXPRESSO), posibilitatea evalurii acurateii unei alinieri (CORE) i posibilitatea combinrii mai multor AMS alternative n unul (Mcoffee) (tab. 4.8.).
Tabelul 4.9. Instrumentele necesare alinierii cu Tcoffee
TCOFFEE CORE MCOFFEE EXPRESSO
INSTRuMENTuL
Produce alinierea multipl. Evaluarea de ncredere n alinierea multipl existent. Permite combinarea mai multor alinieri ntr-una final ncorporeaz toat informaia despre structura n alinierea cercetat. Se va produce o aliniere mai bun dac structurile sunt cunoscute.
DESCRIEREA
date:
Pentru a obine alinierea multipl utiliznd metoda Tcoffee urmrii etapele

Figura 4.4. Pagina Web a serverului TCOFFEE
Capitolul
formate. Ele se pstreaz pentru a fi utilizate n alte programe de procesare.
64
A doua linie este dedicat arborilor filogenetici:
65
arborele filogenetic un arbore filogenetic real n formatul Newick, generat

dnd un arbore provizoriu, generat de Tcoffee n formatul Newick.

Exerciiul 4.1.
pdf o imagine pdf a arborelui filogenetic ce corespunde fiierului phylogenetic_tree. Aplicaia EXPRESSO reprezint ultima dezvoltare a metodei Tcoffee, care aplic BLAST pentru cutarea n baza de date PDB pentru structurile a cror secvene sunt similare cu secvena cercetat. Alinierea final este cu mult mai exact dect alinierea simpl. EXPRESSO este mai lent, dar, posednd informaie suficient, produce cea mai bun aliniere la ziua de azi. EXPRESSO aliniaz structurile utiliznd SAP, un program ce aliniaz secvenele i structurile aplicnd FUGUE. Pentru a porni EXPRESSO este suficient de a tasta butonul Regular din linia EXPRESSO (Fig. 4.6.), restul fiind similar cu activarea n TCOFFEE. n final se gsete un fiier template_list, care conine lista fiecrei structuri care programul l-a asociat cu secvena original. Dac fiierul este gol, nseamn c nici o structur nu a fost asociat cu secvena analizat. Ulterior, pentru a identifica regiunile de ncredere ale alinierilor se copie secvena n aplicaia CORE. Pot fi utilizate formatele MSF, ALN, FASTA i PIR. Dei, aceste evaluri sunt empirice, ele demonstreaz resturile de aminoacizi marcate cu galben / oranj / rou, care prezint indexul 5 (din 10) i corespund unui nivel de 80% probabilitate a alinierii corecte.
din alinierea multipl din Tcoffee utiliznd metoda Neighbor-Joining.
Extragei din NCBI RefSeq rezultatele cutrii dup cuvintele cheie Troponin I i human. Introducei secvenele n Clustal i efectuai analiza n baza matricelor BLOSUM i PAM. Comparai rezultatul obinut. Care rezultat l considerai bun i de ce?
Exerciiul 4.2.
Folosind diferite tabele BLOSUM (le putei gsi pe http://www.ncbi.nlm.nih. gov/IEB/ToolBox/C_DOC/lxr/source/data/), reevaluai scorurile alinierilor. Dac se observ diferene n valorile scorului, explicai care sunt ele. Lund n consideraie esena matricelor BLOSUM utilizate, elaborai un grafic al dependenei dintre tipul matricei i nivelul general al scorului alinierii.
Capitolul
Exerciiul 4.3.
Care vor fi aciunile pentru mbuntirea AMS, reieind din scopul de a obine grupe nalt nrudite de secvene? Poate scorul de similaritate s fie un indiciu pentru a ridica calitatea alinierii? Care sunt ali parametrii aplicai pentru ameliorarea AMS?
Exerciiul 4.4.
Aplicai penalitile pentru lacun. Folosind combinaiile diferite dintre penalitatea pentru deschiderea lacunei i penalitatea pentru extinderea ei, obinei cel mai nalt scor pentru aliniere.
Exerciiul 4.5.
n baza alinierii rezultate extragei fragmentul cel mai lung al alinierii. Realizai analiza descris n ex. 3.9, la nivelul aminoacidic i nucleotidic.
Exerciiul 4.6.
Ajustai fragmentul nucleotidic aliniat folosind notarea din tab. 4.6. Realizai analiza secvenei la nivel de nucleotid. Comparai rezultatele cu cele din ex. 4.5 i explicai diferenele observate.
Exerciiul 4.7.
Folosind metoda Gibbs sampler, identificai careva pattern-uri, la nivelul secvenelor aminoacidice i celor nucleotidice. Analizai structura acestui pattern dup principiul din ex. 3.9.
Capitolul
66
67
Exerciiul 4.8.
Utiliznd BLAST, identificai care sunt structurile funcionale comune secvenelor studiate. Notai care sunt ele, cror familii de proteine sunt caracteristice.
REFERINE
Phred, Phrap www.phrap.org cap3 www.mainlab.clemson.edu/cgi-bin/gdr/gdr_cap3 ExPASyBLAST www.expasy.ch/tools/blast/ Phylip bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk. html PSSM www.ncbi.nlm.nih.gov/blast/blastcgihelp. shtml#pssm Gibbs sampler bayesweb.wadsworth.org/gibbs/gibbs.html pal2nal coot.embl.de/pal2nal Protogene (www.tcoffee.org) SPROT www.expasy.ch/sprot/ ClustalW www.ebi.ac.uk/clustalw www.ch.embnet.org/software/ClustalW.html pir.georgetown.edu/pirwww/search/multialn. shtml searchlauncher.bcm.tmc.edu/multi-align/multialign.html align.genome.jp/ www.ddbj.nig.ac.jp/search/ clustalw-e.html ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW/ Tcoffee www.tcoffee.org Altele www-lmmb.ncifcrf.gov/~toms/sequencelogo.html blocks.fhcrc.org/sift/SIFT.html blocks.fhcrc.org/codehop.html
Exerciiul 4.9.
Comparai rezultatele obinute n ex. 4.5, 4.7 i 4.8. Care este concluzia privind aplicarea diferitor metodologii pentru analiza asemnrilor de structur a grupelor nrudite de proteine.
Capitolul
Capitolul
Posednd informaia complet despre secvenele de proteine studiate, elaborai o descriere complex a membrilor grupului dat cu folosirea datelor obinute pe parcursul realizrii exerciiilor.
Exerciiul 4.10.
68
De exemplu, dou secvene similare, vor fi amplasate pe dou ramuri adiacente periferice. Ramura de mai jos, format prin jonciunea acestor dou ramuri periferice, reprezint secvena ancestral comun a acestor dou secvene. Nu se cunoate ce reprezint aceast secven i cum s-a modificat rezultnd secvenele descendente. Ramura ancestral se unete cu alte ramuri - secvene ancestrale mai distante. n limbajul filogenetic frunzele arborelui reprezint Uniti Taxonomice de Operare (UTO). Fiecare nod reprezint o unitate taxonomic de operare ancestral. (Fig.5.1.)
69
AnAlIzA fIloGEnETIC
Arbore cu rdcin
Capitolul
Clade metoda distance maximum parsimony maximum likelihood Neighbor-Joining outgroup Phylip
Rdcin
Lungimea ramurei Ramur Secvena C
UTO-uri sau "frunze"
5.1. Alegerea secvenelor pentru obinerea arborilor filogenetici

Filogenetica este un tip special de filogenie prin care se realizeaz compararea genelor echivalente din specii diferite pentru reconstruirea arborelui genealogic a acestor specii i determinarea grupelor de specii mai puin sau mai mult nrudite. Metodele filogeneticii pot fi aplicate n cadrul unei familii de gene pentru a reconstrui istoria acestei familii. Istoriile evoluiei moleculelor sunt incredibil de bogate i cuprind evenimente de mutaii i deleii, duplicaii sau speciaii, obinerea sau pierderea funciei, inactivarea i multe alte evenimente care au produs diversitatea lumii de astzi. Analiza filogenetic a unei familii nrudite de secvene de acizi nucleici sau proteine, stabilete modul cum au derivat membrii unei familii n decursul evoluiei. Relaia evolutiv ntre secvene este prezentat grafic arbore filogenetic. Obiectivul analizei filogenetice este aranjarea ramurilor i stabilirea lungimii ramurilor n arbori pentru a reprezenta ct mai corect relaiile dintre secvene. Scopul filogeniei este analiza istoriei vieii i a diversitii organismelor vii. Principiile de baz ale studiilor filogenetice constau n gruparea taxonilor (speciilor, secvenelor) dup gradul lor de nrudire sau similaritate. Analiza filogenetic a secvenelor de acizi nucleici i proteine permite identificarea celor mai nrudite secvene. Astfel, cnd studiem o familie de gene la un organism sau un grup de organisme, relaiile filogenetice dintre gene pot indica funciile probabile, conservate pe parcursul evoluiei, care ulterior pot fi confirmate experimental. Arborii filogenetici includ ramuri periferice care reprezint secvenele analizate i ramuri interne ce indic secvenele ancestrale comune. Astfel, arborii reprezint modul n care au evoluat secvenele din cele ancestrale i ct de nrudite snt acestea.
Arbore fr rdcin
Secvena A Secvena C
Secvena B
Secvena D
Figura 5.1. Tipuri de arbori i componentele unui arbore filogenetic.
Clad este un grup de uniti taxonomice de operare, care includ un grup de secvene i nodul ancestral al acestora. Rdcina este strmoul tuturor unitilor taxonomice de operare. Ramura definete relaia dintre clade sau o unitate taxonomic de operare i restul arborelui. Un arbore poate fi scalat, cnd lungimea ramurilor prezint uniti a timpului evoluiei sau nescalat, cnd numai topologia arborelui este informativ. Arborele poate s fie nrdcinat sau nenrdcinat. Un arbore nenrdcinat nu poate identifica calea evolutiv. Dac arborele este nenrdcinat, putem presupune c orice nod sau grup de uniti taxonomice de operare, dintre toate celelalte, pot fi cel mai apropiate de strmoul comun. Rdcina unui arbore reprezint cel mai vechi strmo comun. Obiectivul analizei filogenetice urmrete obinerea acelor arbori, care vor indica diferene ntre specii (secvene), schimbrile care decurg de-a lungul fiecrei ramuri.
Capitolul
ANALIZA FILOGENETIC
Secvena B
Capitolul 5.
Nod
Secvena A
AnAlIzA fIloGEnETIC
70
Trei metode maximum parsimony, distance i maximum likelihood sunt utilizate pentru elaborarea arborilor filogenetici. Arborii sunt modelai dup cel mai bun scor al variaiei secvenei n fiecare coloan a alinierii multiple a secvenelor. Alternativ, numrul de caractere diferite n aliniere ntre fiecare pereche de secvene este calculat drept indice al distanei evolutive ntre secvene. Pentru a descrie pattern-ul observat n evoluia secvenelor pot fi mai mult de un arbore. Utiliznd dou sau mai multe metode, arborele poate fi mbuntit i ajustat prin utilizarea altor date biologice. Metodele filogeneticii pot fi aplicate n cadrul unei familii de gene pentru a reconstrui istoria acestei familii. Istoria evoluiei moleculelor include mutaii i deleii, duplicaii sau speciaii, obinerea sau pierderea funciei, inactivarea i multe alte evenimente care au produs diversitatea lumii de astzi. Prin intermediul bioinformaticii analiza filogenetica vizeaz trei scopuri majore: Determinarea celor mai nrudite organisme pentru specia de interes. n cazul n care studiem o nou su de bacterii, putem s secveniem ARNr i prin metode bioinformatice s plasm noua su n arborele filogenetic pe baza tuturor ARNr cunoscute. Descoperirea funciei unei gene. n cazul studierii unei gene, putem s utilizm arborii filogenetici pentru a determina dac gena studiat este ortoloag cu alte gene bine caracterizate din alte specii. Determinarea originii unei gene. Pe parcursul evoluiei are loc transferul de gene de la o specie la alta (de ex. n timpul infeciilor virale). Arborii filogenetici reprezint calea cea mai bun pentru a determina aceste evenimente, numite transferuri orizontale de gene. Pentru a stabili relaia filogenetic dintre dou secvene, trebuie de msurat timpul care a separat divergena acestora de la strmoul comun. Pentru aceasta secvenele se compar utiliznd alinierea multipl a secvenelor, se msoar distana i se stabilete scenariul evolutiv. Pentru a realiza cu succes aceste analize, este necesar de argumentat tipul de secvene pe care dorim s le utilizm secvene de ADN sau secvenele aminoacide. Se calculeaz gradul de saturare a site-urilor sinonimice ale secvenelor. Dac secvenele sunt saturate cu site-uri sinonime, msurarea distanei se realizeaz la nivel de secvene aminoacide. n caz contrar, cnd site-urile sinonimice nu sunt saturate, msurarea distanei se recomand s se efectueze la nivel de ADN. n dependen de necesitatea obinerii unui arbore filogenetic al genei sau speciei, trebuie corect alese secvenele pentru analiz, lund n consideraie relaiile dintre gene. Genele omoloage sunt genele care provin de la o gen ancestral comun i pot fi: ortoloage - genele separate prin speciaie, gene omoloage structural i funcional, dar care aparin unor specii diferite (Fig. 5.2., A1, A2 , B1 i B2). paraloage - gene nrudite din genomurile unor specii care aparin aceluiai grup taxonomic de vieuitoare, au derivat prin duplicaie genic din aceeai gen ancestral. Una din genele duplicate poate s pstreze funcia original, pe cnd cealalt gen poate s preia o funcie nou (Fig.5.2., A1 i B1). Xenoloage - genele primite prin transferul lateral de gene ntre dou organisme. Aceasta conduce la faptul c specia va conine o gen care nu are aceeai istorie ca a genomului n care s-a inserat.
A Duplicaie A Speciaie A1 B1 A2 B2 A
71
AnAlIzA fIloGEnETIC
Capitolul
Figura 5.2. Ortologie i paralogie
Cnd se alege un grup de gene omoloage pentru a construi un arbore filogenetic obinem un arbore genic arbore, care reflect istoria genelor pe care le conine. Dac alegem toi membrii paralogi a unei familii largi de gene, arborele genic va arta numai istoria acestei familii de gene, reconstruind lanul de evenimente al duplicaiilor, care au pornit de la o singur gen ancestral i a durat pn le situaia actual. Dac selectm un grup de gene ortoloage din diferite specii, se va obine un arbore al speciilor, care reconstruiete evenimente de divergen ale genelor. Un exemplu de astfel de arbore este arborele filogenetic al ARNr utilizat pentru reconstruirea arborelui vieii. Genele ARNr sunt prezente n toate organismele vii i sunt ortoloage ntre specii. Dou gene care sunt omoloage i provin din dou specii diferite, nu sunt obligatoriu ortoloage. Acestea pot fi paraloage. Amestecul ortologilor i paralogilor ntr-un arbore filogenetic este sursa principal de erori. O metod empiric de determinare a genelor ortoloage, utiliznd BLAST este prezentat mai jos:
Se alege o secven A din genomul A. Se extrag datele din BLAST, comparnd secvena A i toate secvenele ntr-un genom complet B. BLAST va ntoarce o secven B (prima n lista de rezultate). Se compar secvena B cu toate secvenele din genomul A. Aceasta va da n rezultate secvena A (prima n lista de rezultate). Acest mecanism permite de determinat dac secvenele A i B sunt ortoloage n genomurile A i B.
Capitolul
AnAlIzA fIloGEnETIC
72
Evoluionistul Eugene Koonin a asamblat o colecie de calitate de gene ortoloage pe NCBI. O colecie de gene ortoloage cunoscut ca COG (Clusters of Orthologous Groups) poate fi accesat on-line pe www.ncbi.nlm.nih.gov/COG/. Alte colecii de gene omoloage includ HOGENOME i HOVERGEN dezvoltate de Ple Bioinformatique Lyonnais (http://pbil.univ-lyon1.fr/). Metodele de reconstruire a arborilor filogenetice necesit construirea unor matrice de distan sub form tabelar n care se indic distana, sau numrul de evenimente evolutive care separ fiecare pereche de secvenele analizate. Aceast matrice se construiete prin compararea perechilor de secvene. Msurarea distanei dintre dou secvene se realizeaz n dou etape: realizarea unei alinieri multiple a secvenelor care include aceste dou secvene; msurarea distanei dintre fiecare pereche de site-uri. Alinierea multipl a secvenelor este factorul decisiv n construirea arborelui filogenetic. Pentru aceasta trebuie de urmat urmtoarele etape: De asigurat c coloanele n aliniere nu conin gap-uri. Gap-urile provoac numeroase greeli n analiza filogenetic. Unele metode, precum cea utilizat n ClustalW, ignor orice coloan care conine gap-uri. Eliminarea extremitilor alinierii multiple. Capetele N- i C- terminale tind s fie foarte slab conservate, astfel i slab aliniate. Se recomand eliminarea acestora. Eliminarea regiunilor cu mute gap-uri (lacune) din aliniere. Deseori, regiunile interne cu numeroase lacune corespund buclelor i acest fel de alinieri nu sunt semnificative. Utilizarea celor mai informative blocuri. O alinierea multipl ideal pentru construirea arborelui, trebuie s fie o aliniere de secvene de nalt calitate, cu un nivel mediu de identitate, astfel fiecare poziie s conin traseul istoric al unei familii. Este util de lucrat cu blocuri de coloane. Pentru realizarea unei alinieri multiple ale secvenelor putem utiliza instrumente web: ClustalW: www.ebi.ac.uk/clustalw MUSCLE: phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py Tcoffee: www.tcoffee.org. O succesiune de constatri trebuie s fie luate n consideraie la alegerea metodei (Fig. 5.3.).
73
AnAlIzA fIloGEnETIC
Nu Se poate de recunoscut clar o similaritate de secvene? (4) Nu De ncercat metoda maximum likelihood, de focusat asupra regulilor de similaritate, sau analiza nu poate s fie realizabil (5) Figura 5.3. Alegerea metodei de analiz filogenetic Da
Metodele distance De analizat ct de bine datele suport prezicerea (6)
Capitolul
5.2. Metode utilizate n analiza filogenetic

Programele bazate pe metoda distance, sunt pe larg utilizate, deoarece opereaz cu un numr mare de secvene. Cele care utilizeaz metoda maximum likehood sunt mai exacte, necesit mai multe cunotine n modelele evolutive, iar datorit complexitii de analiz bioinformatic se opereaz cu un numr mic de secvene. Pot fi elaborai mai muli arbori n baza criteriului selectat pentru cel mai probabil arbore. Patternul de ramificare n aceti arbori poate fi comparat pentru a gsi care ramuri sunt protejate i astfel reinute de sistem. PAUP prezint metode pentru a gsi arborii consens care sunt analizai de programa CONSENSE, din pachetul PHYLIP.
(1) Secvenele alese pentru analiza filogenetic pot s fie secvene nucleotidice sau de aminoacizi. Diferite programe utilizeaz secvene i formate de secvene diferite. (2) Analiza filogenetic poate fi efectuat cnd secvenele produc o aliniere multipl, unde similaritatea secvenelor apare sub prezena de poziii conservate de coloane n aliniere. Unele variaii sunt necesare n aceste coloane pentru a efectua analiza filogenetic. Alinierile nu trebuie s includ un numr mare de lacune (gap-uri). Unele regiuni aliniate pot fi mai bine conservate dect altele i analiza poate fi restrns la utilizarea acestora. (3) Reprezint etapa de selectare a secvenelor n care majoritatea reziduurilor formeaz coloane, cu unele variaii. Unele coloane vor avea n alinierea multipl acelai reziduu la toate secvenele, alte coloane vor include variaii. Majoritatea reziduurilor comune n coloanele variabile reprezint un grup mai timpuriu de secvene, de la care au provenit altele. Dac sunt prea multe variaii, mai multe posibiliti de relaii ancestrale vor fi posibile. Dac numrul de variaii este mic, aceste secvene sunt potrivite pentru analiza prin metoda maximum parsimony. n aceast analiz, arborii potrivesc cel mai bine variaiile din coloanele alinierii multiple a secvenelor. Cele mai bune rezultate se obin cnd cantitatea de variaii dintre toate perechile de secvene este similar (nu sunt prezente secvene prea diferite) i cnd cantitatea de variaii este mic. Analiza maximum likelihood la fel poate fi utilizat pentru prezicerea variaiei secvenelor n fiecare coloan a alinierii multiple. (4) Reprezint etapa de analiz filogenetic n care sunt alese secvenele pentru analiza filogenetic prin metoda distanelor. Aceast metod nu depinde de prezena variaiei limitate n fiecare coloan a alinierii multiple ca n cazul metodei maximum parsimony. n metodele distanei, cantitatea variaiilor ntre fiecare pereche de secvene n aliniere este msurat ca o fracie a caracterelor aliniate ce se schimb (distana genetic). Ca rezultat metoda nu este senzitiv ca i metoda maximum parsimony la variaiile coloanelor aliniate. Metoda distanelor prezice un arbore filogenetic bazat pe gradul diferenelor dintre perechile de secvene n alinierea multipl a secvenelor i poate fi utilizat cnd semnificaia variaiei este suficient pentru a distinge perechile de baze. O dat cu creterea distanei, incertitudinea alinierii de asemenea crete, de aceea poate fi necesar o etap suplimentar de potrivire a alinierii multiple a
Capitolul
AnAlIzA fIloGEnETIC
Alegerea unui set de secvene nrudite (1)
Obinerea unei alinieri multiple a secvenelor (2)
Se obine o similaritate strict de secvene? (3)
Da
Metodele maximum parsimony sau maximum likelihood
74
secvenelor. Secvenele cu astfel de variaii (care au nevoie de potrivire sau acomodare) pot fi utilizate pentru analiza filogenetic prin metodele maximum likelihood. Metodele distanei pot fi utilizate pentru un numr mare de secvene i de obicei nu sunt semnificativ afectate de rata de variaie a mutaiilor n timpul evoluiei. (5) n cazul n care secvenele posed o variaie considerabil, se utilizeaz programe pentru ameliorarea alinierii multiple a secvenelor, sau cele mai similare regiuni pot fi extrase i utilizate n continuare pentru analiza filogenetic. Metodele maximum likelihood pot fi utilizate pentru orice set de secvene nrudite, ns ele sunt n special utile n cazul cnd secvenele sunt mai variate. Un avantaj al metodelor maximum likelihood este, c acestea includ modelele evolutive care relateaz variaiile n secvene. (6) Dac arborele obinut se bazeaz pe variaiile numai din cteva coloane alinierii sau cteva perechi de secvene, aceste coloane sunt reasamblate randomizat n alinierea multipl a secvenelor pentru a produce noi alinieri, procedur cunoscut ca bootstrap-ing, ceea ce conduce la apariia noilor ramuri n arborele original. Taxonul 1 G G G Taxonul 2 A A Taxonul 4 Taxonul 3 A Taxonul 1 G G A Taxonul 3 Taxonul 2 G A A G Taxonul 4 Taxonul 4 Taxonul 1 G G Taxonul 2 G A A Taxonul 3
75
AnAlIzA fIloGEnETIC
Figura 5.4. Exemplu de analiz filogenetic, bazat pe poziia 5 a secvenelor din Tab. 5.1. (explicaii n text)
Maximum parsimony este prima metod pentru analiz filogenetic care elaboreaz arborele (sau arborii) evolutivi i care const dintr-un numr minim al etapelor necesare pentru a genera variaiile observate n secvene dintr-o secven ancestral comun. Metoda mai este denumit metoda evoluiei minimale. O aliniere multipl a secvenelor este necesar pentru a prezice care poziii ale secvenelor ar putea s corespund analizei. Aceste poziii vor aprea n coloane verticale n alinierea multipl a secvenelor. Arborii filogenetici care necesit numrul cel mai mic de schimbri evolutive pentru a produce schimbri observabile ale secvenelor de la secvenele ancestrale sunt reinui de program pentru fiecare poziie aliniat. n final, acei arbori care produc cel mai mic numr de schimbri pentru toate poziiile secvenelor sunt identificai. Aceast metod este cea mai util pentru secvenele foarte similare i este limitat la un numr mic de secvene. Algoritmul de executare nu este complicat, ns garanteaz obinerea celui mai bun arbore, deoarece toi arborii posibili pentru secvenele nrudite sunt examinai. Un exemplu de analiz prin metoda maximum parsimony este ilustrat n exemplul de mai jos, cu patru secvene (tab. 5.1., Fig. 5.4.).
Tabelul 5.1. Exemplu de analiz filogenetic n format tabelar (explicaii n text)
TAXON POZIIILE SECvENEI (SITEuRILE I CARACTERELE)
1 2 3 4
1 A A A A
2 A G G G
3 G C A A
4 A C T G
5 G G A A
6 T T T T
7 G G C C
8 C C C C
9 A G A G
n alinierea multipl a secvenelor numai unele variaii ale secvenelor ntr-un site dat sunt utile pentru analiza parsimony. n analiza tuturor arborilor posibili nenrdcinai, este considerat alinierea multipl a secvenelor pentru fiecare site sau coloan.
Aceast metod determin arborele care schimb orice secven dintre toate celelalte prin cel mai mic numr de pai. Aceast analiz va include urmtoarele etape: 1. Se analizeaz patru taxoni care genereaz trei arbori nenrdcinai posibili. 2. Unele site-uri sunt informative, acestea favoriznd un arbore dintre ceilali (site-ul 5 este informativ, iar site-urile 1, 6 i 8 nu sunt informative). 3. Pentru a fi informativ, un site trebuie s aib aceeai secven de caractere n cel puin doi taxoni (site-urile 1, 2, 3, 4, 6 i 8 nu sunt informative; site-urile 5, 7 i 9 sunt informative). 4. Numai site-urile informative necesit a fi analizate. Se obin trei arbori posibili (Fig. 5.4.). Arborele optimal este obinut prin nsumarea numrului de schimbri la fiecare site informativ pentru fiecare arbore i selectarea arborelui care necesit cel mai mic numr de schimbri. Arborele 1 este cel mai econom i lungimea lui va fi egal cu 4 (cte o schimbare n poziiile 5 i 7 i dou schimbri n poziia 9). Variaiile secvenei n fiecare site din aliniere sunt plasate n vrfurile arborilor i arborele care solicit cel mai mic numr de schimbri pentru a produce aceste variaii n acest site este determinat. Aceast analiz este repetat pentru fiecare site informativ i arborele (sau arborii) care suport cel mai mic numr de schimbri sunt reinui. Lungimea arborelui, definit ca suma numrului de etape n fiecare ramur a arborelui, va fi minimal. Programele de baz pentru analiza maximum parsimony sunt oferite de pachetul PHYLIP pe http://evolution.genetics.washington.edu/phylip.html. Pentru analiza secvenelor de acizi nucleici se utilizeaz urmtoarele programe: DNAPARS, DNAPENNY, DNACOMP, DNAMOVE, iar pentru analiza secvenelor proteice se utilizeaz PROTRAPS. Metoda distanei (distance methods) este folosit n analiza filogenetic i este bazat pe distanele genetice ntre perechile de secvene n alinierea multipl a secvenelor. Distana genetic dintre dou secvene reprezint fracia de poziii aliniate n care o secvena s-a schimbat. n contrast, identitatea secvenelor este fracia de poziii aliniate, care sunt identice. Gap-urile pot fi ignorate n calcularea distanei, sau pot fi considerate drept substituii. Matrici de scor sau de substituie pot fi utilizate n calcule mai complicate, ns principiul este acelai. Perechile de secvene care au cea mai mic distan sunt vecine. Pe arbore, aceste secvene mpart acelai nod, poziia ancestral comun, i fiecare este unit de nod printr-o ramur. Scopul metodei distanelor este identificarea arborelui, poziiile ramurilor amplasate corect, iar distanele dintre fiecare pereche de secvene ar reprezenta distana original a msurrilor. Calculul distanelor dintre perechile de secvene prin alinierea multipl a secvenelor este prima etap n metoda distanei n analiza filogenetic. Aceste distane sunt apoi plasate
Capitolul
Capitolul
AnAlIzA fIloGEnETIC
76
ntr-un tabel. Cele mai nrudite perechi de secvene cu cea mai mic distan ntre ele, sunt apoi alese pentru a fi vecine i plasate pe ramuri adiacente n arborele filogenetic. Secvenele mai puin nrudite sunt adugate n progresie la arbore, folosind tabelul distanelor. Programele FITC, KITSCH i NEIGHBOR, din pachetul PHYLIP utilizeaz metoda distanelor n analiza filogenetic. Programe ca DNADIST i PROTDIST din acelai pachet sunt utilizate la fel n realizarea analizei distanelor. Exemplu de analiz: S presupunem c avem patru secvene, A-D (Fig. 5.5.) i c ele au derivat din schimbrile evolutive reflectate de arborele (Fig. 5.6.). Numrul de schimbri de-a lungul ramurilor arborelui corespund distanelor dintre secvene (tab.5.2 i 5.3).
SECVENA SECVENA SECVENA SECVENA A B C D ACGCGTTGGGCGATGGCAAC ACGCGTTGGGGCACGGTAAT ACGCAATGAATGATGATAAT ACACATTGAGTGATAATAAT
77
n cazul arborelui prezis pentru patru secvene se obine expresia: dAB + dCD dAC + dBD = dAD + dBC. n acest exemplu aditivitatea este 3+37+7=8+6. n ali arbori, pot avea des schimbri i reversii paralele. Astfel, condiia aditivitii poate fi relaxat la dAB+dCDdAC+dBD i dAB+dCDdAD+dBC se va pstra i pentru secvenele care nu sunt n total aditive. Aceast metod poate fi utilizat pentru evaluarea arborilor i identificarea arborelui evolutiv minim pentru patru secvene i un numr adiional de secvene prin extinderea analizei la grupe adiionale de patru secvene. Metoda distanei utilizeaz aditivitatea n distanele dintre secvene pentru calcularea lungimii ramurilor. Deseori valorile pentru lungimile ramurilor pot fi foarte mici, negative sau egale cu zero. Aceste rezultate pot fi consecine ale erorilor n secvene, n alinierea secvenelor sau din simpla coinciden c dou sau mai multe secvene s-au separat aproximativ n acelai timp de la un strmo comun. Aceste coincidene a divergenei poate crea ramuri scurte, lipsa ramurilor sau valorile negative a lungimilor ramurilor n dependen de distanele observate. Deseori pentru elaborarea celui mai bun arbore este necesar crearea unui outgroup pe baza celor mai asemntoare secvene. Acesta furnizeaz un punct de referin care trebuie s fie apropiat de rdcina arborelui i analiza poate fi constrns pentru a plasa outgroup-ul mai aproape de rdcin. NeighborJoining este o metod de clusterizare utilizat pentru construirea arborilor filogenetici, bazai pe secvenele de ADN sau proteine, algoritmul necesitnd date despre distana dintre fiecare pereche de taxoni (specii sau secvene). Este bazat pe un algoritm cu urmtoarele etape: 1. calcularea matricei Q, bazat pe matricea de distan; 2. gsirea perechilor de taxoni n Q, care au cea mai mic valoare. Se creeaz un nod n arbore, care va uni aceti doi taxoni; 3. calcularea distanei fiecrui taxon (n perechi) pentru noul nod; 4. calcularea distanei dintre toi taxonii, excluznd aceast pereche, pentru formarea unui nou nod; 5. reiniierea algoritmului, considernd perechea (vecinii alturai) ca un singur taxon i folosind distanele calculate n etapele precedente.
AnAlIzA fIloGEnETIC
AnAlIzA fIloGEnETIC
Capitolul
Figura 5.5. Alinierea multipl a secvenelor (explicaii n text)
Tabelul 5.2. Distanele dintre secvene, numrul de etape necesare pentru a schimba o secven n alta (explicaii n text)
nAB = 3 nAC = 7 nAD = 8 nBC = 6 nBD = 7 nCD = 3
Tabelul 5.3. Tabelul distanelor (explicaii n text)

A A B C D B 3 C 7 6 D 8 7 3 -
n acest arbore, fiecare schimbare decurge numai o dat i nu exist schimbri consecutive. Dei acest pattern de schimbri este idealizat, i mai multe grupuri de secvene ar trebui s aib exemple de mai multe schimbri produse dect o singur dat, paralel au loc schimbri de reversie spre caracterul original, exemplu care utilizeaz principiul aditivitii pentru patru secvene (Fig. 5.6.).
A 2 4 1 B 2 D 1 C
5.3. Programe utilizate n analiza filogenetic

Unele resurse filogenetice nu sunt disponibile online, fiind necesar instalarea pe calculatoarele personale, ns exist i un numr destul de mare de programe care pot fi accesate on-line (tab. 5.4.).
Figura 5.6. Arborele filogenetic obinut. Suma lungimilor ramurilor ntre oricare dou secvene a arborelui este egal cu aceeai valoare a distanei dintre secvene
Capitolul
78
Tabelul 5.4. Resurse filogenetice disponibile pe web
ADRESA
AnAlIzA fIloGEnETIC
79
DESCRIEREA
Site-uri on-line pentru elaborarea arborilor filogenetici www.ebi.ac.uk/clustalw www.genebee.msu.ru/services/ phtree_reduced.html www.tcoffee.org www.jalview.org http://www.atgc-montpellier.fr/phyml/ www.phylogeny.fr/varsion2_cgi/one_ task.cgi?task_type=bioinj http://sites.univ-provence.fr/evol/ figenix http://bioweb.pasteur.fr/seqanal/ phylogeny/intro-en.html http://evolution.genetics.washington. edu/phylip/software.html www.ucmp.berkeley.edu/subway/ phylo/phylosoft.html http://paup.csit.fsu.edu/index.html www.ncbi.nlm.nih.gov/About/primer/ phylo.html www.techfak.unibielefeld.de/bcd/ Curric/MathAn/mathan.html ClustalW se poate de utilizat pentru efectuarea alinierilor multiple a secvenelor i construirea arborilor NJ. Serverul Genebee permite construirea arborilor filogenetici printr-o singur etap n baza AMS prin algoritmii de clusterizare i cele topologice. Tcoffee construiete arbori NJ ntr-o singur etap. Se utilizeaz pentru producerea de arbori NJ. Utilizeaz o metod foarte bun pentru construirea arborilor prin calcularea probabilitii maximale. Interfa pentru BioNJ, bazat pe algoritmul NJ. Este un instrument Java util, care adun membrii familiilor de proteine i construiete arborii asociai. Interfaa web pentru Phylip
Metodele utilizate n construirea arborilor filogenetici nu corespund totalmente tuturor criteriilor de analiz. Aplicarea ClustalW n elaborarea unui arbore filogenetic se face n cteva etape:
Se selecteaz un set de gene omoloage, n dependen de scopul analizei filogenetice i se efectuiaz o aliniere multipl a acestora. Se trece pe www.ebi.ac.uk/clustalw/. Se introduce alinierea multipl n fereastra Enter or paste a set of sequences in any supported format:. Se poate de introdus alinieri multiple n mai multe formate, precum AlN (formatul ClustalW), MSF sau FAStA. Se alege NJ (Neighbor Joining) din meniul tREE tPE. Acest meniu ofer mai multe metode pentru construirea arborelui. Specialitii n general agreez metoda NJ (Neighbor Joining). Apoi urmeaz meniul CoRRECt DiSt. Aceast opiune permite corectarea substituiilor multiple. Ea duce la elongarea ramurilor la arbore, ceea ce este foarte important n cazul secvenelor ndeprtat nrudite. Selecia n meniul iGNoRE GAPS. Aceast opiune permite ignorarea oricrei coloane din alinierea multipl, care conine gap-uri. Astfel toate secvenele vor fi comparate pe acelai numr de resturi. Se apas butonul Run. n urma acestei operaii, ClustalW va construi un arbore NJ. Se salveaz reprezentarea grafic a arborelui. Se tasteaz butonul ViewPH File i folosete FileSave As pentru a salva versiunea text a arborelui. Arborele se salveaz n formatul text Newick, care este foarte util pentru stocarea i pstrarea arborilor. Numeroase pachete filogenetice recunosc i utilizeaz acest format.
AnAlIzA fIloGEnETIC
Capitolul
Resurse filogenetice pe web Una din cele mai mari colecii de resurse disponibile pe web. O list complet de resurse filogenetice. Pagina start pentru PAUP, pachet de instrumente filogenetice ce utilizeaz Parcimony. Explicaii despre studierea filogeniei. Un curs complet despre metodele construciei arborilor filogenetici.
Un alt program, Phylip, posed pachetul de instrumente cel mai larg utilizate pentru construirea arborilor filogenetici de o nalt calitate. Una din proprietile cele mai frumoase ale instrumentelor este posibilitatea bootstrap-ului arborelui. Phylip se poate de utilizat pentru construirea oricrui arbore i putem aplica orice metod n dependen de preferina cercettorului. nainte de a ncepe lucrul cu acest pachet de instrumente, trebuie s se dispun de o aliniere multipl a secvenelor de o nalt calitate. Succesiunea pailor este urmtoarea:
Se acceseaz http://bioweb.pasteur.fr/seqanal/phylogeny/intro-en.html. n fereastra deschis, este reprezentat pachetul de instrumente Phylip instalat pe acest server. Se poate de obinut un arbore filogenetic prin toate programele propuse de acest pachet ns trebuie s se ia n consideraie scopul, calitatea alinierii etc. Se apas link-ul protdist. Apare pagina Protdist. Pentru a construi un arbore bazat pe distan, mai nti trebuie s se genereze o matrice de distane, care conine distanele dintre perechile de secvene, msurate pe baza AMS. Diferite metode permit msurarea distanei dintre perechile de secvene pentru ADN i secvenele de aminoacizi, la fel metodele difer pentru secvene nrudite ndeprtate i apropiate. Protdist utilizeaz matricele de substituie pentru a msura distana dintre secvenele aliniate. Protpars evalueaz numrul de mutaii la nivel de ADN n relaie cu secvenele de aminoacizi observate. Se ntroduce adresa e-mail, n cmpul cerut de Protdist, dup lansarea executrii. Dac serverul este suprasolicitat sau dac se analizeaz alinieri de secvene foarte mari, Phylip va expedia rezultatele prin e-mail, n caz contrar rezultatele pot fi vizualizate on-line. n dependen de rezultatele dorite, se seteaz datele din barele cu meniuri.
Colecii de gene ortoloage www.ncbi.nlm.nih.gov/COG/ http://pbil.univ-lyon1.fr/databases/ hovergen.php http://pbil.univ-lyon1.fr/databases/ hogenom.php http://pbil.univ-lyon1.fr/databases/ homolens.php http://rdp.cme.msu.edu/, http:// bioinformatics.psb.ugent.be/ webtools/rRNA/ssu, http://bioinformatics.psb.ugent.be/ webtools/rRNA/lsu/index.html Un cluster de secvene ortoloage meninute de NCBI. O colecie de gene ortoloage la vertebrate. O colecie de gene ortoloage la bacterii. O colecie de gene ortoloage la animale. Colecii de secvene de ARN ribosomal, util n clasificarea i identificarea organismelor noi.
Capitolul
80
nc o soluie este construirea arborelui utiliznd probabilitatea maxim (maximum likelihood) prin metoda PhyML. Arborii construii prin aceast metod sunt considerai cei mai exaci arbori, deoarece se obine un arbore care cel mai bine explic alinierea secvenelor. Metoda probabilitii maxime (maximum likelihood) asigur un nivel de probabilitate maxim al alinierii secvenelor i faptul c arborele prezint aceeai istorie evolutiv. Aceast metod se restrnge la un numr mic de secvene, deoarece necesit mult timp pentru a fi analizate. Pentru construirea arborilor prin aceast metod vizitai serverul PhyML (Universitatea Montpellier, Frana) pe http:// www.atgc-montpellier.fr/phyml/.
81

Exerciiul 5.1.
AnAlIzA fIloGEnETIC
AnAlIzA fIloGEnETIC
n baza rezultatelor AMS din exerciiile capitolului 5, elaborai arborele filogenetic prin metoda Neighbor-Joining, folosind iniial secvenele aminoacidice, iar apoi cele nucleotidice.
Exerciiul 5.2.
Extragei din filogramele obinute urmtoarele informaii: numrul de grupe de secvene identificate; numrul de secvene n fiecare grup format; secvenele care denatureaz AMS i, respectiv, arborele; secvenele care sunt identice.
Capitolul
Exerciiul 5.3.
Care tip de arbore este produs de programul Clustal? Descriei reprezentarea grafic obinut din punct de vedere al structurii. Care este diferena dintre o cladogram i o filogram? Explicai.
Exerciiul 5.4.
Care dintre secvenele reprezint secvene omoloage i paroloage? Explicai folosind informaia despre structura, funcia i originea potenial a genelor.
Exerciiul 5.5.
Urmrind metodologia de selectare a metodei de analiz filogenetic, argumentai care din metode trebuie s fie aplicat pentru analiza secvenelor de mai sus.
Exerciiul 5.6.
Extragei din bazele de date secvenele aminoacidice a Troponinei I pentru urmtoarele specii: Xenopus, nematod, musculia de oet, hering, obolan i om. Obinei AMS pentru ele. Explicai dac pentru calcularea scorului AMS este posibil de a utiliza matricea PAM.
Exerciiul 5.7.
Descriei aspectele de similaritate dintre secvenele, prin scor, procentul de similaritate i procentul de acoperire dintre secvene.
Exerciiul 5.8.
Elaborai arborele filogenetic pentru aceste secvene. Observai cum se grupeaz secvenele n dependen de organism. Care din secvene sunt considerate ortoloage i paroloage?
Capitolul
82
83
Exerciiul 5.9.
Utiliznd metodele cunoscute identificai careva pattern n structura proteinelor analizate. Caracterizai variabilitatea n cadrul acestui.
REFERINE
Clusters of Orthologous Groups, COG www.ncbi.nlm.nih.gov/COG/ HOGENOME http://pbil.univ-lyon1.fr/ ClustalW www.ebi.ac.uk/clustalw MUSCLE phylogenomics.berkeley.edu/cgi-bin/muscle/input_ muscle.py Tcoffee www.tcoffee.org PHYLIP http://evolution.genetics.washington.edu/phylip.html PhyML http://www.atgc-montpellier.fr/phyml/ Altele www.genebee.msu.ru/services/phtree_reduced.html www.jalview.org http://www.atgc-montpellier.fr/phyml/ www.phylogeny.fr/varsion2_cgi/one_task.cgi?task_ type=bioinj http://sites.univ-provence.fr/evol/figenix http://bioweb.pasteur.fr/seqanal/phylogeny/introen.html http://evolution.genetics.washington.edu/phylip/ software.html www.ucmp.berkeley.edu/subway/phylo/phylosoft.html http://paup.csit.fsu.edu/index.html www.ncbi.nlm.nih.gov/About/primer/phylo.html www.techfak.unibielefeld.de/bcd/Curric/MathAn/ mathan.html http://pbil.univ-lyon1.fr/databases/hovergen.php http://pbil.univ-lyon1.fr/databases/hogenom.php http://pbil.univ-lyon1.fr/databases/homolens.php http://rdp.cme.msu.edu/, http://bioinformatics.psb. ugent.be/webtools/rRNA/ssu, http://bioinformatics.psb.ugent.be/webtools/rRNA/ lsu/index.html
Exerciiul 5.10.
Pentru a estima performana personal, generalizai rezultatele obinute n ex. 5.6 5.9 i comparai rezultatele cu datele din articolul Kenneth E.M. Hastings. Molecular Evolution of the Vertebrate troponin i Gene Family. Cell Structure and Function, 1997, Vol.22 , No.1, pp.205-211.
Capitolul
Capitolul
84
iar prezicerile efectuate prin minimalizarea energiei i a metodelor covariaiei servesc drept ghid pentru testrile experimentale de laborator. Analiza diferitor tipuri de ARN necesit tehnici de investigare i instrumente, mai sofisticate dect BLAST-ul. Un exemplu de program specific eficient de modelare n baza genelor ARNt este RNAscan-SE care poate fi accesat de pe serverul Universitii Washington din St. Louis: http://selab.janelia.org/tRNAscanSE/. n general, exist numeroase resurse web pentru lucrul cu diferite tipuri de ARN-uri (tab. 6.1).
Tabelul 6.1. Resurse web pentru lucrul cu diferite tipuri de ARN
85
ModElArEA sTrUCTUrII sECUndArE A Arn-UlUI
Capitolul 6.
MODELAREA STRuCTuRII SECuNDARE A ARNuLuI
ARN codificator ARN necodificator structurile secundare de ARN energia liber Mfold
http://sirna.cgb.ki.se/ http://microrna.sanger.ac.uk/sequences
ADRESA
http://cbit.snu.ac.kr/~ProMiR2/introduction.html http://pictar.mdc-berlin.de/ http://bibiserv.techfak.uni-bielefeld.de/rnahybrid/
6.1. Caracteristici ale structurii secundare i teriare ale ARN-ului

Conform ipotezei lumii ARN (W. Gilbert, 1986) acidul ribonucleic, c forma primordial a biomacromoleculelor, ce a stat la baza apariiei sistemelor vii pe pmnt, a avut un rol primordial pe parcursul evoluiei lumii organice. Existena unei diversiti considerabile de tipuri de ARN (ARN mesager - ARNm, ARN ribozomal ARNr, ARN de transfer - ARNt, ARN nucleolar mic - snoRNA, ARN nuclear de talie mic - snARN, ARN de interferen etc) i numeroasele funcii (biosinteza proteinelor, modificri post-transcripionale, reglarea expresiei genelor, transportul, transmiterea informaiei genetice, funcii catalitice i structurale) pe care le exercit molecula de ARN n celul constituie argumente incontestabile n favoarea acestei afirmaii. Pentru bioinformatic ipoteza dat reprezint supportul teoretic i metodologic de studiere a ARN-ului, oferind cunotinte noi ncepnd cu aspectele generale de functionare i terminnd cu explicarea variabilitii lumii vii. n primul rnd identificarea secvenei nucleotidice a ARN-ului permite determinarea structurii superioare i a funciei fiecrui tip de ARN. Mai mult ca att, ARNr este utilizat pentru analiza evoluiei grupurilor de organisme prin estimarea ratei evoluiei organismelor date. n cazul identificrii unor noi specii de bacterii (sau alt organism), primul pas n studiul acesteia este secvenierea ARNr pentru plasarea speciei n marele arbore al vieii. ARNm codificatoare de proteine pot fi identificate computaional dup prezena orf-urilor cuprinse ntre codonul start i codonii stop,
http://bioinfo.uni-plovdiv.bg/microinspector/ http://rdp.cme.msu.edu/
http://bioinformatics.psb.ugent.be/webtools/rRNA/ index.html http://bioinfo.li.fr/rna/ http://www.imb-jena.de/RNA.html http://www.rnabase.org/links/
Colecie de resurse pentru analiza ARN Este una dintre cele mai mari resurse de micro ARN-uri a Institutului Sanger n Marea Britanie. Resurse pentru modelarea miARNurilor utiliznd metode probabilistice. Identificrarea unor poteniale secvene inte ale miARN-urilor. Resurse pentru identificrarea unor poteniale secvee - inte ale miARNurilor. Instrument de scanare pentru detecia site-urilor de legare a miARN-urilor. Ribosomal Database Project, ofer date i servicii, inclusiv posibilitatea analizelor filogenetice on-line. Baz de date European pentru subunitile mari i mici ribozomale. Ofer date i resurse. Site dedicat pentru detectarea ARN-ului necodificator. RNA World, conine o list complet de site-uri actuale disponibile. List de site-uri privind ARN.
DESCRIEREA
Capitolul
Din punct de vedere informaional i funcional ARN poate fi codificator i necodificator (tab. 6.1.). Tipul codificator reprezint ARN-ul, care provine din genele ce codific pentru proteine i care particip n translaie i sinteza proteinelor. ARNul necodificator este o familie bogat de membri, care anual se mbogete numeric. Cunoaterea aprofundat a rolului funcional al ARN-ul necodificator, implicat n transcripie, splicing, replicare, controlul expresiei genelor, etc. ar permite nelegerea mai clar a mecanismelor ce guverneaz viaa celulei. Identificarea genelor care codific pentru astfel ARN poate fi efectuat prin cutri de similaritate de-alungul unui genom, n baza structurii sale primare.
Capitolul
86
Tabelul 6.1. Diferite tipuri de ARN i implicarea lor n funciile biologice
TIPuL
87
ABREvIEREA FuNCIA PREZENA
ARN mesager ARN ribosomal
ARNm ARNr
Codific proteine Translare Integrare membranar Translare
Toate organismele Toate organismele Toate organismele Toate organismele
ARN 7SL Signal recognition particle sau ARN (SRP) RNA SRP ARN de transport ARNt
ARNuri implicate n modificrile posttranscripionale i replicarea ADNului ARN mic nuclear ARN mic nucleolar SmY ARN snRNA snoRNA SmY Splicing i alte funcii Eucariote i Arheobacterii Modificri nucleotidice Eucariote i Arheobacterii la nivelul ARN Trans-splicing-ul ARNm Sinteza snoARN, modificri la nivel de ARN Modificri nivel de ARNm Maturizarea ARNt Maturizarea ARNr, replicarea ADN-ului Procesing-ul ARNului, replicarea ADNului Sinteza telomerilor ARNuri reglatoare ARN antisens CRISPR RNA ARN necodificator lung MicroRNA Small interfering RNA Trans-acting RNA ARNa crRNA Atenuarea transcripiei, degradarea ARNm, blocarea translaiei Rezisten la parazii Reglarea expresiei genelor Regularea expresiei genelor Reglarea expresiei genelor Toate organismele Bacterii i arheobacterii Eucariote Eucariote Eucariote Plante Kinetoplastide, mitocondrii Toate organismele Eucariote Figura 6.1. Reprezentrile structurilor primare, secundare i teriare ale unei molecule de ARN Nematode
Capitolul
Small Cajal body-specific scaRNA RNAs Guide ARN Ribonucleaza P Ribonucleaza MRP gRNA RNase P RNase MRP Procesing-ul ARN-ului, replicarea ADN-ului
ARN Y ARN telomeric
Animale Majoritatea eucariotelor
Long ncRNA Variate miRNA siRNA tasiRNA
Structura secundar a ARN-ului reprezint regiuni dublu catenare ale moleculei, generate de folding-ul moleculei monocatenare pentru a forma bucle i este etapa intermediar spre structura tridimensional (nivelul funcional al ARN-ului). Pentru formarea acestor regiuni dublu catenare, cteva baze din amontele secvenei de ARN, trebuie s fie complementare cu alte cteva perechi de baze din avalul secvenei de ARN. Complementaritatea se bazez pe legea lui Watson i Crick pentru perechile de baze de ADN (cu excepia U n locul T, A/U, G/C), la care se adaug perechea de baze numit wobble (G/U). Stabilitatea energetic cea mai mare este asigurat de perechea G/C, care se micoreaz la A/U i este cea mai mic la perechea G/U. Modelarea structurilor secundare ale ARN-urilor este bazat pe poriunile care formeaz regiuni dublu-catenare, cu tipuri variate de bucle i aranjamente de jonciuni. n cazul n care molecula conine dou catene lungi complementare se formeaz o structur complementar, trunchi (stem), foarte stabil. Bazele nemperecheate din caten formeaz bucle (loop). Trunchiurile deseori nu sunt perfecte, conin baze care nu formeaz perechi, astfel formnd structuri de tipul bulge. Tendina natural a moleculei de ARN este de a forma ct mai multe conformaii nalt stabile prin asamblarea interaciunilor de mperechere. Astfel o molecul de ARN stabil posed ntotdeauna o valoare energetic negativ (-70Kca/mol) (Fig. 6.2.).
Capitolul
ARNurile implicate n biosinteza proteinelor
Stabilitatea i activitatea biologic a ARN-ului este determinat de interaciunea moleculei de ARN cu proteine, ioni sau alte molecule de ARN, precum i de interaciunile din interiorul moleculei, care conduc la formarea complexelor structurale 2-D i 3-D descoperire fundamental a anilor 1970 (Fig. 6.1.).
88
5' 5' 3' 5'
89
mai generale comparativ cu modelarea structurii proteinelor. Modelele moleculelor de ARN pot fi utilizate pentru identificarea altor membri de secvene a moleculelor de ARN din aceeai clas, de ex. din genomurile noi secveniate. La baz modelrii stau cunotinele despre stabilitatea fizico-chimic a moleculei, determinat de prezenta n secven a anumitor regiuni complementare. Astfel, metodele computaionale utilizate n prezicerea structurii secundare a moleculelor de ARN sunt orientate n primul rnd pe identificarea regiunilor care potenial pot forma structuri dublu catenare, ceea ce reprezint punctul de plecare n pronosticarea acestor structuri. Exist metode de prezicere a structurilor secundare, a celor tridimensionale i a interaciunilor teriare ntre perechile de baze, utiliznd compararea filogenetic dintre secvenele de ARN i analiza AMS a numeroilor membri ai unei clase de ARN dintr-o specie sau din specii diferite. Alinierea multipl a secvenelor este apoi examinat pentru identificarea perechilor de coloane n care bazele sunt complementare i, deci, sunt capabile de a forma perechi de baze. n alinierea multipl a secvenelor de ARN trebuie luate n consideraie covariaiile, care reprezint schimbrile de coinciden n dou sau mai multe poziii a secvenei de ARN, care pot s influeneze, dar n special, s menin structura secundar i teriar a ARN-ului. Majoritatea regiunilor care pot forma structuri dublu-catenare, pot fi modelate computaional, avnd doar secvena nucleotidic. Utilizarea datelor experimentale n ceea ce privete stocarea energiei ntre perechile de baze adiacente n regiunea dublu catenar i energia destabilizatoare pentru catenele libere i bucle, a permis mbuntirea metodelor de prezicere computaional, care combin datele despre regiunile dublu catenare i energia stocat n catene pentru a produce cele mai stabile molecule din punct de vedere energetic. Prezicerea structurii secundare a moleculei de ARN const n special n pronosticarea regiunilor dublu catenare, care apar prin formarea perechilor de baze, de ex. G/C, A/U sau G/U. Secvena unei catene din regiunea dublu-catenar se citete n direcia 53 i secvena de pe catena complementar se citete n direcia 3 5. Secvena cuprins formeaz de obicei o bucl. Metodologic se aplic 2 strategii de baz de prezicere a structurii moleculei de ARN. Prima se bazeaz pe analiza tuturor combinaiilor posibile a regiunilor dublu catenare prin metodele de minimalizare a energiei. Acestea reprezint un filtru a modelelor energetice posibile, utiliznd informaia din alinierile multiple a secvenelor i a datelor experimentale. Astfel, sunt prezise modelele structurale termodinamice maximal posibile cu un nivel nalt de ncredere, bazat pe calculele energetice i ajustarea flexibil a datelor experimentale i a celor computaionale. ns, aceast metod nu permite pronosticarea structurilor i interaciunilor teriare. Odat cu creterea numrului de preziceri sporete complexitatea computaional, metoda funcionnd mult mai eficient n cazul secvenelor scurte (< 1000 nucleotide). Cea de-a doua metod are la baza identificarea covariaiei bazelor, care menin structurile secundare i teriare a moleculei de ARN n timpul evoluiei. Avantajul metodei este simplitatea computaional, precum i prezicerea interaciunilor
5'
3'
5' 3'
3' 5' 3' 5' 5' 3' 5' 3'
B
3' 5' 5'
C
5' 3' 3' 5' 5' 5' 5'
D
3' 3' 5' 5' 3' 5'
E
3' 5' 3' 5'
5' 3'
3' 5' 5' 3'
5' 3'
Capitolul
Interaciunile teriare se formeaz la nivelul perechilor de baze dintre elementele structurale secundare i dintre structurile secundare i regiunile mono-catenare (Fig. 6.3.). Acestea includ structuri cunoscute ca pseudo-knots, care reprezint interaciuni de la distan dintre bucle (loop) i o alt poriune a moleculei de ARN.
5'
3' A 5'
5' 3' B 3' 5'
1'
5' 3' C 3' 5'
Figura 6.3. Exemple de interaciuni complexe dintre elementele structurale secundare ale ARN-ului A interaciune pseudoknot; B interaciune kissing hairpins; C interaciune hairpin loop-bulge.
6.2. Metode i programe utilizate n modelarea structurii secundare a ARN-ului

Analiza computaional a moleculelor de ARN pentru prezicerea stabilitii structuri secundare, poate fi unul dintre cele mai complexe subiecte din analiza secvenelor. Structura ARN-ului este mult mai uor de modelat i se supune unor legi
Capitolul
Figura 6.2. Tipuri de regiuni mono- i dublu-catenare n structurile secundare de ARN A mono-catenar; B dublu-catenar; C bucl dintr-o singur nucleotid; D bucl din trei nucleotide, E hairpin; F bucla simetric intern; G bucla asimetric intern, H jonciunea two-stem; I jonciunea three-stem; J jonciunea four-stem.
90
secundare i teriare, bazate pe pattern-urile de covariaie. Determinarea tipului de ARN este dificil deoarece structura secundar poate forma helix, bucl hairpin (H), bucl bulge (B), bucl intern (I), bucl multiramural (M) (Fig. 6.2, Fig. 6.3). Algoritmul estimrii structurilor secundare se bazeaz pe regula calculrii energiei nearest neighbor (cel mai apropiat vecin) n cadrul secvenei primare. Aceste valori au fost calculate de Profesorul D.H. Turner n experienele de topire a oligonucleotidelor construite sintetic. ntr-o analiz a secvenei care reprezint un helix, este necesar de a calcula energiile dintre nucleotidele din aceeai caten i energiile de formare a legturilor de hidrogen dintre catene. S-a adoptat notarea nucleotidelor A, C, G, U/T prin 1, 2, 3, 4. Pentru modelul energia corespunztoare se extrage din rndul W i coloana Z din tabelul 4x4 i rndul X i coloana Y a tabelului (tab. 6.3.). Faptul c nc nu sunt stabilite toate valorile pentru combinaiile dintre nucleotide i alte structuri secundare nu permite de a realiza i a obine modele autentice a moleculelor ARN. Aceasta a determinat existena la moment a unui ir de programe de modelare a structurii ARN, care pot soluiona diferite aspecte ale modelrii. Mfold. Mfold este o implementare a algoritmului Zuker (http://mfold.bioinfo.rpi.edu/), care face posibil prezicerea energiei optimale a structurii secundare a moleculei de ARN n baza valorilor energiilor libere. Algoritmul utilizeaz parametri fizici reali care ar afecta folding-ul ARN-ului ca pH-ul, temperatura i compoziia ARN-ului. Modelul energetic utilizat de Mfold, ignor interaciunile 3-D sau interaciunile ARN-protein care ar putea stabiliza o conformaiune maximal. De accea, exist anse ca structura prezis prin acest algoritm s nu corespund ARN-ului real din sistemele biologice a. La fel, n Mfold nu pot fi forate interaciunile pseudo-knots. Algoritmul de mai jos alege aranjamentul care ofer structura secundar cu energia cea mai joas posibil:
1. Se extrage o secven de ARN (miRNA, snoRNA sau siRNA) n format FASTA. 2. Se acceseaz pagina The Rensselaer bioinformatics web server pe http://mfold. bioinfo.rpi.edu/. Va aprea pagina de aplicri a centrului de bioinformatic a Institutului Politehnic Rensselaer. 3. Se selecteaz link-ul pentru RNA Folding. Va aprea pagina serverului Mfold. 4. Se ntroduce un nume pentru secven n fereastra Name field. 5. Se ntroduce secvena ARN-ului n fereastra Sequence window. 6. Se aps butonul Fold RNA. Va aprea pagina cu rezultate, care conine link-uri cu rezultate n mai multe formate. La fel se conin informaii termodinamice care in de model, pentru a evalua stabilitatea modelului. 7. Se vizualizeaz i se salveaz rezultatele modelului n formatul care v convine cel mai mult.
91
Capitolul
Tabelul 6.3. valorile energiilor libere n secvena ARN (exemplu)

Y A X C 5 3 AX UY 3 5 . . . - 0,90 . . - 1,70 . . - 2,10 . - 1,00 - 0,90 . - 0,50 . G U
A C G U
. valori nc nu au fost stabilite n cazul structurilor secundare se aplic valori ale energiei constatate pentru diferite tipuri de structuri n dependen de lungimea lor (tab. 6.4.).
Tabelul 6.4. valorile energiilor libere a structurilor secundare n molecula de ARN
MRIMEA (NT) BuCLA INTERN STRuCTuRA SECuNDAR BuCLA BuLGE" BuCLA HAIRPIN"
1 2 3 ... 30
. 4,10 5,10 ... 7,40
3,90 3,10 3,50 ... 6,70
. . 4,10 ... 6,50
. valori nc nu au fost stabilite
Capitolul
92
93

Exerciiul 6.1.
Extragei o oarecare structur bidimensional a moleculei de ARNt. n baza fig. 6.2 explicai care structuri pot fi observate. Analizai care tipuri de nucleotide ntr n componena structurilor.
Exerciiul 6.6.
Extragei dou secvene de ARNt i reprezentarea structurilor lor secundare. Efectuai alinierea lor i apoi comparai regiunile de nucleotide care particip la formarea structurilor secundare.
Exerciiul 6.2.
Se d un fragment din structura ARN 5 3 CGA GCU 3 5 care formeaz baza unui hairpin. Care modificri pot fi acceptate la nivelul lor pentru a menine structura dat. Scriei toate variantele posibile care pot menine fragmentul bicatenar.
Exerciiul 6.7.
Determinai care este energia liber a buclelor i dac exist diferene ntre cele dou secvene. Observai dac exist nucleotidele conservate ntre aceste dou secvene i regiunile n care ele se afl.
Capitolul
Exerciiul 6.8.
Descrcai cinci secvene de ARNt pentru Gly de la diferite specii. Elaborai un arbore filogenetic al acestor.
Exerciiul 6.3.
Explicai dac principiile moleculei Watson Crick i legile lui Chargaff sunt suficiente pentru a explica i a prezice structura ARN.
Exerciiul 6.4.
Exerciiul 6.9.
Calculai energiile libere pentru fiecare secven i identificai regiunile secundare.
Extragei o secven a unui ARNt. Aplicai metoda Dot plot, pentru a identifica regiunile de complementaritate n cadrul ei. Punctul n matrice indic complementaritatea dintre dou nucleotide.
Exerciiul 6.10.
Exerciiul 6.5.
Identificai regiunile cu structura secundar i calculai energia liber pentru secvena AAGACUUCGGUCUGGCGACAUUC Pentru calcularea energiei libere folosii valorile din tabelul de mai jos
ENERGIA LIBER DINTRE NuCLEOTIDE A/u C/G G/C u/A G/u u/G
Care sunt neajunsurile algoritmului lui Zuker? Identificai alte algoritmuri similare care pot lua n consideraie complexitatea ARN-ului.
A/U C/G G/C U/A G/U U/G
-0.9 -1.8 -2.3 -1.1 -1.1 -1.7 -2.9 -3.4 -2.3 -2.1 -2.1 -2.0 -2.9 -1.8 -1.9 -0.9 -1.7 -2.1 -0.9 -1.0 -0.5 -1.2 -1.4 -0.8 -0.4 -1.0 -1.9 -2.1 -1.1 -1.5 ENERGIA DE DESTABILIZARE A BuCLELOR
-0.8 -1.4 -1.2 -0.5 -0.2 -0.4
Capitolul
Bucla intern Bucla bulge Bucla hairpin
3.9 -
5.3 4.8 4.4
6.6 5.5 5.3
10
7.0 6.3 6.1
20
7.4 6.7 6.5
30
94
95
REFERINE
ModElArEA sTrUCTUrII sECUndArE A Arn-UlUI IdEnTIfICArEA GEnElor
RNAscan-SE http://selab.janelia.org/tRNAscan-SE/ http://sirna.cgb.ki.se/ http://microrna.sanger.ac.uk/sequences http://cbit.snu.ac.kr/~ProMiR2/introduction.html http://pictar.mdc-berlin.de/ http://bibiserv.techfak.uni-bielefeld.de/rnahybrid/ http://bioinfo.uni-plovdiv.bg/microinspector/
http://rdp.cme.msu.edu/ http://bioinformatics.psb.ugent.be/webtools/rRNA/ index.html http://bioinfo.lifl.fr/rna/ http://www.imb-jena.de/RNA.html http://www.rnabase.org/links/ Mfold http://mfold.bioinfo.rpi.edu/
Capitolul 7.
IDENTIFICAREA GENELOR
EST spacer UTR TATA ORFfinder boxa CATT
Capitolul
7.1. Metode de identificare a genelor la procariote i eucariote

Realizarea proiectelor de secveniere total a mai multor genomuri i oportunitile bioinformatice de analiz a similaritii secvenei de nucleotide sau aminoacizi a stimulat identificarea unor noi gene i elaborarea modelelor de structur ipotetice ale proteinelor. Secvenele de ADN sunt adnotate prin marcarea poziiei pe cromozom i a structurii exon - intronice. Scopul de baz n adnotarea secvenei genomice const n identificarea regiunilor codificatoare i a celor care regleaz activitatea acestor gene. A fost secveniat genomul a numeroase organisme - model la plante, animale i microorganisme. Bncile de gene conin informaia complet a 1129 de genomuri. Altele, 111 genomuri Arhaice, 3449 genomuri Bacteriene i 1207 genomuri eucariote fac obiectul mai multor proiecte de cercetare (http://www.genomesonline.org/gold. cgi). Acumularea ascendent a datelor secvenierii face dificil identificarea semnificaiei biologice a secvenelor n acela ritm. Acest fapt a determinat elaborarea unor programe i instrumente exacte i rapide de analiz a fragmentelor de ADN n scopul identificrii genelor i funciei acestora. Metode extrinseci (bazate pe omologie) i intrinseci sunt utilizate pe scar larg n adnotarea genomului. n prezent aproximativ o jumtate din numrul genelor analizate pot fi identificate prin omologie cu alte gene sau proteine cunoscute (acest procent crete odat cu mrirea numrului de genomuri secveniate). Identificarea unor gene probabile presupune identificarea regiunilor ADN-ului genomic responsabil de codificarea proteinelor. Metodele computaionale de modelare a genelor funcioneaz prin cutarea i recunoaterea unei varieti de pattern-uri de secvene de gene din cele cunoscute n cadrul unui genom i astfel elaboreaz structura unei gene - model. Gena model obinut poate fi utilizat pentru cutarea
Capitolul
96
pattern - urilor similare n fluxul apariiei de noi secvene a aceluiai sau diferitor organisme. Centrele de secveniere genomic cu ajutorul programelor de modelare a genelor identific posibile gene printre secvenele noi dup care le adnoteaz. Adnotarea include localizarea genei, structura genei (poziiile intronilor/exonilor i site-urile reglatoare) i, deseori, produsele translrii exonilor sub form de secven de aminoacizi. Secvena de aminoacizi prezis este inclus n bazele de date proteice. Poate fi stabilit existena anumitor gene prin izolarea ARN-ului matur, revers transcriie cu obinerea de ADNc i secvenierea acestuia. Avantajul acestei metode este, c ARNm este constituit numai din exonii codificatori (n urma procesului de splicing), i, rmne de identificat cadrul de citire (orf), a codonilor start i stop. Astfel, pot fi obinute eantioane de ADNc dintr-un amestec complex de ARNm i apoi secveniat randomizat. Astfel de fragmente secveniate sunt numite EST-uri (Expressed Sequence Tag). n genomul procariot, secvenele de ADN codificatoare sunt transcrise n ARNm care este direct translat n protein, fr modificri semnificative. Deoarece la organismele procariote lipsesc intronii, secvenele codificatoare de proteine pot fi considerate drept orf-uri lungi, care ncep cu un codon start (AUG n ARNm) i continu cu o secven variat de codoni pn la un codon stop (de ex. UAA). Pot s existe mai multe origini poteniale de start n genele procariote, de aceea se recurge la compararea secvenei cu un pattern de secvene cunoscute pentru identificarea originei. La eucariote procedura de identificare a genelor este complicat din cauza aparatului transcripional mai complex, precum prezena promotorilor i a elementelor cis - reglatoare, a intronilor i a regiunilor lungi necodificatoare. Odat cu eliminarea intronilor i altor regiuni se obine ARN-ul mesager matur (ARNm) care este translat n direcia 5 spre 3 de la codonul start pn la codonul stop. Programele computaionale recunosc intronii, exonii i extremitile acestora. Secvenele intronice pot fi eliminate prin jonciunea exonilor ntr-un orf i astfel se poate obine o protein probabil. Algoritmii utilizai n modelarea structurii unei gene includ patru criterii: 1. Codul genetic n unele genomuri poate s difere de la codul genetic universal; 2. Splicing - ul moleculei de ARNm poate decurge diferit n diferite esuturi, producnd proteine nrudite, n dependen de cerinele temporare i spaiale ale celulei; 3. Secvenele de ARNm pot fi editate, obinndu-se ARN matur; 4. ARNm este subiectul unor modificri chimice, care induc degradarea ARNm. Coninutul de ARNm n celul este determinat de etapele de sintez i degradare ale acestuia. Fiecare model de structur a genei obinut trebuie sa fie verificat prin noi alinieri a secvenelor studiate. Prezena numrului suficient de mare al secvenelor EST poate asigura eficiena confirmrii secvenei genei. Scopul final al modelrii structurii genelor const n completarea bazei de date a secvenelor adnotate, cu un coninut bogat de informaie biologic privind structura i funciei genei, care provine din datele experimentale publicate. Prima etap de identificare a unor gene noi la organismele procariote const n depistarea orf-urilor care codific o protein similar cu cele stocate n baza de date n cazul n care exist. Pentru eucariote, prima etap reprezint localizarea aproximativ a exonilor care codific pentru o protein similar cu alte proteine de diferite organisme. A doua etap constituit ncutarea secvenelor similare pentru aceste orf-uri, utilizndu - se cel mai des EST-urile sau ADNc. Urmtoare etap prevede utilizarea programelor de modelare ipotetic a genei care funcioneaz pe baza identificrii exonilor, intronilor, site-urilor de splicing, elementelor reglatoare ale expresiei genelor .a. Genele obinute prin modelarea in silico pot conine patternuri conservate de secvene, ca de exemplu, site-ul de ataare a ARN - polimerazei la promotor, site-urile de ataare a factorilor transcripionali .a. Aceste date furnizeaz informaii importante pentru biologia experimental i elaborarea proiectelor experimentale. O trstur important n adnotarea genomului reprezint identificarea secvenelor genomice conservate prin intermediul metodelor de cutare a secvenelor consens (cu variaii posibile). Acestea se determin prin alinierea multipl a secvenelor documentate, funcional nrudite. Astfel, sunt identificate variantele probabile ale codonului de iniiere i codonului stop ai unui cadru de citire deschis, site-rile de ataare a factorilor de transcripie i a represorilor precum i site-ul de ataarea la ribozomi (Fig. 7.1.).
1 AATTCGATAAATCTCTGGTTATTGTGCAGTTTATGGTTCCAAAATCGCCTTTTGCTGTATATACTACTCACA
97
IdEnTIfICArEA GEnElor
Capitolul
171 GCATAACTGTATATACACCCAGGGGGCGGAATGAAAGCGTTAACGGCCAGGCAACAAGAGGTGTTTGATC 210 CCGTTCCCCAAACGCGGCTGAAGAACATCTGAAGGCGCTGGCACGCAAAGGCGTTATTGAAATTGTTTCC 281 GGCGCATCACGCGGGATTCGTCTGTTGCAGGAAGAGGAAGAAGGGTTGCCGCTGGTAGGTCGTGTGGCTG 351 CCGGTGAACCACTTCTGGCGCAACAGCATATTGAAGGTCATTATCAGGTCGATCCTTCCTTATTCAAGCC 421 GAATGCTGATTTCCTGCTGCGCGTCAGCGGGATGTCGATGAAAGATATCGGCATTATGGATGGTGACTTG 491 CTGGCAGTGCATAAAACTCAGGATGTACGTAACGGTCAGGTCGTTGTCGCACGTATTGATGACGAAGTTA 561 CCGTTAAGCGCCTGAAAAAACAGGGCAATAAAGTCGAACTGTTGCCAGAAAATAGCGAGTTTFFFCCAAT 631 TGTCGTTGACCTTCGTCAGCAGAGCTTCACCATTGAAGGGCTGGCGGTTGGGGTTATTCGCAACGGCGAC 771 GGCTTGTCTGCATGGCATTCCTCACTTCATCTGATAAAG 701 TGGCTGTAACATATCTCTGAGACCGCGATGCCGCCTGGCGTCGCGGTTTGTTTTTCATCTCTCTTCATCA
141 TCATCCGTGATCACATCAGCCAGACAGGTATGCCGCCGACGCGTGCGGAAATCGCGCAGCGTTTGGGGTT
Figura 7.1. Structura genei lexA de la E. coli Cu culoarea oranj Bold sunt indicate pattern-urile site-urilor de legare a represorului CtGNNNNNNNNNNCAG n poziia -10 i -35, cu culoarea alb, contur negru sunt indicate regiunile de ataare ARN polimerazei (ttGACA i tAtAAt), site-ul de ataare a ribozomului la ARNm (GGAGG) i cadrul deschis de citire (subliniat), care ncepe cu codonul start (AtG) i se termin cu un codon stop (tAA).
Capitolul
98
Promotorii reprezint secvene specifice de 20 - 200 perechi de baze localizate la captul 5 al genelor i la nivelul creia apar numeroase interaciuni pentru a iniia i realiza procesul de transcripie. ARN-polimeraza n rezultatul aciunii diferitor semnale interne i externe, recunoate secvena de ADN specific i se ataeaz la aceasta ntr-o configuraie adecvat, optimal pentru a desface duplexul ADN i a avea acces la secvena de baze care urmeaz a fi transcris n ARN. Aceste evenimente sunt ghidate de secvena de nucleotide a ADNlui, de subunitatea sigma a ARN polimerazei (fr de care promotorul nu poate fi recunoscut) i pentru unii promotori, de proteine auxiliare. Metoda utilizat cel mai des pentru analiza promotorilor la procariote reprezint alinierea unui set de secvene a promotorilor din poziia care marcheaz site-ul cunoscut de ncepere a transcripiei (TSS sau transcription start site) i apoi identificarea regiunilor conservate n secven. Secvenele cel mai nalt conservate (precum i distana dintre ele) sunt boxa TATAAT (boxa Pribnow) n poziia de -10 pb i boxa TTGACA n poziia de aproximativ -35pb. Trsturile nalt conservate a genelor pot fi utilizate n metodele de identificare a genelor, utiliznd, de exemplu, modelul Marcov Ascuns (Hidden Markov Model, HMM). Prin aceast metod este modelat una sau mai multe gene. Acest model pote fi extins pentru a include numeroase gene i secvene intergenice. Modelul HMM pentru genele procariote este utilizat pentru a genera secvene de nucleotide codificatoare de aminoacizi, de lungimi caracteristice genelor procariote, care ncep cu un codon start (ATG) i se termin cu un codon stop. Setul de gene bine studiat, separate prin regiuni spacer definite exact sunt utilizate ca model pentru identificarea de noi gene n secvenele genomice. Modelul pentru fiecare codon este reprezentat printr-un set de cercuri, patrate sau romburi care reprezint coincidene, stri de inserie sau deleie. Fiecare din cei 61 codoni posed o structur asemntoare (Fig. 7.2.). Strile de potrivire (coinciden) sunt utilizate de ctre model. Strile de inserie i deleie produc un orf ce conine cu o baz mai mult sau mai puin. Similar, includerea unei baze alternative ntr-o stare de coinciden conduce spre erori n identificarea bazelor. Codonii stop i de iniiere sunt corect reprezentai n orice secven i nu conduc la erori. Fiecare potrivire i stare de inserie posed o oarecare probabilitate pentru a produce A (adenina), o alt probabilitate pentru a produce G (guanina) etc. Starea de deleie nu produce o liter, ns produce un salt pe poziia secvenei. Sgeile indic cile posibile dintre strile succesive n model. Starea central, reprezentat printr-un cerc, nu genereaz o poziie a secvenei, ns acioneaz ca jonciune ntre codonii adiaceni. Pentru generarea unei secvene, probabilitatea c un codon urmeaz dup altul, trebuie s fie foarte mare. Odat ce se ajunge la un codon stop se genereaz o regiune spacer intergenic. Regiunea intergenic continu pn la un codon ATG.
99
G
SPACER
Capitolul
A G C T
A G C T
A G C T
A G C T
START
A G C T
A G C T
A G C T
SFRIT
Figura 7.2. Modelul Markov Ascuns (HMM) a unei gene de E. coli (Krogh, A., et al. (1994a) (A hidden Markov model that finds genes in E. coli DNA. Nucleic Acids Res, 22, 47684778)). Cerc starea de coinciden; romb starea de inserie, ptrat starea de deleie.
Metodele extrinseci de generare a regiunilor codificatoare de proteine includ detectarea similaritii suficiente dintre secvene prin metoda alinierii locale n baza algoritmul Smith-Waterman, utiliznd formatul FASTA i BLAST. Desigur, uneori acest algoritm conduce la lipsa de identificri, ceea ce nseamn c baza de date nu conine
Capitolul
100
secvene similare suficiente. Cu toate acestea, n cazul cnd se gsete un anumit nivel de similaritate, extremitile regiunilor similare care ar trebui s indice exonii nu sunt ntotdeauna exacte. Astfel exonii mici pot fi deseori omii. Un exon codificator pentru o secven de aminoacizi, reprezint un orf flancat de dou semnale specifice numite splice site-uri. Exonii vertebratelor sunt n general mici (aproximativ de 150 pb) i secvenele site-urilor de splicing sunt variabile. Programele prin care se poate constata existena probabil a exonilor decurge n dou etape: identificarea orf-ului candidat cu compoziia corespunztoare (frecvena unor triplei, coninutul de G+C .a.); identificarea secvenelor flancate de site-uri splicing. S-a estimat c aproximativ 50% de gene pot fi identificate datorit scorului de similaritate cu secvenele proteinelor omoloage. Cu toate acestea, n cazul cnd se obine un rezultat bun, modelul exact i complet al structurii rmne neelucidat, deoarece proteinele omoloage se pot deosebi dup unele domenii. n afar de aceasta, regiunile terminale netranslate (UTR-urile) nu pot fi delimitate prin aceast cale. Analiza ESTurilor, genereaz informaii limitate despre structura genei, reflectnd numai parial ARNm. Acestea sunt utilizate n identificarea (parial) a exonilor, furniznd informaii despre splicing-ul alternativ. Programele existente bazate pe omologie pot fi clasificate n acord cu tipul de omologie cutat: ADN genomic / protein, ADN genomic / ADNc, ADN genomic / ADN genomic. Toate metodele comparative urmresc secven fr a fi specifice tipului de organism sau specie. De asemenea, sunt utilizate programe, ca de ex. RepeatMasker, CENSOR, SINES, LINES care elimin secvenele repetitive ntlnite n special n genomul eucariot. posibilitatea prezenei mai multor gene pe unul i acelai ARNm; posibilitatea existenei genelor suprapuse, n cazul n care dou proteine diferite pot fi codificate n dou cadre de citire diferite, codificate de aceeai secven de ADN. ORF Finder este un program de identificare a orf-urilor i poate fi utilizat de pe NCBI. Un exemplu de analiz include urmtoarele aciuni: 1. Se acceseaz pagina: www.ncbi.nlm.nih.gov/gorf. 2. Se copie secvena dintr-un file.txt sau document Word ( 500 pb) i se insereaz secvena n fereastra de introducere a datelor. La fel se poate de introdus numrul de acces al secvenei dintr-o baz de date. 3. Se acceseaz butonul OrfFind. n rezultatul analizei, secvena de ADN este prezentat sub form grafic de bare paralele, fiecare reprezentnd unul din cele ase orf-uri posibile: +1, +2, +3 de pe o caten i -1, -2, -3 de pe catena complementar. Pentru a examina mai detaliat fiecare orf de interes, se activeaz bara din list, astfel se poate de studiat secvena aminoacid pentru cutarea de omologii n bazele de date proteice. Algoritmul GeneMark caut regiunile codificatoare a secvenelor utiliznd HMM (Hidden Markov Model). Este simplu de aplicat incluznd o serie de etape conform exemplului care urmeaz: 1. Se acceseaz http://exon.gatech.edu/GeneMark/; ofer versiuni specializate de programe care corespund modelelor de gene specifice i permit de a lucra cu secvene nucleotidice la procariote, virusuri i eucariote. 2. n secia Bacteria/Archae se acceseaz link-ul Heuristic models. 3. Se copie secvena din file-ul .txt sau documentul Word pentru primele 5000 pb din regiunea genomic a bacteriei Rickettsia conorii cu numrul de acces AE008569 din Genank. 4. Se transfer secvena n boxa de introducere a datelor. 5. Se apas butonul Start GeneMark.hmm pentru a iniia cutarea. GeneMark poate fi accesat i de pe site-ul Institutului European de Bioinformatic (European Bioinformatics Institute) - www.ebi.ac.uk/genemark/. Un astfel de program (MZEF) care permite identificarea exonilor a fost elaborat de Michael Zhang i include o serie de pai de executare: 1. Se acceseaz pagina http://rulai.cshl.edu/, care aparine la Cold Spring Harbor Laboratory. 2. Pe pagina urmtoare, se apas link-ul Gene Finding din secia Software Tools. 3. Pe urmtoarea pagin, alegei Human. Aceast selecie a versiunii programului calibreaz statisticile pentru regiunile codificatoare umane. 4. Se copie secvena de interes n formatul FASTA ntr-un file .txt sau document World. n lipsa unei secvene, este posibil de a utiliza secvena AF018429 din GenBank din NCBI. Aceasta reprezint o nregistrare pentru exonii 1 i 2 a genei dUTP-aza. 5. n final, secvena copiat se introduce n boxa pentru date i se apas butonul Submit pentru a ncepe analiza. Alte programe care combin algoritmul utilizat de MZEF i diverse opiuni, poate fi gsit pe http://genome.cs.mtu.edu/aat/aat.html. Cele mai multe programe opereaz prin mbinarea mai multor metode, modelnd att partea codificatoare, ct i cea necodificatoare a secvenelor.
101
Capitolul
7.2. Instrumente bioinformatice utilizate n identificarea genelor

Utilizarea programelor permite acumularea informaiei (privind exonii, intronii, codonii start i stop) care trebuie analizat pentru determinarea structurii complexe a genei. Este important identificarea semnalelor de iniiere a translrii i a site-urilor de splicing deoarece acestea flancheaz regiunile codificatoare. Utilizarea acestor regiuni poteniale ale genei permite construirea modelului genei. Pentru a elabora un model al genei ct mai real trebuie s lum n consideraie urmtoarele caracteristicii: nu exist exoni care se suprapun, exonii codificatori trebuie s fie compatibili cu cadrul de citire al secvenei, ntre doi exoni adiaceni nu exist codoni stop. Numeroase programe utilizeaz combinarea mai multor metode, cum ar fi similaritatea secvenelor i prezena semnalelor (utilizate pentru determinarea extremitilor). Uneori acestea nu sunt foarte eficiente, de exemplu n cazul unui splice site necanonic. Deseori, aceste programe fac referin la alinieri de splicing. Un cadru de citire deschis ncepe cu un codon de iniiere (ATG) i se termin cu un codon stop (TAA, TAG sau TGA). Cel mai des cadrele de citire deschise care codific pentru o protein sunt recunoscute dup lungimea lor. n fiecare secven exist ase cadre de citire posibile n care se pot gsi orf-uri, trei pornind din poziiile 1, 2 i 3 n direcia 5 spre 3 i alte trei pornind din poziiile 1, 2 i 3 n direcia 3 spre 5 de pe secvena complementar. n cazul analizei de identificare a orf-urilor trebuie de luat n consideraie:
Capitolul
102
103

REFERINE
Exerciiul 7.2.
Extragei din baza de date a secvenelor EST de la floarea-soarelui una din secvene. Elaborai schema etapelor succesive n identificarea structurii unei gene. n calitate de model utilizai Arabidopsis thaliana.
Capitolul
Exerciiul 7.4.
La identificarea cadrurilor de citire, explicai oportunitatea folosirii codului genetic nestandard.
Exerciiul 7.5.
Realizai o analiz BLAST la nivelul secvenelor nucleotidice. Selectai rezultatele ce se refer la speciile cu genom secveniat. Elaborai un AMS pentru a identifica pattern-ul caracteristic pentru tipul identificat de gen.
Exerciiul 7.6.
Comparai secvena selectat pentru analiz cu structura genei identificate la specie model. Apreciai gradul de complexitate al genei cercetate. Evaluai dac datele obinute sunt suficiente i propunei o variant alternativ de analiz.
Exerciiul 7.7.
Analizai secvenele polipeptidice corespunztoare genei de la specia model identificat. Completai rezultatele precedente.
Exerciiul 7.8. Exerciiul 7.9.
Aplicai programul GeneMark i comparai rezultatele obinute mai sus.
n baza secvenei EST iniiale extragei din baza de date suplimentar alte secvene. Aliniai-le pentru a obine un fragment mai lung (dac e posibil) de nucleotide. Reevaluai rezultatele obinute.
Exerciiul 7.10.
Efectuai o cercetare n sursele bibliografice pentru a argumenta rezultatele obinute i a verifica dac a fost analizat ntegral gena i proteina respectiv identificat.
Capitolul
Implementai schema metodologic elaborat. n caz c nu obinei rezultate interpretabile, utilizai o alt secven.
Exerciiul 7.3.
Exerciiul 7.1.
Krogh, A., et al. (1994a). A hidden Markov model that finds genes in E. coli DNA. Nucleic Acids Res, 22, 4768-4778 MZEF http://rulai.cshl.edu/ Altele http://genome.cs.mtu.edu/aat/aat.html
Care din bazele de date pot servi ca sursa de secvene nucleotidice pentru identificarea genelor noi? Care este dificultatea utilizrii EST-urilor n stabilirea structurii genei?
Genome Online Database, GOLD http://www.genomesonline.org/gold.cgi ORF Finder www.ncbi.nlm.nih.gov/projects/gorf/ GeneMark http://exon.gatech.edu/GeneMark/
104
105
AnAlIzA GEnoMUlUI
Capitolul 8.
ANALIZA GENOMuLuI
Parsing Adnotare ORFing GenScan Entrez Genome Project genomicBLAST RefSeq
Capitolul
8.1. Genomul eucariot i procariot

Prima tehnic eficient de secveniere a ADN-lui a fost elaborat n anul 1977, iar n anul 1995 a fost determinat prima secven integral a genomului Hemophilus influenzae. n decursul acestor ani, tehnicile de secveniere s-au mbuntit i continu s fie perfecionate pentru a genera informaii despre gene individuale. Obinerea primului genom complet secveniat a marcat nceputul dezvoltrii genomicii prin cartare genetic, fizic i secveniere a genomurilor ntregi (Fig. 8.1.). Secvenele de ADN - subiect al activitii de cercetare - sunt cu mult mai lungi, de la milioane de pb n genomurile microorganismelor pn la miliarde pb n genomurile animalelor i omului. Aceast multitudine de date i conceptele tiinifice noi au stimulat elaborarea instrumentelor i bazelor de date bioinformatice capabile de stocare, interogare, analiz i vizualizare a obiectelor masive ntr-o reprezentare grafic comod. Dac, iniial secvenierea era efectuat pentru genele cunoscute, acum prin secveniere se descoper gene noi. Aceast dezvoltare a intensificat apariia unei noi ramuri n bioinformatic ca parsing analiza secvenelor largi de ADN i a componentelor sale funcionale: gene, uniti de transcripie, regiuni codificatoare, elemente reglatoare, etc. Aceste activiti sunt urmate de adnotarea elementelor analizate, cu stocarea informaiei n bazele de date genomice.
Figura 8.1. Prezentare schematic a hrii genomice a Rickettsia conori.
Cercetarea bioinformatic a genomurilor ntregi este axat pe urmtoarele direcii: Studiul funcional al genomurilor secveniate; Analiza secvenelor necunoscute n raport cu cele ale genomurilor cunoscute; Vizualizarea genomului; Parsing al secvenelor genomice microbiene: ORFing; Parsing al secvenelor genomurilor eukariote: GenScan; Identificarea genelor ortoloage i paroloage; Identificarea i studierea repetiiilor. Genomul pro- i eucariot fiind diferit n structura determin i o abordare difereniat de studiere a lor. Reieind din obiectivele bioinformatice, procariotele i archeele sunt foarte similare i, cu mici excepii, au urmtoarele proprieti comune: reprezint organisme microscopice; genomul lor constituie o singur molecul circular de ADN; genomul lor este de cteva milioane de perechi de baze (0,6 8); densitatea genic numrul de gene per numrul de perechi de baze n genom este aproximativ de o gen pe 1000 perechi de baze; genomul mic i cu structur relativ simpl (cca. 70% codific pentru proteine); genele nu se suprapun;
Capitolul
AnAlIzA GEnoMUlUI
106
genele se transcriu exact dup regiunea promotor; (Fig. 8.2.). nu conine introni i proteinele reprezint rezultatul transcrierii urmat de translare a ORF-urilor de la ATG pn la STOP.
a) Procariote
107
AnAlIzA GEnoMUlUI
Start site pentru sinteza trp mRNA Transcripie 5 trp mRNA Start site-uri pentru sinteza proteinei Translare E Proteine D 3
kb 1550 580
trp2 V trp5 VII trp3 XI Transcripia i procesing-ul RNA A trp mRNA5 Proteine 3 Translare 1 5 2 4 680 910
Capitolul
Figura 8.2. Prezentarea schematic a procesului transcripie i translare a genelor
nregistrrile n baza de date care descriu secvena procariot codificatoare posed trei caracteristici: poziia elementelor promotor, a ORF-urilor etc. Genele care nu codific pentru proteine determin ARNt, ARNr etc. n cazul eucariotelor, cercetrile bioinformatice ale genomului se confrunt cu o variabilitate larg a organismelor, de la cele microscopice pn la plante, animale i om, cu toate acestea pot fi analizate n baza urmtoarele caracteristici comune: genomul const din fragmente lineare multiple de ADN, cromosomi (pn la sute de milioane de perechi de baze); dimensiuni ale genomurilor de 10 - 3000 mln pb, n deosebi la plante i animale, ceea ce este cu mult mai mare dect cel al procariotelor; densitatea genic este mai mic dect la procariote (la om 1 gen per 100000 pb); genomul conine multe regiuni necodificatoare i redundante, de ex. mai puin de 5% din genomul uman codific pentru proteine; genele de pe catenele de ADN sens i antisens se pot suprapune, dei cu o frecven mic; conin secvene reglatoare cis situate la diferite distane de regiunea de transcripie; structur discontinu a genelor (exoni i introni); variabilitate la nivelul ARNm sau protein determinat de splicingul diferit cu toate c acestea au fost codificate de aceeai gen. Genele eucariotelor superioare sunt foarte mari, de ex., gena pentru distrofina conine 2,2 mln pb. Diferenele dintre secvena de ADN, ARNm i secvena de protein poate atinge uneori nivel foarte nalt, cu toate acestea din punct de vedere structural aceste secvene de analiz bioinformatic au o localizare i distribuie pe cromozomi, care i reprezint o modalitate de vizualizare a informaiei (Fig. 8.3.).
Figura 8.3. Prezentare a unui exemplu de cartare a cromozomului 22 uman
Exist i anumite diferene n adnotarea (modalitate de nregistrare a secvenelor caracteristice unui genom) secvenelor de origine procariot sau eucariot. Astfel, pentru procariote se nregistreaz informaia n urmtorul format: LOCUS numele locusului (un nume arbitrar), mrimea secvenei nucleotidice n perechi de baze, natura moleculei (ADN sau ARN), i topologia ei (liniar sau circular); DEFINITION prezint definiia scurt a genei care corespunde secvenei considerate. ACCESSION numrul de acces identificator numeric unic n cadrul unei sau a diferitor baze de date; VERSION reprezint existena unor secvene sinonime sau a unor ID anterioare; KEYWORDS cuvintele cheie care caracterizeaz secvena dat. Acestea pot fi utilizate pentru identificarea informaiilor despre secvena dat i n alte baze de date. SOURCE descrie denumirea uzual a organismului crui i aparine secvena. ORGANISM red informaii mai complete despre organismul i poziia lui taxonomic; REFERENCE cuprinde informaii despre sursele din literatur i autorii care au determinat secvena dat. Include urmtoarele cmpuri: AUTHORS, TITLE, JOURNALS, PUBMED; COMMENT conine comentarii sau mulumiri sau alte informaii generale. FEATURES seciunea care descrie secvena nucleotidic dup structur, proprieti biologice etc. Include urmtoarele cmpuri: source (indic originea dintr-o anumit zon a secvenei), promoter (indic elementele reglatoare), misc feature (indic localizarea probabil a iniierii transcripiei), RBS (indic localizarea ultimului element naintea secvenei date), CDS (descrie cadrul de citire a genei - ORF). Toate aceste categorii pot s mai conin i alte informaii suplimentare n compartimentele respective.
Capitolul
AnAlIzA GEnoMUlUI
Genom E. coli
operon trp
b) Eucariote CromozomiSacharomyces cerevisiae trp1 trp4 IV
108
Pentru secvenele eucariote informaia n categoriile LOCUS, DEFINITION, ACCESSION, VERSION, KEYWORDS, ORGANISM, SOURCE, REFERENCE este similar ca cea prezentat pentru procariote. Suplimentar la categoriile menionate se adaug: SEGMENT reprezint informaii despre structura mozaicat a genelor eucariote; FEATURE un compartiment complex, alctuit din aa elemente ca: Source indic asupra poziiei secvenei date pe harta genomic (/map); Gene reprezint o formul complex, ce descrie ct mai complex ARNm reconstruit din diferite regiuni codificatoare ale genei i poziia lor; mRNA descrie moleculele de ARNm codificate n regiunile considerate; exon descrierea poziiei exonilor n regiunea cercetat;
109
Identificarea contig-urilor repetate, crearea scaffold-urilor, completarea gap-urilor se realizeaz prin aplicarea unui algoritm de aranjare a contig-urilor, iniial fiind utilizate doar fragmente scurte (mai mici de 10000 pb). Calcularea secvenei consens:
toate contig-urile conin consecutivitate identificat cu poziii aproximative cunoscute din cadrul contig-urilor respective; startul este n captul stng al fiecrui contig; prin deplasare nucleotidcu-nucleotid se calculeaz secvena consens prin estimarea indicilor calitii; citirea se face consecutiv, fiind analizat secvena de la un capt la altul, trecerea la citire ntre contig-uri se face n cazul unei deleii n citirea curent sau prezenei unei regiuni de calitate joas. Acumularea datelor despre genomurile speciilor nrudite permite aplicarea informaiei n cercetrile interspecifice. Astfel, dac este cunoscut secvena total (genom) sau parial (gen) a ADN-lui unei specii, aceasta poate fi folosit pentru identificarea secvenelor similare n speciile nrudite, dar i a celor filogenetic ndeprtate. Problema de baz n identificarea genelor este cea de determinare a funciei unor fragmente de ADN prin asemnarea lor cu alte secvene deja studiate.
AnAlIzA GEnoMUlUI
AnAlIzA GEnoMUlUI
Bazele de date biologice se completeaz permanent cu informaii noi privind diferite aspecte structurale i funcionale ale genomurilor. Pentru structurarea datelor au fost dezvoltate proiecte de catalogare a secvenelor nregistrate, descrierea i asamblarea lor. Asamblarea secvenelor genomice se efectueaz n cteva etape, precedate de construirea bibliotecii de fragmente nucleotidice, care se obine prin fragmentarea ADN n fragmente aliatorii (8 10), secvenierea capetelor lor, amplificarea fragmentelor prin ataarea la un vector urmat din nou de secveniere a cte 800 1000 pb de la captul fiecrui fragment. Strategia de asamblare a fragmentelor dintr-un genom poate fi prezentat succint prin urmtoarele aciuni (Fig. 9.4.):
Capitolul
Introducerea i corectarea secvenelor:
se identific cea mai lung secven continu cu erori <5% (criteriul de calitate); corectarea ulterioar a secvenei; secvenele cu lungimea final de mai puin de 50 pb nu sunt acceptate de program; se identific vectorul prin alinierea cu E.coli i se determin secvenele corespunztoare vectorului; se omit secvenele vectorului din secvena final considerat (ORF).
Detecia regiunilor de suprapunere se realizeaz prin indexarea secvenei a cte 24 pb pentru a identifica n regiunile de suprapunere fragmentele identice din diferite clone. Corectarea erorilor prin aliniere multipl (estimarea scorul de aliniere multipl i selectarea celui mai bun). Evaluarea alinierii i identificarea perechilor:
unul din criterii este penalitatea (P) care estimeaz divergenele dintre perechile de nucleotide; se elimin perechile cu scorul de penalitate mai mare de 100.
Asamblarea contig-urilor:
nucleotidele din perechile identificate mai sus formeaz contig-ul iniial; se marcheaz marginile repetate nainte de a realiza comasarea fragmentelor; se unesc doar perechile care nu se suprapun peste marginea repetat.
Figura 8.4. Etape generale n asamblarea fragmentelor unui genom
Capitolul
8.2. Asamblarea secvenelor genomului i identificarea genelor
110
Analiznd secvenele a dou genomuri - unul cunoscut i altul necunoscut prin aliniere cu ajutorul BLAST sau CLUSTAL se poate determina ipotetic genele posibe ale genomului studiat. Totodat, este posibil analiza filogenetic a speciilor date, pornind de la ideea c selecia natural cauzeaz rate mai joase de mutaii a secvenelor codificatoare i a celor reglatoare, comparativ cu alte regiuni din genom. n aceste studii se ia n consideraie tipul genelor pentru identificare: codificatoare de proteine, ARN codificatoare sau cele reglatoare. Este important i tipul organismului cercetat. Genele i genomurile procariotelor sunt relativ mai uor de studiat, datorit complexitii reduse n organizarea materialului genetic. Structurile genetice, precum boxa Pribnow, site-urile de legare a factorilor de transcripie, secvena promotor, sau cadrele de citire (ORF), reprezint structuri care se identific sistematic uor. Exist i o serie de caracteristici statistice despre periodicitatea nucleotidelor (codonii stop i start), frecvena ORF-urilor, etc., care permite de a utiliza o strategie direct de identificare cu un nivel nalt de precizie. n ce privete organismele eucariote, structura complex a promotoriilor i regiunile reglatoare, existena structurii mozaicate a genelor i mecanismului de splicing complic identificarea structurii i funciei genelor. Metodele avansate de analiz a genelor sunt bazate pe diverse modele ipotetice cu diferit grad de probabilitate pentru a facilita descifrarea complexitii structurale n cazul unui volum mic de informaii cunoscut la etapa dat.
Total specii (5867)
111
AnAlIzA GEnoMUlUI
Total specii (11095)
viroizi 40
Plasmide 39
Capitolul
Figura 8.5. Grupele de organisme i numrul de genomuri analizate
8.3. Resurse web i instrumente computaionale pentru analiza genomului

Cele mai avansate cercetri se efectueaz asupra genomului uman, pentru care exist, la momentul actual, 37 hri genomice. Timp de 13 ani, ncepnd cu anii 1990, prin Proiectului Genomului Uman (www.ornl.gov/sci/techresources/Human_Genome/project/about.shtml) a fost determinat structura la nivel de secven a genomului. Actualmente, eforturilor cercettorilor sunt axate pe analiza heterogenitaii structural - funcionale la diferite nivele care reprezint unul din obiectivele a mai multor proiecte: Deep Catalog of Human Genetic Variation, Human Proteome Initiative, International HapMap Project, etc. (www.1000genomes.org/page.php; www. hapmap.org; www.expasy.ch/sprot/hpi). NCBI (http://www.ncbi.nlm.nih.gov/Genomes/) conine 11095 secvene clasificate n: Archaea, Bacteria, Eukaryotae, Viruses, Viroids, and Plasmids (Fig. 9.5.). Baza de date Entrez i Genome Project nsumeaz informaii (asamblarea, adnotare etc.) privind genomurile secveniate i cele la care secvenierea este n progress (http://preview.ncbi.nlm.nih.gov/genomeprj) (Fig. 9.6.). Baza de date este organizat dup specii i funcioneaz ca un portal. Totodat, aceast colecie nu conine informaii despre genomurile virale, a fagilor, plasmidelor i a organitelor. Pentru 18.10.2009 n baza de date erau nregistrate secvene a 3442 genomuri, dintre care cca. 85 % sunt procariote (http://preview.ncbi.nlm.nih.gov/genomes/static/ gpstat.html).
Din cele 381 genomuri eucariote nregistrate: 4% revin regnului animal, cca. 2% - plantelor, 4% - ciupercilor i 1,5% - protistelor. Se cunoate secvena complet a ADN-lui doar pentru1/3 din toate organismele incluse n proiectele genomice. O alt surs general despre proiectele genomice n derulare este GOLD, Genome Online Database (http://genomesonline.org/Large_scale_projects.htm), care distribuie informaii cu acces liber privind genomurile studiate, standardele obinerii i nregistrrii acestora n bazele de date.
Figura 8.6. Genomuri secveniate complet i incomplet
Capitolul
virui 3482
Eucariote 1190 cromozomi 2117 oragnite 42 plasmide
Bacterii 2050 cromozomi 1987 plasmide
Archaea B4 cromozomi B4 plasmide
AnAlIzA GEnoMUlUI
virui 2278
Eucariote Archaea 2119 83 Bacterii viroizi 40 1309
Plasmide 38
112
Portalul NCBI include urmtoarele resurse WEB a genomurilor cercetate i instrumentele pentru lucrul cu acestea: Entrez Genome; Fungal Genomes Central; Genome Projects Database (Eukaryotic, Fungi, Insects, Mammals, Microbial, Plants); Map Viewer; Organelles; Plant Genomes Central; Viral Resources (Influenza Virus Resource, Retroviruses, Viral Genomes). Pe pagina respectiv sunt prezente anunurile despre actualizarea datelor din resursele diferitor specii, care pot fi accesate prin instrumentul MapViewer ce ofer posibilitate de vizualizare a genelor sau secvenei primare de ADN, plimbarea de - a lungul catenei, cu informaia despre regiunile respective, tipurile de markeri identificai n zonele date etc. Instrumentul MapViewer posed patru nivele de detaliere a hrii genomice cu diferit informaie: Pagina de start a genomului unui organism reprezint sumarul resurselor existente pentru un anumit organism; Nivel de structur a genomului prezentare grafic a genomului complet ca idiograma setului de cromosomi i permite cutare n genom, indicnd localizarea exact pe cromosomi; Harta genomului este o reprezentare a unei sau mai multe hri de interes pentru o regiune cromozomial specific, i permite vizualizarea regiunilor de interes la rezoluii diferite; Nivel de secven reprezint secvena primar a unei regiuni specifice de cromozom i descrierea grafic a caracteristicilor biologice adnotate pentru regiunea dat. Map Viewer este un instrument care reprezint: un mecanism de comparare a hrilor n diferite sisteme de coordonate; o interfa de interogare robust; opiuni diverse de configurare a reprezentrilor rezultatelor; funcii multiple de raportare i descrcare a hrilor i informaiei de adnotare; instrumente de manipulare a secvenei de nucleotide ca ModelMaker (pentru construcia mARN din secvenele probabile de exoni); conexiune la fiierele de date comprehensive prin transferul lor prin FTP; descrierea detaliat a obiectelor reprezentate pe hart. Sequence Download (seq) asigur opiunea de descrcare a unei secvene ntrun format anumit, definit de utilizator (de ex., FASTA, GenBank, ASN.1). Aplicarea Model Maker (mm) determin vizualizarea exonilor ntr-o regiune genomic, prin expunerea diagramei de exoni probabili din alinierea secvenelor de ADNc, dintr-un model ab inition, sau alinierea secvenelor EST (The NCBI Handbook, http://www. ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook). Instrumentul gMap permite compararea secvenelor genomice a diferitor organisme utiliznd rezultatele alinierii comparative din BLAST (http://preview.ncbi.nlm. nih.gov/sutils/gmap.cgi?textpage =contacts). Genomurile care au site-urile similare n secvena sa nucleotidic sunt grupate n clustere i reprezentate prin barele grafice cu secvenele similare indicate prin sgei, iar fiecare din ele posed culoare i numr diferite. Instrumentul permite navigarea de la nivelul taxonilor mari (de ex. bacterii sau virusuri) pn la nivelele mai detaliate de reprezentare a regiunilor cu similaritate. TaxPlot este instrument grafic pentru compararea similaritii ntre proteinele unui genom cercetat cu cele al altor dou specii diferite. Graficul reprezint un sistem de coordonate pe axele crui sunt puse valorile numrului de proteine similare cu proteinele genomurilor a dou specii cu care se face comparaia. Fiecare indicator de pe grafic corespunde cu o singur protein din genom, repartizat n baza scorului obinut din BLAST. Coincidenele de la ambele organisme se prezint sub forma de romburi. Pentru a identifica proteina din grafic este necesar de a clica peste indicator. Ca rezultat n pagina nou se va reprezenta informaia despre proteina respectiv i despre regiunea de similaritate. Pentru identificarea rapid a ortologiei proteinelor din genomurile studiate se aplic COG (Clusters of Orthologous Groups). Acest instrument se utilizeaz n cercetrile filogenetice a secvenelor de proteine codificate n genomurile complete. Fiecare cluster este alctuit dintr-o singur protein sau un grup de proteine paroloage de la cel puin 3 taxoni, care corespund cu un domen conservat ancestral. Aplicaia genomicBLAST faciliteaz analiza comparativ a secvenelor genomurilor. n baza de date sunt nregistrate: 1101 genomuri bacteriene, 63 genomuri arheice, 193 genomuri eucariote. Pentru accesul mai rapid la unele din resurse de importan major exist i alte surse, care de fapt sunt bazate pe cele de baz. Astfel, Cancer Chromosomes este sistemul ce cuprinde trei baze de date despre informaii genetice asociate cu cancerul, obinute prin diferite metode (cariotiparea spectral, FISH multiplex i hibridizarea genomic comparativ). Resursa Gene cuprinde i un instrument de cutare facilitat a genelor n genomurile deja secveniate, fiind elaborat n baza RefSeq n urma procesrii informaiei despre genele identificate. Informaii despre profilurile de expresie a genelor se afl n GEO (Gene Expression Omnibus), care reprezint datele experimentale a nivelului de mARN, miARN, ADN genomic prin ChIP-chip, SNP sau arrayCGH, sau cel al proteinelor, ct i alte date de la SAGE (Serial Analysis of Gene Expression), spectroscopie de mas a peptidelor. Homologene este un sistem automat de detectare a omologiilor ntre genele adnotate a genomurilor complet secveniate. La moment sunt incluse genele a doar ase specii. Mai exist i posibilitatea de a se abona la anunurile despre actualizri ce apar n resursele respective a genomurilor existente i a celor noi: Gene Announce, Genome Announce, Map Viewer Announce, NCBI Announce, RefSeq Announce.
113
AnAlIzA GEnoMUlUI
Capitolul
Exist i o serie de instrumente accesorii care faciliteaz analiza secvenelor la diferite niveluri: Evidence Viewer (ev) reprezint grafic ADNc din GenBank sau RefSeq care se aliniaz genomului n anumit regiune, dar i un grafic de densitate a secvenelor EST existente pentru regiunea dat. Orice poziie de incoinciden sau inserie/deleie este marcat etc. Sequence viewer (sv) permite vizualizarea grafic a oricrei secvene nucleotidice n baza unei gene indicate. n fereastra de vizualizare se prezint o regiune de 2 kb, dar mrimea acestei poate fi modificat.
Capitolul
AnAlIzA GEnoMUlUI
114
115

Exerciiul 8.1.
AnAlIzA GEnoMUlUI
REFERINE
Human Genome Project www.ornl.gov/sci/techresources/ Human_Genome/ project/about.shtml Deep Catalog of Human Genetic Variation www.1000genomes.org/page.php International HapMap Project www.hapmap.org Human Proteome Initiative www.expasy.ch/sprot/hpi NCBI Genomes http://www.ncbi.nlm.nih.gov/Genomes/
AnAlIzA GEnoMUlUI
Determinai dac exist asociere dintre gradul de complexitate a organismelor (nivel de specie) i lungimea moleculei de ADN.
Exerciiul 8.2.
Selectai o specie cu genom secveniat i o protein de interes. Folosind MapViewer identificai poziia genei pe genom.
Genome Project http://preview.ncbi.nlm.nih.gov/genomeprj Genome Online Database, GOLD http://genomesonline.org/Large_scale_projects.htm The NCBI Handbook http://www.ncbi.nlm.nih.gov/books/ bv.fcgi?rid=handbook gMap http://preview.ncbi.nlm.nih.gov/sutils/gmap. cgi?textpage=contacts
Analizai opiunile oferite de MapViewer.
Capitolul
Exerciiul 8.4.
Selectai genomul unui virus de lungime minimal i comparai-l cu genomul Arabidopsis folosind gMap. Identificai zonele de pe genomul vegetal unde pot fi gasite secvenele din genomul viral. Explicai rezultatele obinute.
Exerciiul 8.5.
Selectai 3-5 genomuri a microorganismelor (sau cele virale) i comparai-le utiliznd genomicBLAST.
Exerciiul 8.6.
Care este posibilitatea comparrii totalitii de proteine a unui genom. Elaborai o strategie posibil de a efectua o astfel de investigare.

Cum poate fi evideniat aspectul funcional al genomului? Dai cteva exemple.
Ce este transcriptome? Care sunt bazele de date ce conin informaii despre expresia genelor?
Exerciiul 8.9.
Identificai aspectele expresiei unei proteine la alegere. Observai n care organe sau esuturi i condiiile n care a fost studiat expresia genei selectate.
Exerciiul 8.10.
Realizai o reprezentare descriptiv a unui genom secveniat. Indicai caracteristica transcriptome-ului i proteome-ului. Pentru elaborarea raportului utilizai resursele bibliografice care descriu rezultatele secvenierii genomului.
Capitolul
Exerciiul 8.3.
116
Clasificarea Structural a proteinelor, Cambridge University Grupul de Structuri Biomoleculare i Modelare, University College, London European Bioinformatics Institute, Hinxton, Cambridge Serverul PredictProtein, European Molecular Biology Laboratory, Heidelberg, Germany Swiss Institute of Bioinformatics (SIB), Geneva, Elveia Baza de date SCOP de relaii structurale dintre structurile proteice cunoscute clasificate n superfamilii, familii i structure Baza de date CATH, conine clasificarea ierarhic pe domene a structurilor proteice n baza clasei, arhitecturii, familiei de structur i superfamilii, alte baze de date i analize structurale. Baze de date, imagini TOPS a topologiilor structurale a proteinelor, serverul domenelor Dali, baza de date FSSP. Surs important pentru lucrul cu structurile secundare prin PHD, PREDATOR, TOPITS. http://scop.mrc-lmb.cam. ac.uk/scop
117
ClAsIfICArEA I ModElArEA sTrUCTUrII ProTEInElor
http://biochem.ucl.ac.uk/ bsm
http://tops.leeds.ac.uk
Capitolul 9.
CLASIFICAREA I MODELAREA STRuCTuRII PROTEINELOR
ExPASy Entrez Protein UniProt PAM SwissProt BLOSSUM
Capitolul
Tipurile de baz a bazelor de date de proteine, sursa Swiss-Model pentru prezicerea modelelor de proteine, Swiss-Pdb Viewer.
http://www.expasy.ch
9.1. Clasificarea proteinelor n baza similaritii secvenelor

Studierea proteinelor este facilitat de aplicarea instrumentelor bioinformatice de modelare in silico a datelor ce in de structura i funciile lor fr realizarea experienelor in vivo sau in vitro. Astfel, este posibil de a determina masa molecular relativ, punctul izoelectric, numrul de resturi aminoacide sau de a prezice rezultatul digestiei proteolitice. Din punct de vedere structural este posibil de a identifica modificrile post-translaionale probabile, structura bi- i tridimensional sau funcia. O alt serie de tehnici in de analiza secvenelor pentru identificarea similaritilor care pot fi aplicate pentru caracterizarea structurii i funciei proteinelor necunoscute. Resursele de baz privind secvene polipeptidice se afl n bazele de date de pe portalul NCBI, Entrez Protein, i cele de pe Expasy, UniProt si SwissProt (tab. 9.1.).
Tabelul 9.1. Principalele resurse Web de analiz a structurii proteice
DENuMIREA SuRSEI
Protein data bank, PDB de la State University New Jersey (Rutgers) National Center for Biotechnology Information Structure Group
RESuRSELE EXISTENTE
Coordonatele atomilor n forma fiierilor PDB, modele, reprezentri, referine la alte resurse de analiz structural i clasificri. Baza de date de modelare molecular (Molecular Modelling Database, MMDB), Vector Alignment Search Tool (VAST) pentru compararea structural, vizualizare.
ADRESA INTERNET
http://rcsb.prg/pdb
http://ncbi.nih.nlm.gov/ Structure/
Pentru majoritatea proteinelor exactitatea cu care se presupune structura secundar este de 70 - 75%, dei prezicerea structurii elicei poate ajunge la 90%. Metodele de stabilire a structurii 3D existente la moment nc nu au grad nalt de corectitudine. Banca de Proteine din Brookhaven (PDB) avea depozitate (februarie, 2004) 22044 de secvene proteice, iar SwissProt 144731 de secvene. Iniial au fost identificate cca. 1000 de familii proteice alctuite din membrii cu similaritate de secven detectabil. n baza de date CATH sunt prezente peste 3000 de familii (http://www.biochem.ucl. ac.uk/bsm/cath/). ndat ce se identific o secven nou, aceasta prin similaritate este atribuit la una din familiile existente n baza de date. Alinierea secvenelor, identificarea motivelor sau analiza similaritii poate fi utilizat pentru identificarea relaiilor de rudenie. nelegerea acestor relaii este indispensabil pentru prezicerea structurilor. Informaia despre substituiile aminoacide n anumite poziii ale secvenei poate fi obinut din AMS pentru a mri semnificaia prezicerii structurii secundare n baza celei primare. Un avantaj major n analiza structurii proteice este faptul c, proteinele suport un numr limitat de configuraii 3D. Exist cteva caracteristici a structurii proteice care afecteaz substituiile aminoacide i configurarea tridimensional. Structura proteinei include o structur schelet (core) care conine elementele structurilor secundare mpachetate n apropierea proximitii hidrofobe. Interaciunile specifice ntre lanurile de aminoacizi au loc n cadrul acestui schelet. Pentru un anumit aminoacid, ntr-una din structurile secundare exist un numr limitat de substituii, ceea ce este determinat de aranjarea spaial i tipurile de interaciuni posibile cu ali radicali. n afara scheletului exist bucle i elemente structurale care se afl n contact cu moleculele de ap, alte proteine sau compui. Substituiile n regiunea dat sunt mai puin restricionate dect n schelet.
Capitolul
http://www.predictprotein. org/
118
Prin compararea structurilor tridimensionale noi generate cu cele existente se face analiza structurilor i n aceeai ordine i configuraie spaial. n general, s-a observat c diferite secvene formeaz configuraii tridimensionale similare. Prezicerea structurii proteinelor are la baz cunoaterea condiiilor de substituie ale unui aminoacid ntr-o anumit poziie i ntr-o anumit peptid. Aceasta ntlnete dou dificulti. Prima este determinat de setul diferit de substituii ntlnite n fiecare poziie a fiecrui schelet proteic, iar matricele de substituii standarde, precum Dayhoff PAM sau BLOSUM, nu pot asigura o aliniere structural semnificativ, deoarece aceste matrici sunt alctuite n baza unor observaii ale substituiilor medii n diferite alinieri de secvene. Dayhoff PAM i BLOSUM mpreun cu profilurile HMM ofer legtura direct dintre secven i structur. Dac una din secvenele de aliniere posed structur tridimensional cunoscut, atunci orice alt protein care corespunde modelului, cel mai probabil, va poseda aceeai structur. Cea de-a doua dificultate const n faptul c similaritile structurale n alinierile de secvene trebuie s reflecte lacunele (gap) n afara structurii schelet, i nu n interior. Sunt doar cteva programe care pot ndeplini condiia dat, precum ClustalW i Bayes block aligner. Totodat, pe lng posibilitile de comparare secven-cu-secven sau secvena-cu-structur, se poate de comparat structura-cu-structura. n acest caz de aliniere se cerceteaz aranjarea spaial a scheletului de carbon pentru fiecare aminoacid din protein, ceea ce este determinat de specificitatea i mrimea radicalului aminoacidului i rotarea lui liber n spaiu (tab. 9.2.).
Tabelul 9.2. Proprietile chimice ale celor 20 aminoacizi
GRuPuL CHIMIC AMINOACIDuL
119
Fiecare rest de aminoacid este polar, datorit prezenei radicalului C=O, care acioneaz ca acceptor de H i a radicalului NH care servete ca donor de hidrogen.
H C N phi psi C omega O R C H R H
Hidrofob
Cu sarcin pozitiv / negativ
Polare
A V F P M I L D E K R S T Y H C N Q W G
DENuMIREA
Alanina Valina Fenilalanina Prolina Metionina Izoleucina Leucina Acid aspartic Acid glutamic Lizina Arginina Serina Treonina Tirozina Histidina Cisteina Asparagina Glutamine Triptofan Glicina
Clasificarea proteinelor se face nu doar dup structura spaial, dar i n baza secvenei primare. Iniial clasificarea se realizeazdup structura primar a peptidelor prin alinierea lor, i apoi dupprezena regiunilor conservate de aminoacizi care defineau secvenele domenelor. Pentru efectuarea clasificrii se ine cont de urmtoarele consideraii: Dou secvene total diferite de la specii cu origini evolutive diferite se pot conforma n acelai fel. n caz invers, secvena unei gene ancestrale pentru o anumit structur ar putea s diverge semnificativ n specii diferite, pstrnd totodat aceleai caracteristici structurale. Recunoaterea remanenelor structurale ale similaritilor poate fi o problem dificil de rezolvat. Dou proteine care au un nivel semnificativ de similaritate ntre secvene posed aceeai origine evolutiv ntre ele sau cu o a treia secven, manifestnd caracteristici de structur comune. n decursul evoluiei duplicaia genelor i rearanjamentele genetice cauzeaz creterea numrului de copii de gene care pot evolua n proteine noi cu funcii i structur noi. Prima clasificare a structurilor proteinelor includea patru clase principale. Apoi, au mai fost descrise nc cteva clase recunoscute de baza de date SCOP. Dup Branden i Tooze (1991) sunt elaborate urmtoarele clase: 1. Clasa conine un set de elice conectate prin bucle la suprafaa proteinei (Fig. 9.2., A). 2. Clasa conine structurile antiparalele, de obicei cte dou n contact apropiat formnd aa numitul sandwich (Fig. 9.2., B1). O variant alternativ este structura butoi, n care prima i ultima structur sunt unite (Fig. 9.3., B2). 3. Clasa / conine preponderent structurile paralele cu intervenii de elice. Ca un exemplu de structur complex poate servi butoiul format din pliuri, nconjurat de elice (Fig. 9.2., C). 4. Clasa + conine n special elicele segregate cu structurile antiparalele (Fig. 9.2., D). 5. Proteine multidomenice ( i ) reprezint complexe din elementele din primele patru clase (Fig. 9.2., E).
Capitolul
Capitolul
Figura 9.1. Orientarea spaial n cadrul scheletului de carbon a aminoacizilor (swissmodel.expasy.org/course/text/chapter1.htm)
120
6. Proteine membranare i de pe suprafa celular cu excepia proteinelor sistemului imun (Fig. 9.2., F).
121
9.2. Vizualizarea structurii moleculare a proteinelor

Prima etap important n vizualizarea unei structuri proteice este identificarea corect a codului de identificare PDB pentru fiierul structural. Majoritatea site-urilor ofer programe de vizualizare pentru cutare n bazele de date structurale dup denumirea proteinei, organismului surs i alte caracteristici specifice. Totodat este posibil de a indica informaii despre domenele, conformaiile sau fragmentele de protein i, chiar, regiunea proteinei de interaciune cu substratul sau inhibitorul. Unele resurse ofer i informaii despre structura proteinei mutante. Principiul de lucru al programelor de vizualizare a structurii spaiale a proteinelor se bazeaz pe convertirea coordonatelor atomilor n reprezentarea grafic a moleculelor (Fig. 9.3.). Aceste programe recalculeaz i datele pentru a evita anumite dubii sau a completa informaia ce lipsete..
ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1 N 2 CA 3 C 4 O 5 N 6 CA 7 C 8 O 9 CB 10 OG 11 N 12 CA 13 C 14 O 15 CB 16 CG 17 ND1 18 CD2 19 CE1 GLY GLY GLY GLY GLY SER SER SER SER SER HIS HIS HIS HIS HIS HIS HIS HIS HIS A A A A A A A A A A A A A A A A A A A 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 44.842 45.640 46.692 46.895 47.283 48.277 49.212 49.060 47.438 46.276 50.147 51.129 50.953 50.530 52.555 52.940 53.371 52.956 53.676 51.034 50.230 49.692 50.222 48.516 47.866 47.031 47.195 47.091 46.356 46.186 45.389 43.905 43.595 45.674 47.090 47.470 48.175 48.730 101.284 100.389 101.308 102.381 100.951 101.761 100.845 99.630 102.800 102.404 101.370 100.609 100.849 101.950 100.990 100.611 99.422 101.433 99.476 0.01 0.01 0.01 0.01 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 27.20 26.99 26.80 26.91 26.26 26.17 24.21 19.77 26.31 27.99 23.93 21.44 20.32 22.00 19.69 21.44 20.87 21.69 20.57
N G
A
B F
B
C
E
Capitolul
F
Figura 9.2. Structurile diferitor clase de proteine
A Elice conectate ntre ele prin bucle (http://users.soe.ucsc.edu/~pinal/p1/comp_1F.PNG) B Structurile formeaz sandwich (B1), sau butoi(B2). http://www.biochemj.org/bj/357/0647/bj3570647f02.gif; en.wikipedia.org/wiki/Beta_barrel) C Structura este nconjurat de cteva structuri (http://www.cryst.bbk.ac.uk/pps97/course/ section10/10_babs.gif). D Proteine cu structura + (http://www.jcsg.org/images/stim/1o5j.png) E Proteinele multidomenice (commons.wikimedia.org/wiki/File:PDB_2v1c_EBI.png) F Structura proteinei membranare (http://www.bioc.uzh.ch/plueckthun/images/projects/membrane_proteins.jpg).
Figura 9.3. Coordonatele primilor 19 atomi ale nregistrrii PDB pentru 2HLA (http://cnx.org/content/m11621/latest/). n coloana a treia se afl lista atomilor, iar n a aptea, opta i noua sunt coordonatele x, y, z pentru fiecare atom.
Programele de vizualizare a structurii spaiale a proteinelor ofer un set de instrumente de manipulare cu molecula, precum rotaia, mrirea / micorarea, crearea imaginilor pentru imagine stereo. Rotirea moleculei poate fi realizat cu ajutorul mouse-lui prin accesarea imaginii. Este posibil de a vizualiza alinierile structurale sau structurile prognozate. Cea mai bun posibilitate de a lucra cu aceste programe este utilizarea browserului Web, deoarece acesta este accesat automat de program conform configuraiei de
Capitolul
B1
B2
122
baz. Multe site-uri ofer fiiere structurale de proteine n diferite formate i link-uri ctre alte surse unde pot fi descrcate programele de vizualizare. Procesarea corect a fiierelor cu informaie structural corect prin Web sau ataamente e-mail este posibil graie proiectului chemical MiME (Multipurpose internet Mail Extension) (http://www.ch.ic.ac.uk/chemime/iupac.html). Acest proiect faciliteaz activitatea cu tipurile standarde de fiiere MIME. De exemplu, dac nceputul unui fiier conine chemical/x-pdb (tipul MIME chemical, subtipul x-pdb), nseamn c fiierul este unul de tip text n formatul din Brookhaven Protein Data Bank, iar pentru vizualizarea lui este necesar un program precum Rasmol (Fig. 9.4) sau Chime. Pentru a face cunotin cu programele oferite de cele dou resurse, este de dorit ca s se utilizeze o secven cunoscut pentru a identifica toate posibilitile oferite de resurse. Acestea permit identificarea chiar i a proprietilor fizico-chimice ale proteinei, de ex., ProtParam. Acest program lucreaz n felul urmtor: Se acceseaz pagina www.expasy.org/tools/#primary din seciunea Primary Structure Analysis a paginii ExPASy Proteomics Tools. Se acceseaz link-ul ProtParam Tool (Fig. 9.5.). Se introduce secvena de interes, fie prin indicarea numrului de acces, fie prin copierea direct a secvenei n formatul RAW, sau n formatul FASTA fr linia titlu dup simbolul >. n cazul n care se indic secvena prin numrul de acces, va aprea o fereastr intermediar cu informaii despre secvena dat. La introducerea numrului de acces Swiss-Prot, pe pagina urmtoare sunt reprezentate caracteristicile lanului de aminoacizi i posibilitatea de a analiza o poriune din el prin indicarea numrului aminoacidului de la care se ncepe analiza i cel final. Dac acestea nu se introduce, se analizeaz ntreaga secven. Se acceseaz butonul Submit pentru a ncepe analiza. Rezultatele analizei reprezint masa molecular, coeficientul de extincie etc. Se selecteaz FileSave As pentru a salva rezultatele.
123
Capitolul
Figura 9.4. Pagina Web a programului RasMol
9.3. Modelarea structurii proteinelor utiliznd instrumente bioinformatice

Structura molecular a proteinelor este determinat de compoziia aminoacid a lanului ce poate fi gsit pe dou resurse de baz: ExPASy (Expert Protein Analysis System) de pe www.expasy.org, cu o pagin specific dedicat metodelor de analiz Swiss EMBnet de pe www.ch.embnet.org Pentru a le utiliza este necesar de a avea doar lanul de aminoacizi a secvenei proteice. n cazul n care secvena cercetat este similar cu careva deja descris n bazele acestea, este posibil de a accesa informaiile despre structura, funciile, localizare celular etc.
Figura 9.5. Pagina instrumentului ProtParam
Capitolul
124
125

REFERINE
Exerciiul 9.1.
Enumerai proprietile fizico-chimice ale proteinelor. folosind resursele din tab. 8.1, elaborai un tabel cu indicarea aspectelor structurale i funcionale ale proteinelor i instrumentelor cu care acestea pot fi determinate.
Exerciiul 9.2.
Indicai criteriile de clasificare a proteinelor? Prezentai exemple de clasificri pe care le cunoatei.
Capitolul
Analizai structurile secundare ale proteinei. Care este aspectul lor funcional?
Elaborai structurile secundare pentru proteinele analizate din Exerciiul 5.6. Cum programele construiesc reprezentarea 3d?
Exerciiul 9.6.
descriei diferenele structurale dintre proteinele analizate. Identificai care din structuri sunt conservative?
Exerciiul 9.7.
Explicai din punct de vedere evolutiv, asupra cror regiuni din structur, selecia natural acioneaz mai puternic.
Exerciiul 9.8.
reevaluai AMs obinut anterior i indicai, care din regiunile structurii secundare sunt cele mai potrivite pentru a estima evoluia proteinelor date.
Exerciiul 9.9.
Analizai componena aminoacidic a structurilor secundare din proteinele de interes. determinai tipul aminoacizilor care se ntlnesc preponderent n fiecare din structuri. Estimai corelaia dintre acestea.
Exerciiul 9.10.
Analizai structurile secundare din proteinele date la nivelul secvenelor lor nucleotidice. Identificai dac exist anumit legitate dintre variabilitatea la nivel nucleotidic i cel aminoacidic n structurile secundare.
Capitolul
Identificai o protein de interes. din ce clas de proteine dup Branden i Tooze (1991) face parte proteina selectat? Argumentai rspunsul.
Exerciiul 9.3.
Protein data bank, PDB http://rcsb.prg/pdb National Center for Biotechnology Information Structure Group http://ncbi.nih.nlm.gov/Structure/ Clasificarea Structural a proteinelor http://scop.mrc-lmb.cam.ac.uk/scop Grupul de Structuri Biomoleculare i Modelare http://biochem.ucl.ac.uk/bsm European Bioinformatics Institute http://www.ebi.ac.uk/
PredictProtein http://www.predictprotein.org/ Swiss Institute of Bioinformatics, SIB http://www.expasy.ch CATH http://www.biochem.ucl.ac.uk/bsm/cath/ IUPAC http://www.ch.ic.ac.uk/chemime/iupac.html ProtParam www.expasy.org/tools/#primary
126
127
GLOSAR
Adevrat negativ este valoarea probabilitii calculate pentru testarea ipotezei, ce nseamn c rspunsul obinut nu susine ipoteza, ce i era ateptat. Adevrat pozitiv este valoarea probabilitii calculate pentru testarea ipotezei, ce nseamn c rspunsul obinut susine ipoteza, ce i era ateptat. Adnotare este procesul de marcare a secvenelor genomului cu informaii privind funcia, cum ar fi, de ex., localizarea exonilor i intronilor ntr-o gen eucariot. Algoritm de programare dinamic soluioneaz problema depistrii alinierii optimale dintre dou secvene prin desfacerea alinierii ntr-o serie de subalinieri a secvenelor care pot fi rapid calculate. Tabelul sau matricea se construiete n baza unei secvene pe orizontal i una pe vertical a matricei. Scopul este de a calcula cel mai bun scor posibil pentru fiecare poziie n matrice, prin considerarea oricrei combinaiei posibile dintre coincidene, incoincidene i lacune. ncepnd cu poziia sus stnga a matricei, care corespunde cu marginea secvenelor, algoritmul calculeaz scorul poziiilor iniiale, inclusiv a combinaiilor posibile de lacune. Apoi se construiesc alinieri mai lungi n baza celor mai scurte prin completarea poziiilor remanente. Ca rezultat, se estimeaz toate combinaii posibile a coincidenelor i lacunelor. Astfel, matricea de poziii cu cel mai nalt scor reprezint cel mai probabil scor dintre dou secvene, iar calea parcurs prin matricea pentru a obine cel mai mare scor determin alinierea secvenelor corespunztoare. Algoritmul este o procedur computaional pentru rezolvarea unei probleme care a fost analizat temeinic pentru a se asigura c aceasta ofer o soluie rezonabil corecta a problemei. Algoritmul Needleman - Wunsch este un algoritm de programare dinamic pentru producerea unei alinieri globale de secvene. Algoritmul Neighbor-Joining (Neighbor-Joing algorithm) un algoritm greedy care prezice un arbore evolutiv, bazat pe adugarea progresiv a urmtoarei cele mai asemanatoare secvene (sau set de secvene) ca o ramur suplimentar la un arbore existent, folosind distanele dintre secvene. Algoritmul Smith - Waterman este un algoritm de programare dinamic pentru identificarea celui mai nalt scor de aliniere local a secvenelor. Caracteristica principal a acestui algoritm este c valorile negative calculate n matricea de programare dinamic sunt convertite n zero, pentru a preveni valorile joase a alinierii, respectiv, calitatea joas a lor, i, totodat, pentru a susine depistarea alinierilor locale ncepnd i stopndu-se oriunde n matrice. Alinierea global este o aliniere a dou sau mai multe secvene care sunt similare dup ct mai multe caractere posibile n toate secvene. Alinierea local este o aliniere, care include numai cele mai bune coincidene, cu regiunile cu cel mai nalt scor dintre dou sau mai multe secvene. Pentru dou secvene, o aliniere local este obinut prin utilizarea algoritmului Smith - Wa-
terman i aplicarea corespunztoare pentru coincidene, asimetrie, i scorurile penalitii pentru lacun. Alinierea multipl a secvenelor (AMS) este o aliniere a trei sau mai multe secvene, astfel nct fiecare coloan din aliniere este o ncercare de a reprezenta schimbrile evolutive ntr-o poziie a secvenei, inclusiv substituii, inserii i deleii. Alinierea multipl a secvenelor progresiv este o procedur de generare a unei AMS care reduce construcia AMS la o serie de aliniei n pereche. Iniial se face o aliniere n baza programrii dinamice dintre dou cele mai nrudite secvene, iar alinierea final este apoi extins pentru a include altele, mai puin similare. Alinierea multipl de secven local este o AMS care include regiunile localizate de secvene similare n aliniere. Alinierea multipl global a secvenelor este o AMS care include majoritatea sau toate secvene din aliniere. Alinierea optim este punctajul cel mai nalt pentru toate alinierile posibile dintre dou secvene, gsite prin algoritmul de programare dinamic pentru un anumit sistem de calculare a scorului, de obicei, o combinaie demonstrat de scoruri de coincidene / incoincidene i penalitile pentru lacune. Alinierea parametric a secvenelor este un algoritm care identific o serie de alinieri posibile n baza varierii parametrilor sistemului de calculare a scorului pentru coincidene / incoincidene i penalitile pentru lacune. Alinierea secvenelor dup perechi (pair-wise sequence alignment) este alinierea a dou secvene n pereche. Alinierea secvenelor este compararea a dou sau mai multe secvene prin cutarea unei serii de caractere individuale sau seturilor de caractere care sunt n aceeai ordine n ambele secvene. Analiza Bayesian este o procedur statistic utilizat pentru a estima probabilitatea condiionat a unui eveniment. Ea se bazeaz pe estimri tot mai bune ale probabilitii utiliznd condiii preliminare de la estimrile precedente i actualizarea acestor date cu informaii noi, folosind regula Bayes. Altfel se mai numete probabilitatea posterioar. Analiza bootstrap este o procedur de extragere aleatorie a datelor, utilizate pentru a prezice un arbore evolutiv, care corespunde coloanelor din alinierea multipl a secvenelor, pentru a dermina ct de bine datele AMS prezic arborele. Analiza filogenetic o investigare a relaiilor evolutive dintre un grup de secvene asemntoare prin producerea unei reprezentri a acestor relaii sub forma de arbore. Analiza statistic a valorilor extreme este o analiz statistic pentru valoarea extrem care va fi identificat n serii de experiene comparativ cu valoarea medie. n cazul cutrii similaritilor n baze de date, aceasta nseamn c odat ce secvena de interes va fi comparat cu mulimea de secvene nenrudite, una din ele va produce o valoare destul de nalt a scorului de aliniere i, astfel, va determina un raspuns fals. Arbore n contextul molecular filogenetic, este o reprezentare grafic care descrie relaiile dintre un set de secvene. Cele mai asemntoare secvene sunt plasate la
Glosar
Glosar
128
capetele exterioare ale celor dou ramuri, care mai jos pe arbore se unesc ntr-o ramur comun, indicnd c ele au provenit de la o secven ancestral. Ramura dat apoi se combin cu o alt, n funcie de nrudirea ntre ele. Arborele cu rdcin (rooted tree) o reprezentare sub forma de arbore a unui grup de secvene nrudite, n care toate secvenele sunt descendente de la un punct comun ntr-una din ramurile arborelui. Calea de la acest punct dealungul arborelui spre fiecare secven definete calea evolutiv probabil spre secvena dat. Arborele far rdcin (unrooted tree) o reprezentare sub forma de arbore al unui grup de secvene nrudite, care ns nu precizeaz care dintre secvene este forma ancestral a altora. Arborele genomic un arbore bazat pe similaritile i diferenele ntre genomuri. Arborele vieii (tree of life) este o modalitate de a plasa toate organismele pe acelai arbore filogenetic care dateaza de la primele tipuri cunoscute de organisme. Archei reprezint a treia clas de organisme, diferit de clasele Bacteria si Eukarya. Ea a fost determinat n urma analizei evoluiei structurii ARNr. Baza de date de secvene colecie de secvene cu informaii despre fiecare secven pentru fiecare nregistrare de date. n general, ele includ un amestec de secvene genice prognozate i cele demonstrate experimental, de aceea este recomandat de a utiliza bazele de secvene a genomurilor individuale, care sunt adnotate. Baz de date orientat pe obiect (object oriented database) este o baz de date n care informaia nu este depozitat sub form de tabele ca n bazele de date relaionale, ci ca obiecte i cu informaie adiional, legat de modul de analiz a lor. Acest tip de baze de date uureaz modelarea i expunerea unui complex de date cu diferite locaii. Baz de date relaional baz de date care organizeaz informaia n tabele. n fiecare coloan a tabelei se conine informaie ce poate fi depozitat ntr-un singur registru. O baz de date poate avea mai multe tabele i limbaje de comunicare, de ex. SQL. Bloc haplotipic reprezint o regiune a unui cromozom care este transmis genomului generaiei urmtoare. Blocuri de secvene, sau BLOCKS regiuni conservate, fr lacune, de aproximativ 3-60 aminoacizi lungime ntr-un set de proteine nrudite utilizate pentru a elabora matricea de scor de aminoacizi BLOSUM. Blocuri reprezint pattern-uri ntregi, de aminoacizi, fr lacune, prezente n proteine nrudite. Cartarea genomic este procedura de determinare a ordinii fizice a genelor n genom prin determinarea suprapunerii fragmentelor secvenelor de ADN, de obicei din BAC-uri. Centromer reprezint regiune cromozomial specific, care servete ca punctul de ataare ntre cromozomi fiice nou replicate, i care, de asemenea, au funcia de a le distana n timpul diviziunii celulare. Clasificarea k-tuple este un procedeu de a descompune secven n cuvinte de fragmente scurte sau de mrimea caracterului simplu, unde k este lungimea cuvntului. Clona reprezint un fragment de ADN izolat din cromozomul unui organism, care a fost secveniat ntr-o alt molecul, numit vector de clonare i se comport ca un tip de cromozom artificial n stare s se replice n mai multe copii, de obicei, n celula bacterian. Multe copii identice ale fragmentului clonat snt produse pentru secveniere sau alte experimente de laborator. Cluster de gene grup de gene nrudite reprezentate ca puncte pe un graf, unite prin linii (laturi), ce indic relaiile apropiate a genelor. Clusters of Orthologous Groups (COG, Clustere de grupuri ortoloage) servesc pentru analiza relaiilor dintre gene i sunt o reprezentare grafic a relaiilor dintre secvene dintre genele nrudite ntr-un grup de organizme, de obicei procariote. Cod de calculator (computer script) linie de cod ntr-un anumit limbaj de programare, de ex., Perl, Python, care este imediat interpretat de calculator, spre deosebire de limbaje de programare, cum ar fi C, care necesit compilare pentru a produce un program executabil. Codon este un triplet din 3 nucleotide din molecula de ADN sau ARN care prin componen i secven este specific unui singur aminoacid n sinteza lanului polipeptidic sau care poate semnaliza nceputul sau sfritul mesajului, prin codonul start (de iniiere) i, respectiv, codonul stop (terminal). Coeficientul se utilizeaz n scorurile de aliniere a secvenelor, ca un parametru statistic al distribuiei valorilor extreme i este un factor de scar pentru valorile matricei de scoruri. Pentru matricea BLOSUM62 i diferite penaliti pentru lacune, =0,25. Compararea genomului analiz comparativ ntre genomurile organismelor diferite n baza mai multor caracteristici, precum setul de proteine codate (proteom), ordinea genelor n genom, prezena unor elemente transpozabile, etc. La fel, poate fi realizat compararea genomurilor indivizilor aceleeai specii n baza variaiilor secvenelor (SNP, repetiii, etc.) sau asocierea cu boli, de ex., cancer. Complexitatea secvenei este o msur a gradului de utilizare a tuturor caractere a secvenei disponibile (aminoacizi sau nucleotide) ntr-o secven sau o parte a unei secvene. Complexitatea spaial i temporar a unui algoritm cantitatea de memorie i timpul de lucru (numrul de aciuni) a unui calculator necesare pentru soluionarea problemei printr-un anumit algoritm. Pentru algoritmurile de aliniere a secvenelor, complexitatea este funcia dependent de lungimea secvenei. Contig reprezint colecii de secvene suprapuse obinute prin secveniere. Pot fi gsite prin aliniere automat a secvenelor sau folosind informaia din experimentele de clonare ca ghid de aliniere. n dependen de tipul secvenei, contigurile pot fi pentru cromozom sau pentru o gen. CORBA (Common Object Request Broker Architecture) standard deschis industrial ce lucreaz cu datele i cu programele care utilizeaz aceste date pe maini diferite, diferite limbaje de programare sau locaii diferite. Aceste obiecte de date distribuite sunt elaborate de Object Management Group.
129
Glosar
Glosar
130
Cuvntul cutat ir (rnd) scurt de litere a secvenei, de obicei, 3 pentru proteine i 5-15 pentru acizi nucleici, care este folosit pentru a compara secvenele. Prezena cuvintelor neobinuite sau apariia cuvintelor n aceeai ordine n ambele secvene este un indice bun al alinierii secvenelor. Determinarea ponderilor secvenei presupune aplicarea factorului de reducere a scorului alinierii pentru a scdea efectul dominant al scorurilor nalte dintre secvenele nrudite i astfel s contribuie ca AMS s fie mai reprezentativ pentru modificrile evolutive n toate secvene. Distana genetic numrul de modificri, care trebuie s aib loc ntr-o secven pentru a se transforma n alta, ntr-o aliniere a secvenelor. Lacunele i substituiile generale observate nu sunt luate n consideraie. Distribuia binomial distribuie de probabiliti a unei msurri cu dou rezultate posibile, precum aruncarea monedei. Aceast distribuie este util pentru a deistribuie termina veridicitarea msurrilor i puterii testelor statistice. Distribuia normal curba de tip clopote descris de media i abaterea medie standard. Distribuia normal se ateapt atunci cnd datele sunt afectate de muli factori necorelai. Scorurile de aliniere local a secvenelor nenrudite sau aliatorii nu se supun distribuiei normale, ns se supun distrubuiei valorilor extreme. Distribuia Poisson tipul de distribuie folosit pentru a prezice apariia unor evenimente rare ntr-o perioad lung de timp sau pentru un numr mare de studii, fiecare cu o mic ans de succes. n analiza secvenelor se aplic pentru a calcula probabilitatea c o pereche dintr-un numr mare de perechi de secvene nenrudite poate s dea un scor nalt al alinierii locale. Distribuia probabilitii reprezentare grafic a valorilor teoretice sau reale ale unor variabile, n care o serie de valori pe axa x snt reprezentate grafic n funcie de frecvena scorurilor n fiecare serie pe axa y. Curba poate fi normalizat prin scalarea, pentru a face ca aria sub curb s fie egal cu 1. Probabilitatea msurrilor n limitele exacte de valori poate fi calculat ulterior n baza ariei dintre valori. Pentru analiza secvenelor scorul de aliniere local a alinierilor randomizate a secvenelor corespunde distribuiei probabilitilor valorilor extreme. Distribuia valorilor extreme unul din tipurile distribuiei (distribuia Gumbel) cu descreterea nceat a graficului. Scorurile pentru aliniere local a secvenelor dintre secvenele nenrudite sau aleatorii sunt un exemplu. Aceste scoruri pot atinge valori foarte mari, n special cnd un numr mare de comparri este fcut, precum n cutarea similaritii n baze de date. Probabilitatea scorului unei alinieri particulare poate fi prezis exact prin distribuia valorilor, care corespund unei funcii exponeniale dublu negative. Domen, ca termen, n general se refer la un pattern extins de secvene, identificat prin metoda alinierii secvenelor. Domenul poate include secvena proteic integral sau parial. Unele domene sunt complexe i alctuite din cteva domene mai mici care se unesc pentru a forma unul mai larg pe parcursul evoluiei. Duplicarea genelor procesul de a produce o copie nou a unei gene existente n genomul unui organism. Elemente transpozabile secvene de ADN care migreaz dintr-o locaie cromosomial n alta. n genere, ele pot fi identificate precum copii multiple n genom. Enhancer secvente de ADN care acioneaz pentru a stimula transcripia unei gene, de multe ori dintr-o locaie de la distan de pe secvena de ADN. Entrez baza de date cu program de cutare disponibil pe site-ul NCBI. EST secvene ale copiiilor de ADNc sau ale moleculelor de ARNm. Ele snt secveniate de multe ori la ntmplare de pe diferite secvene de ADNc de la o surs biologic. EST-urile snt asamblate n secvene nvecinate care reprezint secvene individuale de ADNc i ARNm. Eucariote clas de organisme celulare, care au un nucleu vizibil la microscop, difereniat de citoplasma celular printr-o membrana nuclear i care conine cromozomii organismului. Evoluia convergent se refer la evoluia a dou gene spre aceeai funcie biologic. Dar, deoarece ele au structura genetic iniial diferit, secvenele rezultate nu sunt similare. Exon secven de deoxinucleotide din regiunea intragenic a ADN-ului eucariotic care va fi exprimat n ARNm. O unitate transcripional este constituit din exoni care alterneaz cu intronii. Expresie regulat (standard) reprezentare nalt flexibil a unui pattern al secvenei care admite o gam larg de substituii ntr-o poziie, apariia repetat a unei poziii, lacune de dimensiuni variabile, precum i multe alte caracteristici. Factor de transcripie protein implicat n iniierea sau reglarea transcripiei, prin legarea la o secven de ADN situat n amonte de punctul de start i particip la formarea complexului care conine ARN polimeraza. Exemplu: NF-kB, TFII, TFIII. Fag, sau bacteriofag, este un virus, de dimensiuni foarte mici, care atac o bacterie, injectnd n ea materialul genetic al su. Se folosete pentru tehnica ADN recombinant i secveniere, prin care ADN-ul strin este inserat ntr-un fag ADN, de ex., fag , care apoi se comport precum un vector de clonare. Odat cu replicarea fagului n interiorul bacteriei, se multiplic i ADN-ul strin. Fals negativ valoarea probabilitii calculate pentru testarea ipotezei, ce nseamn c rspunsul obinut susine ipoteza, dei se atepta contrar. Se mai numete eroarea tipul I sau . Familie de proteine reprezint grupuri de proteine, care prin aliniere a secvenelor au demonstrat cel puin 50% de identitate. Genom cuprinde informaia genetic total a unui organism, coninut n ADN la eucariote i procariote i n ARN sau ADN la virusuri, ce include toate genele ce codific pentru proteine i / sau ARN. Graf reprezentare a relaiilor dintre obiectele unui grup, de ex., genele n dou genomuri. Obiectele sunt reprezentate prin noduri, care pot include informaii despre obiecte, i obiectele nrudite sunt unite prin laturi care sunt marcate conform gradului de rudenie. Graful poate fi utilizat pentru a gasi clustere de obiecte similare. Graful direcionat aciclic clas de structuri de date care posed un set ordonat de noduri unite prin laturi astfel c nici o cale (path) din graf nu incepe i nu se
131
Glosar
Glosar
132
finiseaz n acelai nod. De exemplu, un graf de ordine parial utilizat pentru producerea AMS. Harta haplotipic (Hapmap) este harta genomic care arat blocurile secvenelor cromozomiale de lungime diferit care se transmit dealungul generaiilor i sunt pstrate n populaiile unui organism. Ele se identific precum pattern-uri conservate a variaiei secvenelor (SNP) i reprezint un interes deosebit pentru cercetrile genomului uman, deoarece acestea cauzeaz variaiile genetice i influeneaz riscul maladiilor. Identitatea procentual n alinierea de secven descrie procentul de poziii aliniate ntr-o aliniere, n care caracterele secvenelor sunt identice. Poziiile cu lacune nu se iau de obicei n calcul. Indel este termenul utilizat pentru a reprezenta o inserie sau deleie de secvene n aliniere. Ipoteza nul o ipotez specific ntr-un test statistic despre valoarea unei variabile sau rezultatul testului ales. Obiectivul testului este de a obine date suficiente care vor determina acceptarea sau rejecia ipotezei date. Ipoteza nul presupune c n rezultatul testului nu vor fi modificri sau dac condiiile testului se vor respecta sau nu. K un parametru statistic al distribuiei valorilor extreme care depinde de matricea de scor utilizat i scorurile penalitilor pentru lacune. Lacuna (gap) este o poziie goal n alinierea a dou secvene cauzat de inseria sau deleia n una din secvene. Lanul Markov (Markov Chain, MC) este un algoritm folosit n analiza secvenelor i descrie modelul idealizat al modificrilor n secven de ADN sau proteine pe parcursul perioadei evoluiei, n care fiecare poziie sufer modificri independent de istoria acestei i de celelalte poziii n secven. Aceste modele se numesc modele PAM (Percent Accepted Mutation) de schimbare secvenei. Locii caracterelor cantitative (Quantitative Trait Loci, QTLs) - sunt variaiile secvenelor ce se afl n apropierea genelor biologic importante i care se transmit nlnuit cu ele prin generaii. Prezena unei astfel de gene permite asocierea puternic a QTL cu o anumit caracteristic biologic important, de. ex., productivitatea la plante. Logaritmul scorului probabilitilor (Log odds score) este valoarea, care, la alinierea secvenelor, se adaug la punctajul pentru toate celelalte perechile aliniate, iar penalitile pentru lacune se scad. Matricea de puncte filtrat reprezint matricea obinut n timpul alinierii secvenelor n pereche n care pot fi filtrate coincidenele ntmpltor prin utilizarea ferestrei de scanare pentru a compara dou secvene. n acest caz nu se compar o singur pereche din poziiile secvenelor la un moment, ci o fereastr de poziii adiacente n dou secvene, iar punctul, care indic coincidena, se pune n matrice numai dac este trecut pragul numrului de coincidene (stringena). Matricea de scor se refer la o matrice de scor care cuprinde toi cei 20 de aminoacizi pe orizontal i vertical a matricei i apoi calculeaz logaritmul scorului de probabilitate pentru substituia aminoacizilor la intersecia rndurilor i coloanelor pentru fiecare pereche de aminoacizi. Acest scor poate fi bazat pe schimbrile evolutive observate sau alinierile a multor familii de proteine. Matricea poate fi utilizat pentru a calcula scorul alinierii oricrei perechi din secvena proteic. Matricea de scor BLOSUM este de obicei utilizat pentru a alinia secvene de proteine. Aceste matrici se bazeaz pe substituii gsite n alinieri a unui numr mare de familii proteice cu similaritatea variat a secvenelor. Alinierile se afl n baza de date BLOCKS. Secvenele suprareprezentate (cu cea mai frecvent identificare) n alinierile date sunt grupate mpreun n diferit mod pentru a reduce influena lor n rezultate. Matricea BLOSUM62, care conine secvenele grupate cu similaritatea de cel puin 62%, este cea mai larg aplicat pentru calcularea scorului de aliniere. Matricea de scor specific de poziie (PSSM, Position-specific scoring matrix) reprezint variaia gsit n coloanele unei alinieri unui set de secvene nrudite. Fiecare urmtoare coloan din matrice corespunde urmtoarei coloane din aliniere, iar fiecare rnd corespunde caracterului particular din secven (una din cele 4 nucleotide din ADN i una din cele 20 aminoacizi din proteine). Valorile matricelor reprezint logaritmurile scorurilor probabilitilor, obinute prin dividerea numrului de resturi din aliniere la numrul ateptat de resturi n baza compoziiei secvenei, i convertirea raportului obinut prin logaritmare. Matricea se deplaseaz dealungul secvenei pentru a gsi regiunile de similaritate prin adugarea valorilor pentru LSP i cutarea celor mai nalte valori. Nu se admit lacunele. Se mai numete matricea de ponderi sau matricea de scor. Matricea de puncte (dot plot) reprezint o diagram, ca metoda grafic de reprezentare a comparrii a dou secvene. O secven este scris orizontal deasupra graficului, iar cea dea doua pe latura stng vertical. Punctele se plaseaz n grafic dac este coinciden de aceeai liter n poziiile corespunztoare ale secvenelor. Seria diagonal de puncte apare ca linie pe grafic i indic o aliniere a unei serii de poziii n secven. Matricea poate fi filtrat pentru a identifica regiunile cele mai similare prin calcularea pragului minimal a numrului de coincidene (stringena) n cadrul ferestrei de scanare a secvenelor (sliding sequence window). Matricea de scor PAM este o matrice care descrie probabilitile, ca o poziie a secvenei, precum un aminoacid, s-a modificat ntr-o secund n timpul perioadei de evoluie. Matricele PAM de aminoacizi se obin din analiza substituiilor aminoacidice observate (acceptate de procesul evolutiv) n familii de secvene nrudite. Matricea PAM1 descrie pattern-ul de modificri ateptate ntr-o perioad de timp cnd 1% din poziii se modific. Matricele PAM de valori mai nalte pot fi aplicate pentru prezicerea unui timp evolutiv mai ndelungat, prin multiplicarea matricei PAM1 cu ea nsi. Matricea logaritmurilor probabilitilor este un tabel al scorurilor probabilitilor logaritmate, n care coloanele reprezint coloane dintr-o aliniere multipl a secvenelor i rndurile reprezinta caracterele secvenei, corespunztor fiecrei coloane. Scorul al probabilitii logaritmate pentru fiecare coloan se estimeaz
133
Glosar
Glosar
134
prin numrarea numrului fiecrui caracter n coloan i mprirea lui la numrul ateptat, calculat n baza frecvenei caracterului n secvenele aliniate. Maximizarea ateptrilor un algoritm pentru identificarea poziiei pattern-urilor similare de secvene ntr-un set de secvene. Alinierea presupus a secvenelor iniial se folosete pentru a genera matricea de scoruri ateptate, care reprezint distribuia caracterelor secvenelor n fiecare coloan din aliniere. Acest pattern este verificat pentru fiecare secven i valorile din matricea de scoruri sunt reestimate pentru a maximaliza alinierea matricii cu secvena. Procedura este repetat pn nu se mai gsesc posibiliti de maximalizare. Metoda distanelor o analiz filogenetic, bazat pe numrul de diferene dintre perechile de secvene n AMS. Metoda Gibbs sampling este algoritmul pentru a identifica pattern-uri conservate ntr-un set de secvene nrudite. O aliniere presupus se face n baza tuturor secvene, cu excepia unei, pentru elaborarea matricei de scor, ce caracterizeaz alinierea. Matricea este apoi comparat cu ultima secven, care nu a fost inclus, prin care se identific pattern-ul respectiv. Aceast prezicere este apoi luat n calitate de input pentru o aliniere nou i pentru a produce o matrice de scor nou i testat cu o alt secven. Procesul este repetat pn cnd nu mai sunt posibile mbuntiri n matrice. Metoda heuristic pentru alinierea secvenelor este metod ncercrii demonstraiei experimentale, care ncearc s identifice o aliniere rezonabil. n astfel de metode iniial se identific un pattern de secvene cu similaritate cea mai nalt, iar apoi se construiete alinierea mai lung n baza pattern-urilor identificate. Metoda Maximum Likelihood o metod pentru prezicerea unui arbore evolutiv, care utilizeaz un pattern ateptat de schimbri mutaionale de la o nucleotid a ADN-ului la alta i pentru calcularea probabilitii de a gsi cele mai similare aranjamente dintre ramuri, care genereaz setul de secvene. Metoda Maximum parsimony o metod pentru prezicerea unui arbore evolutiv care cel mai bine se potriveste cu variaia secvenei n fiecare coloan de AMS. Acest arbore va corespunde numrului minim de etape evolutive pentru a produce secvena dat. Model Markov ascuns (HMM) reprezint model probabilistic al unei AMS de proteine, dar poate fi i un model al pattern-urilor periodice a secvenelor de ADN, ce reprezint, de ex., pattern-ul gasit la hotare dintre introni i exoni din gene. ntrun model AMS, fiecare coloan de simboluri n aliniere este reprezentat prin distribuia frecvenelor simbolurilor, numit stare, iar deleiile i inseriile sunt alte stri. Apoi se ncearc modelul prin verificarea cilor particulare de la o stare la alta prin lanul Markov (prin alegere aleatorie a pasului urmtor) ncercnd s se identifice corespondene pentru o secven dat. Urmtorul simbol pentru verificare este selectat din fiecare stare, nregistrnd probabilitile (frecvenele) i, totodat, probabilitile de a trece prin starea dat particular de la cea precedent (probabilitatea tranziiei). Starea i probabilitatea tranziiei apoi se multiplic pentru a obine probabilitatea pentru o anumit secven. Caracterul ascuns al HMM este datorat lipsei informaiilor i valorilor starilor specifice, care sunt reprezentate prin distribuia probabilitilor pentru toate valorile posibile. Modelul preliminar este utilizat n analiz statistic Bayesian pentru a prezenta cunotine anterioare ale unei variabile. De ex., n analiza secvenelor, un interval de valori pentru distanele evolutive posibile dintre secvene poate s fie bazat pe unele observaii biologice. Alt exeplu este estimarea distribuiei aminoacizilor a unei stri de coincidene ntr-un model Markov ascuns pentru o AMS. Probabilitile preliminare sunt utilizate n teorema lui Bayes mpreun cu alte date noi. De ex., aplicarea alinierilor noi de secvene pentru a produce o estimare nou a probabilitilor strilor, numite probabiliti posterioare. n acest fel, HMM se antreneaz utiliznd un grup de secvene nrudite. Moment este o caracteristic a valorilor statistice. Astfel, valoarea medie sau valoarea ateptat a unei variabile este primul moment al valorilor ale variabilei n jurul mediei, definit ca numrul, n baza crui suma deviaiilor tuturor valorilor este 0. Deviaia standard este al doilea moment al valorilor precum media, etc. Motiv se refer la un pattern conservat de aminoacizi care poate fi identificat n dou sau mai multe proteine. Un motiv poate fi identificat printre proteine cu aceeai activitate biochimic i de obicei se afl n apropierea centrului activ al proteinei. Uneori, motivul este utilizat n anumite programe precum un pattern extis de secven i n acest context este sinonim cu domen. Mutaie nesinonimic o modificare n una din cele trei poziii ale unui codon spre un alt codon care specific un aminoacid diferit. Mutaie sinonimic o modificare n una din cele trei poziii ale unui codon spre un alt codon care specific un aminoacid similar. PCR (Polimerase Chain Reaction) Reacia de Polimerizare n Lan este tehnica de amplificare a regiunilor specifice de ADN, folosind ADN-polimeraz i un primer scurt pentru identificarea regiunii de amplificare, astfel, nlocuind clonarea. Penalitatea de afinitate pentru lacun este un scor pentru penalitatea pentru lacun care este o funcie liniar, ce cuprinde penalitatea pentru deschiderea lacunei i penalitatea pentru extinderea acestei, nmulit cu lungimea lacunei. Aplicarea procedeului cu penalitate nlesnete cu mult performana programrii dinamice pentru alinierea secvenelor i determin valoarea deleiilor de diferit lungime precum o etap evolutiv unic cu o pondere de a mri puin lungimea secvenei. Perceptron (Perceptron) unul din cele mai simple modele de retea artificial neuronal utilizate pentru clasificare liniara a secvenelor biologice. Perechea segmentului cu cel mai nalt punctaj (High-scoring Segment Pair) este cuvintul cu cel mai nalt scor, identificat n secvena cercetat i cea din baza de date. n cazul cutrii proteinelor, HSP de obicei este de lungimea de trei aminoacizi (codon). Cuvntul poate fi extins dac n vecintatea lui poziiile la fel sunt similare ntre secvene i se caracterizeaz prin scorul maximal. Plasmid este un extracromozom mic bacterian care poate include n sine pn la 1000 baze de ADN strin de mrimi convenabile pentru secveniere.
135
Glosar
Glosar
136
Polimorfism n analiza secvenei, se refer la variabilitatea genetic ntr-o populaie de aceeai specie. n cadrul unei gene particulare, pot exista modificri unice sau multiple de baz, i ntr-o regiune localizat pe un cromozom, pot exista inserii, deleii, i rearanjamente. Aceste modificri nu pot afecta un individ, dar pot provoca o schimbare biologic. Acestea vor fi distribuite ntr-o populaie cu frecvene diferite, n funcie de momentul cnd au avut loc efectele lor biologice, precum i istoria de reproducere a populaiei. Polimorfismul la nivel de o nucleotid (Single Nucleotide Polimorphisms, SNPs) sunt variaii punctiforme de secven, comune indivizilor aceleeai specii. Probabilitate condiionat este probabilitatea unui rezultat particular (sau a unei valori a variabilei) pentru unul sau mai multe evenimente sau condiii. Probabilitatea este un scor ntre 0 i 1, care descrie posibilitatea unui eveniment. Proces Bernouli este un numr repetat de teste, n care rezultatul este una dintre cele dou alegeri. Probabilitatea n fiecare test nu se schimb i fiecare msurare este independent de celelalte. Profil este o reprezentare a matricii de scor a unei regiuni conservate n AMS, care permite utilizarea lacunelor n aliniere. Rndurile includ scorurile pentru a identifica corespondenele cu coloanele urmtoare ale alinierii pentru secvena test. Coloanele includ scorurile de substituie ale aminoacizilor i penalitile pentru lacune. Utilizarea coloanelor i rndurilor poate fi inversat. Profilul se mic dealungul secvenei utiliznd programarea dinamic pentru a gsi alinierea optimal la fiecare poziie din secven, iar alinierile cu cel mai nalt scor indic corespondenele secvenei cu profilul. Proteom este setul integral de proteine codate de genomul unui organism. Proteomul de baz (core proteom) este setul de funcii biologice de baz, necesare unui organism pentru supravieuire. Pseudogen este o copie nefuncional a unei gene provenit n urma duplicaiei, de obicei, prin producerea unei copii de ADN din ARNm supus splicing-ului i inserarea acestei copii n genom. Regiune netranslat regiunile chimice terminale 5i 3 a unei molecule de ARNm care includ informaii de reglare, dar care nu codific secvena unei proteine. Regiuni conservate reprezint regiunile comune dintre secvene de ADN sau proteine n dou genomuri. Regiuni izocore sunt regiunile genomului cu un nivel variat de GC. Regiunile a expresiei genice ridicate (Regions of Increased Gene Expression, RIDGE) reprezint clustere de gene ce se expreseaz puternic, posednd astfel de caracteristici precum densitatea genic, coninutul GC, densitatea repetarilor SINE nalt i densitatea joas a repetrilor LINE, precum i introni scuri. Regiunile anti-RIDGE includ clustere de gene expresate slab i posed caracteristici opuse ale secvenelor. Regula Bayes constituie baza probabilitii condiionate prin calcularea probabilitii manifestrii unui eveniment n baza istoriei acestui eveniment actualizat cu noi informaii. Regularizarea corespunde unui set de tehnici pentru a reduce corespunderea exagerat a datelor, la antrenarea unui model precum HMM cu o familie de secvene nrudite. O cantitate mic a variaiei modelului va mbunti identificarea corespondenelor modelului pentru o familie mai variabil de membri. Scorul alinierii este scorul calculat n baza numrului de coincidene, substituii i inserii/deleii (lacune) n cadrul alinierii. Pentru proteine scorurile pentru coincidene i substituii adesea deriv din una din matrice de scor, precum matricele BLOSUM i PAM, i se aleg i penalitile pentru lacune corespunztoare matricei. Scorul de aliniere este reprezentat n valorile unitilor logaritmice a probabilitilor (log odds) deseori ca bii, fiind logaritmai n baza 2. Scoruri mai nalte denot alinieri mai bune. Pentru secvene de ADN, de obicei, se ia n consideraie scorul de coincidin i cel de incoinciden mpreuna cu penalitate pentru lacun, ce va produce cea mai rezonabil aliniere. Scorul ateptat (E) este numrul de scoruri de aliniere local care sunt ateptate dintre un numr mare de secvene variate sau selectate la ntimplare de o anumit lungime i sunt cel puin egale sau mai mari dect scorul calculat dintre dou secvene de aceeai lungime, testate pentru similaritate. E are sensul similar ca i n contextul altor analize de secvene, de ex., cnd scorul pentru coincidena secvenei se evalueaz n comparaie cu matricea de scor. Scorul de aliniere a secvenelor este suma logaritmurilor scorurilor probabilitilor pentru fiecare pereche a caracterelor din secvene aliniate ntr-o aliniere, din care se scade penalitatea pentru fiecare lacun n una sau mai multe poziii ale alinierii. Scorul de similaritate a secvenelor (alinierea secvenelor) este suma numerelor de corespondene identice i substituii conservative (scorul cel mai nalt) n alinierea dintre secvene mprit la numrul total de caractere (nucleotide, aminoacizi) a secvenelor aliniate. Lacunele, de obicei, dar nu ntotdeauna, sunt ignorate. Scorul distanei dintre secvenele aliniate este msura distanei evolutive dintre secvene. Aici se aplic un sistem de scor opus celorlalte modaliti obinuite de calculare a scorului de similaritate. Astfel, incoincidenelor li se atribue un scor pozitiv, deoarece ele reprezint un numr mai mare de modificri dintre secvene, iar coincidenele nu obin scor sau penalitate negativ a scorului. Scorul probabilitilor este raportul asemnrilor a dou evenimente sau rezultate. n alinierea secvenelor, scorul probabilitilor a corespunderii a caracterelor a dou secvene este raportul frecvenei cu care caracterele se aliniaz n secvenele nrudite fa de frecvena cu care aceste dou caractere se presupune s se alinieze spontan, calculat din frecvena incidenei fiecrui caracter n secven. Scorul probabilitilor pentru alinierea unui set de poziii aliniate individual se obin prin multiplicarea scorurilor pentru poziiile individuale. Din cauza c raportul dat este foarte mic, se aplica logaritmarea acestor valori, transformindu-le n numere ntregi, ce permite efectuarea operaiilor matematice cu ele, precum adunarea i scderea. Scorul z este un scor statistic pentru o variabil, calculat ca diferen ntre scorul brut al variabilei i media unui set de valori pentru variabila, mprit la deviaia stan-
137
Glosar
Glosar
138
dard a acestui set. Secvena interogat (cercetat) este secven care urmeaz s fie aliniat cu secvenele din diferite baze de date, pentru a gsi secvene ce se potrivesc cel mai bine. Deobicei, aceasta reprezint secvena proteic sau secvena ADN translat n secvena proteic n timpul analizei. Secven Outgroup o secven suplimentar, care este inclus ntr-o analiz filogenetic. Secvena outgroup este nrudit mai distant de celelalte secvene, dect acestea ntre ele. Includerea secvenei outgroup ajut o aranjare mai corect a altor secvene, avnd rol de o referin extern. Secvene ortoloage sunt secvene de proteine identificate n dou sau mai multe organisme asemntoare, astfel, c ele au o structur tridimensional, structura domenelor i funciile biologice similare . Ortologia se depisteaz prin cutarea secvenelor printre toi membrii familiei proteice la dou organisme i identificarea celor mai asemntoare. Secvene paraloage sunt de obicei secvene de proteine care au provenit prin evenimente de duplicaie genic. Aceste evenimente pot duce la producerea familiei de proteine nrudite cu secvene similare, dar, totodat, cu funcii diferite n cadrul unei specii. Secvenele omoloage reprezint dou sau mai multe secvene, care pot fi rapid aliniate, astfel, nct ele, probabil, c au origine comun de la o secven ancestral pe parcursul evoluiei. Secvenierea Shotgun este o procedur folosit pentru a obine secvene de molecule lungi de ADN prin desfacerea lor n fragmente randomizate, secvenierea lor, indiferent de poziia n secvena original, i apoi asamblarea secvenei originale n baza suprapunerilor dintre fragmente. Selectivitatea este capacitatea unei metode de cutare de a identifica membrii unei familii de proteine, fr a face o clasificare fals - pozitiv a membrilor altor familii. Selecia natural reprezint procesul care se refer la influena mediului asupra unui organism. Speciile permament sunt supuse mutaiilor aleatorii care duc la schimbarea secvenei ADN, deseori cu efecte de deleie sau fr efect, dar rareori cu efectul benefic pentru supravieuirea organismului. Odat cu modificarea mediului, fora seleciei se manifest astfel ca numai organismul care cel mai bine se incadreaz din punct de vedere genetic, supravieuiete i se reproduce. Semnificaia este probabilitatea ca rezultatul unui test statistic sau al msurrii este determinat de anse aleatorii, spre deosebire de a fi un rezultat pozitiv, ca suport al unui model sau ipotezei. n analiza secvenelor, semnificaia unui scor al alinierii locale poate fi calculat ca oportunitatea c acest scor va fi identificat printre secvenele randomizate sau nenrudite. Senzitivitatea este abilitatea unei metode de cutare s identifice ci mai muli membri ai familiei de proteine, inclusiv membrii nrudii la distan cu similaritate limitat. Similaritatea procentual n alinierea de secven este utilizat pentru a descrie procentul de poziii aliniate ntr-o aliniere a secvenelor de proteine, n care aminoacizii sunt identici sau reprezint substituii care de obicei au loc. Poziiile aliniate cu lacune nu se iau n calcul. Similaritatea secvenelor determin posibilitatea alinierii secvenelor i se bazeaz pe identificarea aceleeai consecutiviti a caracterelor secvenelor. Sintenia este colinearitatea ordinii genelor n dou specii. Grupele sau clusterele sintenice reprezint un grup conservat de gene n aceeai ordine n dou genomuri. n analiza genomic, sintenia reprezint alinierea local extins dintre dou regiuni genomice care nu obligatoriu sunt din aceeai locaie pe cromozomi in specii. Stringena este aplicat n descrierea metodei matricei de puncte (dot matrix) pentru alinierea secvenelor i determin numrul de coincidene a unei consecutiviti de nucleotide din fereastra de scanare, n dou secvene ce se compar, pentru a produce un punct n matrice. Suma perechilor a unui set de secvene din AMS este suma scorurilor alinierii pentru fiecare pereche de secvene din AMS. Test statistic este un test pentru a determina dac o msurare sau un rezultat susine sau respinge o anumit ipotez. n alinierea secvenelor acesta determin probabilitatea c scorul alinierii globale dintre dou secvene va fi calculat dintre secvenele nenrudite exprimate prin valoarea E. Transferul orizontal (lateral) de ADN un transfer rar de informaie genetic ntre specii diferite. Genele transferate vor parcurge o istorie filogenetic diferit n comparaie cu setul original al speciei recipiente. Transmiterea vertical transferul informaiei genetice de la o generaie la alta, de la prini la urmai, n cadrul aceleiai specii. Transversia modificarea unei baze pirimidinice (C sau T) din ADN cu alta purinic (A sau G), sau vice versa, considerate n general a fi mai putin probabile dect schimbrile pentru acelai tip te baze (tranziia). Tranziie o schimbare n ADN a unei baze pirimidinice (C sau T) n alta pirimidinic, sau a unei baze purinice (A sau G) n alta purinic, de multe ori considerate a fi mai probabile dect schimbrile dintre bazele pirimidinice i cele purinice (transversia). Valoarea ateptat E este valoarea care exprim numrul de scoruri a alinierii locale, care sunt ateptate dintre secvena cercetat i secvenele aliatorii sau nenrudite, la fel de bune precum i scorul calculat dintre secvena de interes i secvena de coinciden din baza de date. Valoarea E depinde de lungimea secvenei, numrul de secvene n baza de date i de tipul sistemului de calculare a scorului. Valoarea E se calculeaz utiliznd distribuia probabilitilor pentru valorile extreme, corectate pentru numrul de secvene din baza de date. n evaluarea alinierii locale dintre dou secvene, o secven poate fi reanalizat de mai multe ori, iar apoi realiniat cu o alt secven pentru a determina limitele scorurilor ateptate dintre secvenele nenrudite. Valoarea estimrii sumei (check sum value) este un numr plasat n fiierul secvenei care este unic, obinut prin nsumarea valorilor fiecrei din secvene. Valorile (n formatul ASCII) sunt valorile binare ale fiecrei secvene. Se utilizeaz pentru ve-
139
Glosar
Glosar
140
rificarea coninutului fiierilor de secvene n cazul transferrii acestui la un calculator local, prin compararea valorii fiierului copiat cu valoarea celui original. Vector de clonare este o molecul n stare de multiplicare independent n celul. Cnd un fragment strin de ADN este inserat n vector, el este copiat de rnd cu vectorul de clonare la fiecare multiplicare, ceea ce duce la mrirea numrului de fragmente de ADN strin. Vocabular de control este un set de termeni folosii n baza de date pentru a descrie un obiect sau proces biologic particular. Utilizarea acestor termeni previne confuzia n descrierea aceluiai tip de obiecte sau proces biologic n dou baze de date diferite.
Glosar

Bioinformatica Budeanu

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Bioinformatica Budeanu

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA ACADEMIEI DE TIINE A MOLDOVEI CENTRUL DE CERCETARE I FORMARE PROFESIONAL BIOLOGIE MOLECULAR

Ghid practic pentru analiza genelor i proteinelor

1.1. Scurt istoric i direcii de cercetare n Bioinformatic

FORMAREA I COORDONAREA BAZELOR DE DATE

Figura 1.2. Obiective ale bioinformaticii

Culturi nalt productive Substanele naturale

Compui chimici Ci metabolice

Instrumentele diagnostice i biomedicale

Figura 1.3. Intersectarea tehnologiilor cu diverse ramuri ale biologiei

1.2. Baze de date, diversitate i importan

GenBank http://ncbi.nlm.nih.gov/genbank nregistrri: 106533156756 nt n 108431692 secvene, (08.2009).

1.3. Formate i instrumente de nregistrare a secvenelor

Figura 1.5. nregistrarea unei secvene de ADN n formatul GenBank

16 Formatul de secven FASTA

17 Format de secven SwissProt Sequence

Format de secven European Molecular Biology Laboratory Data Library

Format de secven Genetic Computer Group

18 Format de secven Plain/ASCII Staden

##source-version EMBOSS 2.2.1 ##date 2002-01-22 ##DNA HSFAU

Format de secven Abstract Syntax Notation

Format de secven XML

Fig.1.11. Formatul secvenelor GFF

Format de secven Genetic Data Environment

Format de secven AceDB

Format de secven General Feature Format

>Feature Sc_16 1 7000 <1 1050

Figura 1.12. Exemplu de fiier Sequin

EXERCIII DE CONSOLIDARE A MATERIALuLuI

IsTorIC I ElEMEnTE dE BAz n BIoInforMATIC

IsTorIC I ElEMEnTE dE BAz n BIoInforMATIC

2.1. Modaliti de cutare a informaiei

Genomul diverselor cereale http://www.gramene.org/

RESURSE I INSTRUMENTE BIOINFORMATICE Genomica funcional Genomica structural Genomica comparativ

Alte proiecte genomice

2.2. Aspecte privind analiza bioinformatic a secvenelor de interes

Structuri ortoloage / paraloage

Forme mutante Promotori Factori de transcripie Domene

Clusterizare Analiz filogenetic

ADN ARN EST Proteine Metabolii

Secvena ADN1 Ajustarea metodelor, dac e necesar4 Electroforeza 2D a proteinelor4

Prezicerea genelor3 Secvenele EST i ADNc5

Proteoliza i secvenierea fragmentelor11

Reglarea i cile metabolice9

Auto compararea proteomului15

2.3. Analiza BLAST

Analiza familiilor sau domenelor proteice17

Identificarea clusterilor de gene funcional nrudite20

Informaii despre genom6

Figura 2.6. Aspect grafic al ferestrei de prezentare a rezultatelor analizei BLAST

blastn blastp blastx blastn tblastx

nucleotide proteine proteine nucleotide nucleotide

nucleotide proteine nucleotide proteine nucleotide

PrInCIPII dE CUTArE A sECvEnElor n BAzElE dE dATE

EXERCIII DE CONSOLIDARE A MATERIALuLuI

AnAlIzA PErECHIlor dE sECvEnE PrIn AlInIErE

Matrice (Dot plot)

3.1. Modele de aliniere a secvenelor. Alinierea global i local

PSHLQYHERTHTGEKPYECHQCGQAFKKCSLLQRHKRTHTGEKPYE-CNQCGKAFAQ- 116 HSHLQCHKRTHTGEKPYECNQCGKAFSQHGLLQRHKRTHTGEKPYMNVINMVKPLHNS 98 **** *:***********:***:**.: .*************** : *.: :

EARDF-NQYYSSIKRSGSIQ . : .::::::::. . . LPKLFIDQYYSSIKRTMG-H

NQYYSSIKRS .::::::::. DQYYSSIKRT

AnAlIzA PErECHIlor dE sECvEnE PrIn AlInIErE

AnAlIzA PErECHIlor dE sECvEnE PrIn AlInIErE

3.2. Aplicarea matricelor de scor, gapurilor i penalitilor n alinierea secvenelor

PSHLQYHERTHTGEKPYECHQCGQAFKKCSLLQRHKRTHTGEKPYE-CNQCGKAFAQ- 116 HSHLQCHKRTHTGEKPYECNQCGKAFSQHGLLQRHKRTHTGEKPYMNVINMVKPLHNS 98 **** *:*********:*:.: .************* : *.: :