Sunteți pe pagina 1din 28

Universitatea Politehnica Bucureti Centrul de Inginerie Biomedical CONTRACT nr. 2170 / 02.11.

2004 RELANSIN SUBPROGRAMUL 5 RELANSIN CALITATEA VIEII TIPUL PROIECTULUI: PED

ETAPA I

ASAMBLAREA INFORMAIEI EXISTENTE N BAZELE DE DATE PRIVITOARE LA GENOMUL VIRUSULUI HIV


ACTIVITTI: 1. Analiza bazelor de date publice 2. Analiza bazelor de date ale IBIMB 3. Dezvoltarea unor unelte soft pentru determinarea, sistematizarea datelor i extragerea cunotiinelor 4. Realizarea unei baze de date de virusuri HIV

SINTEZA

DIRECTOR DE PROIECT Prof.dr.ing. Paul Cristea

2004

1. STADIUL ACTUAL AL STUDIULUI GENOMULUI HIV


Romania deine nedorita si trista situatie de a avea o incidenta ridicata a imbolnavirilor cu virus HIV in randul copiilor i adolescenilor, precum si un risc relativ ridicat de transmitere a bolilor virale. Cele mai recente statistici furnizate de Ministerul Santii, privind infecia HIV-SIDA n Romania, la 31.03.2004, sunt prezentate n tabelul de mai jos: 1. Numar total cazuri cumulate (in viata si decese) HIV/SIDA 1.1 Numar total cazuri HIV/SIDA in viata 1.2 Numar total decese HIV/SIDA 1.3 Numar persoane pierdute din evidenta 2. Numar total cazuri HIV 2.1 Numar total cazuri HIV in viata - Numar cazuri HIV copii - Numar cazuri HIV adulti 2.2 Numar cazuri HIV pierdute din evidenta 3. Numar total cazuri SIDA 3.1 Numar cazuri SIDA in viata - Numar cazuri SIDA copii - Numar cazuri SIDA adulti 3.2 Numar total cazuri SIDA pierdute din evidenta 3.3 Numar total decese SIDA - Numar decese SIDA copii - Numar decese SIDA adulti 4. Total bolnavi in tratament antiretroviral (TARV) - Copii cu TARV - Adulti cu TARV 14.526 10.272 3.815 439 5.951 5.63 4.246 1.384 321 8.575 4.642 3.480 1.162 118 3.815 3.213 602 5.752 2.058 3.694

O particularitate a epidemiei HIV n Romania este constituita de predominanta tulpinilor ce apartin subtipului F; n timp ce n majoritatea Europei subtipul predominant HIV-1 este B. Subtipul F este present doar n regiuni din America Latina (Brazilia) si Africa, iar n Europa n proportie redusa n Portugalia. Subtipurile altele dect B se caracterizeaza prin selectionarea la nivelului genomului a unor mutatii de rezistenta n absenta unei presiuni de selectie prin tratament. Cauzele acestei situatii nu sunt intelese, iar efectul asupra eficientei tratamentului doar partial cunoscut; n general se accepta ca fiind adecvata extrapolarea datelor obtinute prin studiul tulpinilor apartinind subtipului B. In acest context, analiza secventelor prin analize alternative poate sa ofere cel putin doua tipuri de beneficii: intelegerea epidemiologiei infectiei HIV/SIDA la noi n tara si n context regional

epidemiologia moleculara a rezistentei la tratament antiretroviral utilizata n analiza tulpinilor provenite de la pacienti naivi si tratati. n prezent, pe plan mondial se aloc sume uriae n continuarea cercetrii virusului HIV, n sensul interpretrii epidemiologiei infectiei HIV/SIDA i tratamentul bolnavilor. Romnia beneficiaz n prezent de urmtoarele programe PHARE de sprijin a cercetrilor n domeniul genomului HIV pe plan naional: 1. Imbunatatirea eficientei sistemului romanesc de supraveghere epidemiologica si control al bolilor transmisibile Buget total: 4,866 MEURO (PHARE: 1,4 Meuro Asistenta Tehnica, 2,6 MEuro pentru componenta de Investitii) Obiective: Actualizarea legislatia actuala in vederea consolidarii unei Structuri Nationale de Supraveghere, Prevenire si Control al Bolilor Infectioase, mbunatatirea functionarii, a structurii organizatorice si finantarea sistemului de supraveghere epidemiologica si de raportar, Stabilirea unui Plan National de actiune de supraveghere si control, mbunatatirea sistemului national de raportare, Implementarea unui sistem compatibil de colectare a datelor, in vederea integrarii in Uniunea Europeana, Evaluarea si modernizarea laboratoarelor de diagnostic al bolilor infectioase

2. Reforma modulara a centrelor regionale pentru HIV/SIDA pentru imbunatatirea accesului la ingrijiri si tratament a persoanelor infectate cu HIV/SIDA. Buget total: 4.2 MEURO (PHARE: 1.2 Meuro Asistenta Tehnica, 2.250 MEuro pentru componenta de Investitii) Obiective: - Actualizarea cadrului legal al strategiei nationale HIV/SIDA , prin alinierea la legislatia europeana, - Actualizarea sistemului actual de supraveghere, monitorizare, raportare si analiza a datelor, - Imbunatatirea cunostintelor si capacitatii lucratorilor sanitari in Centrele Regionale HIV/SIDA, precum si a facilitatilor respective din cadrul centrelor de zi, centrelor de testare si consiliere profesionala si a ONG-urilor in supravegerea, consilierea si prevenirea HIV/SIDA - Actualizarea serviciilor de laborator din cadrul Centrelor Regionale HIV/SIDA, potrivit standardelor CE de functionare a laboratoarelor HIV/SIDA

2. Analiza bazelor de date publice


nca din 1987 s-au creat baze de date coninnd secvene HIV ca au ca principal scop: - acumularea secventelor de date pentru HIV si SIV - interpretarea acestor date si punerea acestora la dispozitia comunitatii stiintifice - analiza computerizata a secventelor de date. - producerea de software pentru analiza secventelor de date. - publicarea datelor si analizelor efectuate, pe acest site, spre a putea fi accesate gratis. n prezent, exist trei categorii de baze de date: - baza de date pentru imunologie moleculara care furnizeaz o list cuprinzatoare si meticuloasa a epitopilor definiti pentru HIV. - baza de date pentru vaccinurile incercate, care furnizeaz o vedere de ansamblu complet asupra vaccinurilor incercate pentru HIV si ale urmarilor acestora. - baza de date pentru rezisten, care conine o lista de medicamente cunoscute la care virusul devine imun datorita mutatiilor suferite. Bazele de date publice care inmagazineaza secvente nucleotidice de interes pentru studiul nostru pot fi grupate in doua categorii: a) baze de date primare, generice, care inregistreaza o varietate mare de secvente nucleotidice. Bazele de date majore din aceasta categorie sunt GenBank (SUA), EMBL Nucletide Sequence Database (Europa) si DNA Database of Japan. Informatiile depozitate in aceste baze de date sunt upgradate reciproc saptaminal. Aceste baze contin datele primare si reprezinta sursa principala pornind de la care sunt alimentate bazele de date specializate in stocarea si prelucrarea informatiilor de secventa specifice HIV. Secventele disponibile sunt insotite de adnotari cu date generice despre fiecare secventa: informatii despre origine, tip de secventa (ARN/ADN), incadrarea taxonomica, originea geografica si localizarea laboratorului care a furnizat secventa, referinte bibliografice si, cind este cazul, structura primara a lantului de aminoacizi codat. b) baze de date specializate pentru infectia HIV/SIDA. Cele mai importante baze de acest tip sunt The Los Alamos HIV sequence database si HIV RT and protease Sequence Database la universitatea Stanford. Aceste baze de date sunt caracterizate prin functionalitati suplimentare specifice HIV:
-

existenta de informatii suplimentare (date clinice, epidemiologice) pentru un numar coexistenta unor baze de date conexe cu relevanta pentru cercetatorii/practicienii din

important de secvente
-

domeniul HIV/SIDA; un astfel de exemplu este constituit de baza de date imunologice

de la Los Alamos care tezaurizeaza informatii despre variabilitatea determinantilor imunologici: repertoare de celule T citotoxice, T helper si anticorpi specifici infectiei HIV precum si date de imunologie clinica obtinute in cursul activitatii de dezvolatere de vaccinuri.

Bazele de date au incorporate instrumente de analiza a secventelor HIV generate de

laboratoare independente. Aceste instrumente includ generarea de aliniamente si analiza de tip si subtip a secventelor supuse analizei, algoritmuri de predictie a rezistentei la tratament antiretroviral pornind de la datele de secventa si/sau de la informatiile clinice, scheme anterioare de tratament si succesiunea datelor de laborator. Baza de date de la Los Alamos este orientata in principal spre generarea si stocarea de informatii relevante pentru epidemiologia moleculara a HIV. Sursa principala de secvente este GenBank. Secventele sunt adnotate suplimentar cu informatii despre fenotip, utilizarea de coreceptori, sursa tulpinei (cultura, pasaj) sursa secventei (amplificare prin PCR/clonare, secventiere directa) precum si tipul de produs biologic din care a fost izolat virusul. Baza de date de la Stanford are drept prioritate stocarea si analiza de date legate de dezvoltarea rezistentei la tratament antiretroviral al tulpinilor de HIV. Ambele baze de date pun la dispozitie si instrumente de analiza a informatiilor (identificare de tip/subtip, identificare de virusuri recombinante, identificarea de zone cu mutageneza ridicata, predictii ale fenotipului de rezistenta pornind de la analiza genetica etc.)

3.Analiza bazelor de date ale IBIMB


In cursul ultimului an, Institutul de Boli Infectioase Prof. Dr. Matei Bals si-a constituit o baza proprie de date de secvente pornind de la tulpini de virus prezente in plasma pacientilor experimentati terapeutic si nativi aflati in monitorizare in cadrul centrului nostru. Obiectivele urmarite care au dus la constituirea prezentelor observatii preliminare:
identificarea identificarea

subtipurilor HIV care circula in Romania mutatiilor in genele revers transcriptazei si proteinazei cu impact asupra

aparitiei unor fenotipuri rezistente la tratamentele antiretrovirale. Secventierea a fost precedata de determinarea incrcturii virale; i s-a trecut la secventiere doar in cazul plasmelor in care HIV se afla in cantitate de cel putin 1000 copii/ml. ARN-ul viral a fost extras cu trusa de extractie (Qiagen) inclusa in kit-ul LCx HIV RNA Quantitative. Transcrierea inversa s-a facut in prezenta revers transcriptazei codificata de virusul leucemiei murine. ADN-ul complementar a fost amplificat prin PCR utilizind polimeraza AmpliTaq Gold si instrumentul GeneAmp System 9700 (Applied Biosystems). Calitatea si cantitatea produsului de amplificare de 1.8 kb au fost estimate prin migrare electroforetica in gel de agaroza si examinare prin transiluminare UV. Secventierea s-a facut cu tehnologia Big Dye Terminator (Applied Biosystems). Electroforeza capilar a produsul de secventiere a fost efectuat pe un analizor genetic ABI Prism 3100-Avant, iar secventele au fost obtinute cu ajutorul programului Sequencing Analysis Software Version 3.7. Corectitudinea a fost validata de operator pentru toate secventele care au fost salvate in format fasta pentru analiza ulterioara. Subtiparea tulpinilor s-a facut comparind secventele generate de noi cu cele disponibile in baza de date de la Stanford (http://hivdb.stanford.edu). Pentru efectuarea analizei filogenetice secventele nucleotidice au fost ajustate la lungimea de 1149 nucleotide reprezentind 94 de codoni din gena proteinazei si 289 codoni din gena revers transcriptazei virale. Secventele au fost aliniate cu secvente ale unor tulpinii de referinta extrase din baza de date de la Los Alamos (www.hiv.lanl.gov/hiv.db). Alinierea s-a facut cu ajutorul programului din domeniul public Clustal W, iar analiza filogenetic cu ajutorul programului Mega 2. S-a constatat astfel ca toate cele 30 tulpini analizate, izolate in Romania, apartin subtipului F.

Pentru a evalua inrudirea cu alte tulpini circulante au fost utilizate urmatoarele tulpini de referinta extrase din GenBank: - 4 tulplini romanesti (96R90, 97R103, 97R99, 97R104), 2 brazililene (F1-93BR020 and F1-BZ126), - 2 secvente de subtip F din Camerun (MP257C and MP255), - 2 tulpini cu subtip D ( 94UG001 and MB2059) si 2 tulpini cu subtip K (EQTB11C, MP535C). Referinta pentru subtipul B a fost tulpina HXB2 (FR-K03455).
-

Metodologia descrisa ne-a permis generarea urmatorului arbore filogenetic prezentat n Figura 1. Aceste date preliminare ne permit formularea urmatoarelor observatii:
segmentul

de cADN utilizat permite analiza discriminatorie a secventelor HIV-1 de de subtip F izolate in Romania pe care le-am analizat sunt inrudite intre ele

subtip F
secventele

si distincte de alte secvente izolate in alte regiuni ale globului.

Figura 1. Arborele filogenetic al Virusului HIV de tip F izolat n Romnia

4. Dezvoltarea unor unelte soft pentru determinarea, sistematizarea datelor i extragerea cunotiinelor
Rezultatele secvenierii aproape integrale a Genomului Uman au fost date publicitii simultan n NATURE [vol. 381] i SCIENCE [vol. 280] pe 15/16 februarie 2001 de cei doi actori principali: Compania particular Celera Genomics i proiectul public internaional Human Genome Consorium. Cea mai mare parte a genomului este accesibil public, ca de exemplu, n paginile de web: http://www.ncbi.nlm.nih.gov/genome/seq/; http://www.sanger.ac.uk/HGP/. http://www.nature.com/nsu/ 010215/010215-3.html. http://gdbwww.gdb.org/, http://genome.ucsc.edu, http://www.ebl.ac.uk, http://www.ensembl.org The Genome Data Base, Genome Browser, European Informatics Institute, Ensembl

Secventierea aproape completa a genomului uman, precum si accesul public la cea mai mare parte a continutului sau, precum si secventierea completa a altor genoame, ofera oportunitatea de a explora acest depozit unic de informatie. Abordarea standard a reprezentarii informatiei genomice prin secvente de simboluri de nucleotide in lanturile de molecule de DNA si RNA, secvente de simboluri de codoni triplete de nucleotide cu cadre de citire adecvata in exoni, sau secvente de simboluri de aminoacizi in lanturi polipeptidice corespunzatoare limiteaza metodologia de prelucrare a informatiei genomice la potriviri de pattern-uri sau procedee statistice. n prezent, pe plan mondial se aloc sume uriae n continuarea cercetrii genomului uman, n sensul interpretrii acestei uriae surse de informaie i a extragerii cunotiinelor cu aplicare direct n medicin i biologie. Unul din principalele obiective de cercetare pe plan mondial este studiul reprezentabilitii semnalelor genomice pentru analiza lor si extragerea de informatii noi din datele genomice. Proiectul se bazeaz pe o abordare original de convertire a secvenelor genomice simbolice n semnale numerice, ceea ce permite aplicarea unor metode originale de prelucrare a semnalelor digitale, n special Analiza Componentelor Independente, ca un caz special de Identificare a Proieciei Semnificative pentru Semnalele Genomice. Utilizarea maparilor interdependente a simbolurilor de nucleotide, codoni si aminoacizi in numere reale sau complexe permite convertirea secventelor genomice in semnale genomice

digitale si ofera posibilitatea de a aplica metodele de procesare a semnalelor digitale pentru analiza lor si extragerea de informatii noi din datele genomice.Secvenierea aproape complet a genomului uman, precum i accesul liber la cea mai mare parte a coninutului acestuia i al genoamelor altor specii, ofer un vast cmp de explorare a unui inestimabil tezaur de informaie biologic nc neprelucrat, pentru a ncerca extragerea unor cunotine potenial importante pentru aplicaii biomedicale i biotehnologice. Abordarea standard actual, de a reprezenta informaia genomic sub forma unor secvene de simboluri de nucleotide pentru moleculele de ADN sau ARN, secvene de codoni (triplei de nucleotide cu precizarea cadrului adecvat de citire) pentru exoni, sau secvene de amino acizi pentru lanurile de polipeptide, limiteaz metodologia de prelucrare a informaiei genomice la simple recunoateri de forme sau la analize statistice. Utilizarea reprezentrilor reale sau complexe ale nucleotidelor, codonilor i amino acizilor conduce la convertirea secvenelor genomice n semnale genomice numerice i ofer posibilitatea aplicrii unei largi varieti de puternice metode de procesare a semnalelor digitale. 1. REPREZENTAREA COMPLEX A NUCLEOTIDELOR Materialul genetic principal al unei celule este reprezentat de moleculele DNA a este simpl i bine studiat [10]. Molecula ADN n dubl elice cuprinde dou stranduri antiparalele interconectate complementar, fiecare constnd dintr-o secven uni-direcional i unidimensional de nucleotide, Unitatea repetitiv, nucleotida, este alctuit din trei pri: un grup fosfat care cuprinde un atom de oxygen de unde deriv si prefixul "deoxy", un zahar "ribose", i o baz de nitrogen. Nucleotidele difer doar prin bazele de nitrogen pe care le conin. n moleculele de ADN exist patru tipuri diferite de baze de nitrogen: thymin (T) i cytosin (C) care sunt pyrimidine, adenin (A) i guanin (G) care sunt purine. De-a lungul celor dou strand-uri de dubl elice de AND, o pyrimidin din lan este ntotdeauna conectat cu o purine din cellalt lan, i exist numai perechi de baze: T-A i C-G. Un model simplu al unei molecule de DNA este artat Fig. 1.

Fig. 1. Modelul schematic al moleculei de DNA cu o structur helicoidal Segmentele unui lan de nucleotide care codeaz o polypeptid, i care dau structura primar a unei proteine sunt numite gene. Genele sunt alctuite din civa exoni regiuni de codare, care sunt separate de-a lungul unui strand de AND de introns regiuni necodante. Tripletele de nucleotide successive din exoni formeaz codoni, care n conform Genetic Code, codeaz 20 de amino acizi care se gasesc n lanurile de polypeptide, iar un terminator marcheaz sfritul unui segment de codare. Proteinele sunt prinicipalii contributori la structura celulei, i ca enzim catalizeaz reaciile chimice specifice funcionrii celulei. Aproape fiecare organism este alctuit din proteine. Structura primar a unei proteine este dat de lanurile polipeptidice care formeaz secvenele de amino acizi. O protein conine una sau mai multe lanuri de polipeptide nelegate. Structura secundar, structura terioar i structura cuaternar a unei polipeptide genereaz n final o structur spaial foarte complex de protein, esenial pentru funciile sale biologice. Orice gen pornete cu codonul AND cu codonul ATG care condiioneaz codrile de Methionin. Cnd o gen este exprimat, strand-ul original de DNA mai nti transcris ntr-o secvena complementar - complementary messenger RNA (mRNA) - sequence, care este editat prin excizia tuturor intronilor i a tuturor exonilor. De remarcat c numrul de baze de nitrogen ntr-un exon nu depsete un multiplu de trei, adic un exon nu cuprinde n moid necesar un

numr ntreg de codoni. In RNA, thymina este nlocuit de uracil o alt baz de nitrogen, dar pe de alt parte grupul codului genetic rmne acelai. Un lan de polypeptide este sintetizat de ribosomi care se mic de-a lungul unui mRNA i translateaz secvena de codon ntr-o secvena de amino acid. Fiecare din cei 20 de amino acizi este adus de un transfer RNA (tRNA). Exist un contrast foarte net ntre structura simpl a unui lan de nucleotide de DNA nelegate printr-un cod liniar scris printr-un alfabet de patru litere, i structura foarte complex a unei proteine 3D structure este construit din douzeci de amino acizi. n genomul uman exist aproximativ 32,000 de gene, dar numai un milioane de proteine, multe din ele sunt tranzitorii. Totui lanurile de nucleotide i de proteine conin informaia genetic. n continuare se prezint o abordare original de reprezentare tetraedral a codului genetic care ine seama de structura specific i caracteristici. Pe aceast baz, secvenele simbolice de nucleotide din moleculele de DNA sunt convertite n semnale genomice care pot fi procesate mult mai eficient cu ajutorul algoritmilor de prelucrare digital a semnalelor.

2. REPREZENTAREA TETRAEDRAL A CODULUI GENTIC Codul genetic este universal, fiind utilizat de aproape toate organismele cunoscute, cu variaii foarte mici n mitochondri i civa microbi. Codul genetic se aplic tuturor materialelor nucleare genetice cunoscute, DNA, mRNA i tRNA, i cuprinde animalele (inclusive omul), plantele, ciupercile, bacteriile i virusurile. O secvena de trei baze de nitrogen codeaz un amino acid n conformitate cu codul genetic n dou etape: transcriptaza un strand de DNA este copiat ntr-o molecul complementar -- mRNA (messenger), translaia - in care limbajul bazelor de nitrogen este transformat de ribozomi n limbajul amino acizilor. Numai cteva regiuni limitate ale genomului -- genele dau informaia pentru a face proteine. Genele genomului uman sunt doar cteva i foarte ndeprtate. Exist aproximativ doar 12 gene la un milion de baze ale genomului uman. Genele sunt divizate n exoni seciuni ale secvenei de codare, ntrerupte de introni spaii necodante. Genele umane au un numr mic de exoni, doar teva pe 19 lungimi de baze, separate de intronide pe o lungime medie de aproximativ 3300 baze, dar cu o mare dispersie. Cei mai muli introni au numai 87 lungimi de baze, dar acestea sunt peste 10000. Analizele statistice ale secvenelor de DNA au artat c regiunile intra-gene (codarea proteinelor) sunt bogate n G i C, n timp ce regiunile inter-gene (necodante) sunt bogate n T i A. Tabelul 1. Codul genetic

Second Position in Codon T TTT Phe [F] T TTC Phe [F] TCT TCC C Ser Ser Ser Ser Pro Pro Pro Pro A G [C] [C] T C A G T Third Position in Codon C A G T C A G T C A G

[S] TAT Tyr [Y] TGT Cys [S] TAC Tyr [Y] TGC Cys

TTA Leu [L] TCA TTG Leu [L] TCG CTT Leu [L] CCT

[S] TAA Ter [end] TGA Ter [end] [S] TAG Ter [end] TGG Trp [W] [P] CAT His [H] CGT Arg [P] CAC His [H] CGC Arg [P] CAA Gln [Q] CGA Arg [P] CAG Gln [Q] CGG Arg [R] [R] [R] [R] [S] [S] [R] [R] [G] [G] [G] [G]

First Position in Codon

CTC Leu [L] CCC CTA Leu [L] CCA CTG Leu [L] CCG ATT Ile [I] [I] [I] ACT ACC ACA

Thr [T] AAT Asn [N] AGT Ser Thr [T] AAC Asn [N] AGC Ser Thr [T] AAA Gln [K] AGA Arg Thr [T] AAG Gln [K] AGG Arg Ala [A] GAT Asp [D] GGT Gly Ala [A] GAC Asp [D] GGC Gly Ala [A] GAA Glu [E] GGA Gly Ala [A] GAG Glu [E] GGG Gly

ATC Ile ATA Ile

ATG Met [M] ACG GTT Val [V] GCT G GTC Val [V] GCC GTA Val [V] GCA GTG Val [V] GCG

Codul genetic prezentat n Tabelul 1 d maparea ntre codoni triplei de baze de nitrogen situate n exoni i amino acizi. Exist patru tipuri de baze, adic rezult 43 = 64 codoni distinci, terminatorul care indic sfritul unei regiuni codante. n consecin, exist o degenerare a codului genetic, amino acizii fiind codai de unul (2 cazuri), de doi (9 cazuri), de trei (1 caz), patru (5 cazuri), sau ase (3 cazuri) de codoni diferii. Tabelul clasic sau reprezentarea cartezian a codului genetic nu include n structura sa caracteristicile de simetrie i de degenerare. Noi am propus o reprezentare tetraedral a bazelor de nitrogen aa cum se arat n Figura 2. Fiecare baz definete o direcie n spaiul de reprezentare, cu patru vectori de baze corespondeni plasai simetric n raport unul cu cellalt, orientai ctre vrfurile unui tetredru.

Fig. 2. Reprezentarea tetraedral a bazelor de nitrogen In sistemul de referin ales, vectorii normalizai ai bazelor sunt:
a= 2 2 c = i+ 3 2 2 g= i 3 2 2 t = i 3 6 3 6 3 k, 1 j k, 3 1 j k, 3 1 k. 3

(1)

Procedeul se repet pentru fiecare din cele trei baze din fiecare codon [5], tratnd fiecare din cele trei baze componente ca digii scrii ca un numr de trei digii scrii n baza doi, vectorul corespunztor celui de al treilea, adic ultima baz din codon (digitul cel mai puin semnificativ) este multiplicat cu 1, vectorul corespunztor celei de a doua baze din codon cu 2, i vectorul corespunztor primei baze din codon (digitul cel mai semnificativ) cu 2 2=4. De exemplu, vectorul care reprezint codonul ATG care codeaz Methionine este la reprezentarea tetredral a codului genetic artat n figura 3.
4a+2t +g .

Aceasta conduce

Fig. 3. Reprezentarea tetredral a Codului Genetic n consecina, prima baz din codon selecteaz unul din cele 16 tetraedre de codoni de ordinul unu care formeaz mpreun un tetraedru de ordinul zero pe ntregul cod genetic, a doua baz selecteaz unul din cele 4 tetraedre de codoni de ordinul doi care alctuiesc primul tetraedru de ordinul nti ales, i, n final, a treia baz identific una din muchii. n acest mod, fiecare din cei 64 de codoni este ataat unei muchii din structura de tetredru pe trei nivele ca un fractal. Lund n calcul maparea codon amino acid impus de codul genetic, amino acizii codai de codoni pot fi asignai la una sau mai multe muchii din cele 64 de muchii totale, n concordan cu degenerarea lor. n concluzie, reprezentarea teredral a codului genetic i descrierea matematic bazat pe ea, reflect cel mai bine structura metric a codului gentic. n mod specific, codonii care corespund unui acela amino acid sunt mapai n puncte nvecinate, astfel c codonii de acelai tip sunt clasterizai. Rezult astfel c degenerarea este restrns n fond la tetraedrele de ordinul doi i cele mai multe perechi de baze interschimbabile sunt distribuite pe muchii paralele la direciile pirimidinelor i a purinelor. Reprezentarea teredral are de asemenea avantajul de a determina n mod natural secvenele putative de codare ancestrale prin simpla trecere la un tetraedru de un nivel mai jos. Astfel, reprezentarea tetraedric scoate n eviden caracteristicile eseniale ale codului genetic care apar ca simetrii i regulariti ale imaginii 3D rezultante. Aceas abordare este util pentru explorarea rapid a secvenelor de DNA la nivel de baze de nitrogen i pot fi extinse la nivele de codoni (Fig.4) si amino acizi (Fig.5).

Fig. 4. Reprezentarea tetredral a codonilor

Fig. 5. Reprezentarea tetredral a amino acizilor mapai pe codonii din Fig. 6 n concordan cu codul genetic.

Descrierea matematic a codului poate fi simplificat prin rotirea sistemului de referin, dup cum searat n Fig. 6, n care se observ c muchiile tetredrului regulat sunt de asemenea un subset a muchiilor unui cub. Este avantajos s se dea o condiie de normalizare Euclidian i s se aleag coordonatele 1 pentru muchiile cubului, care include punctele de reprezentare ale bazelor, astfel c vectorii bazelor din (1) iau o form mai simpl:
a = i + j+k c = i + j k , g = i j + k , t = i j k.

(2)

Fig.6 . Reprezentarea tetredric rotit a bazelor de nitrogen Dimensionalitatea reprezentrii poate fi redus la doi prin proiecia tetredrului de baz pe un plan. Astfel de plane pot fi alese n diverse moduri, dar ele trebuie s conserve simetria reprezentrii i s reflecte proprietile biologice n proprietile matematice corespondente. De exemplu, planele pot fi definite de o pereche de axe de coordonate. Pe de alt parte, planele pot fi puse n coresponden cu planul complex, astfel c se poate obine o reprezentare complex a bazelor. omplex plane, so that a complex representation of the bases is obtained. Alegnd planul red-blue, cele patru baze sunt plasate ntr-o simetrie quadrantal ca n Figura 7a si reprezentarea complex este dat de:
a = 1 + j, c = 1 j, g = 1 + j, t = 1 j.

(3)

Reprezentarea complex are avantajul unei translri mai bune a caracteristicilor bazelor n proprieti matematice. De exemplu, n reprezentarea din Fig. 7a, complementaritatea perechilor de baze A-T i respectiv, G-C, este exprimat de faptul c reprezentrile lor sunt complex conjugate, n timp ce purinile i pirimidinele au prile imaginare egale i prile reale de semn opus. Relaiile (3) sunt echivalente cu utilizarea a dou sisteme binare complexe mutual ortogonale, n loc de un sistem real n baza patru. Utilizarea sistemelor bipolare cu distana 2 ntre dou numere vecine de ordinul nti conduce la ataarea de componente reale impare i componente imaginare impare codonilor. mprirea la 2 a valorilor ataate va face distana ntre dou numerte vecine egal cu unu, dar va avea dezavantajul operrii cu componente ne-ntregi. Permutarea bazelor A-G, adic alegerea planului de reprezentarea din Fig. 7b, pentru care: proieciei blue-green, duce la

a = 1 + j , c = 1 j, g = 1 + j, t = 1 j.

(4)

Fig. 7. Proieciile reprezentrii tetredrale ale bazelor de nitrogen din Fig. 4, pe planeleplanes: (a) red-blue (point-of-view: az = 0, el = 0, roll = 0; p = 1, q = 2); (b) green blue (az = -90, el = 0, roll = 0; p = 2, q = 2); Aceast reprezentarea are avantajul c strand-urile complementare ale moleculei de DNA corespund semnalelor digitale de valori absolute egale, dar de semn opus, astfel c suma lor este ntotdeauna zero. Valorile complexe pot fi ataate n diverse moduri amino acizilor. O modalitate este asignarea unui amino acid o valoare medie pe ntreaga arie pe care el este mapat. Este posibil s se calculeze media lund n considerare frecvenele relative de apariie ale diferiilor codoni care corespund acelui amino acid. Pe de alt parte, pentru probleme specifice, asignarea valorilor complexe bazelor i amino acizilor poate fi adaptat scopului. De exemplu, valorile optime pentru detectarea exonilor sunt diferite pentru valorile optime pentru detectarea cadrelor de citire. Alegerea valorilor asignate nucleotidelor i/sau amino acizilor permite fitarea reprezentrii complexe pentru aplicaii pe de alt parte. De asemenea, este posibil pe de alt parte s se reduc dimensionalitatea reprezentrii secventelor de baze, codoni i amino acizi prin utilizarea reale uni-dimensionale.Celor patru baze de nitrogen li se ataeaz digiii {0, 1, 2, 3}. Cei trei codoni de baze sunt interpretai ca trei numere digitale scrise n baza patru, adic codonii de-a lungul strandului de DNA sunt mapai pe numerele {0, 1, 2, , 63}. De obicei, o secven ntreag de DNA poate fi privit ca un numnr imens scris n baza patru.Totui el corersp[unde cel mai bine realitii biologice de interpretare a fiecrui codon ca un eantion distinct a unui semnal genomic digital distribuit de-a lungul strandului de DNA. Exist 4! = 24 variante pentru ataarea digiilor de la 0-3 bazelor A, C, G, T.

Alegerea optimal dat n Tabelul 2 rezult din condiia celei mai monotone mapri ale codonilor de la 0-63 la amino acizi plus terminatorul de la 0-20, care conduce la cea mai bun auto-corelatie semnalului genoimic inter-gene. Table 2. Maparea nucleotidelor pe digii in baza patru Pyrimidines Purines Thymine = T = 0 Adenine = A = 2 Cytosine = C = 1 Guanine = G = 3 Tabelul 3 d o mapare a codonilor digitali pe codurile numerice ale amino acizilor. Tabelul 3. Corespondena optim a codonilor numerice reali la acizi Digital Codon Amino Acid Code Long name Short Name Symbol 10,11,14 0 Terminator Ter [end] 0,1 1 Phenylalanine Phe [F] 2,3,16,17,18,19 2 Leucine Leu [L] 4,5,6,7,44,45 3 Serine Ser [S] 8,9 4 Tyrosine Tyr [Y] 12,13 5 Cysteine Cys [C] 15 6 Tryptophan Trp [W] 20,21,22,23 7 Proline Pro [P] 24,25 8 Histidine His [H] 26,27 9 Glutamine Gln [Q] 28,29,30,31,46,47 10 Arginine Arg [R] 32,33,34 11 Isoleucine Ile [I] 35 12 Methionine Met [M] 36,37,38,39 13 Thereonine Thr [T] 40,41 14 Asparagine Asn [N] 42,43 15 Lysine Lys [K] 48,49,50,51 16 Valine Val [V] 52,53,54,55 17 Alanine Ala [A] 56,57 18 Aspartic acid Asp [D] 58,59 19 Glutamic Acid Glu [E] 60,61,62,63 20 Glycine Gly [G] Codurile numerice asigneaz amino acizilor rezultatul din ordinul de referin de primul ordin, cnd codonii cresc gradual de la 0 la 63. Prin convenie codul zero este asignat terminatorului. Prin convenie exist numai dou mapri un codon un amino acid (nedegenerat) pentru tryptophan i methionine, dar numai nou duble, una tripl, cinci cvadruple, i ase sextatuple degenerate, plus trei codoni care corespund terminatorului. Dependena non-monotonic minim are numai patru inversri ale ordinei ascendente normale: pentru o secven de terminator i pentru trei instane de sexatuple degenerate: leucine, serine i arginine. S-a fcut o cercetare exhasutiv pentru toate cele 24 corespondene posibile ale bazelor de nitrogen la digiii de la 0-3 i s-a artat c nu exist o mapare mai monotonic. Maparea propus d o funtie liniar pe poriuni, cu numai trei inversri menionate ale ordinului dup cum se arat n Fig. 8. Indicele p specific permutrile bazelor i iau valori de la 1 la 24.

Fig. 10. Maparea optimal a codonilor reali (0 63) pe amino acizi i codurile reale ale terminatorului (0 20), permutarea p = 1. Discontinuitile n monotinicitatea funciei apar numai pentru trei amino acizi ce au degenerescena de ordinul ase. n al doilea rnd este posibil utilizarea rep[rezentrii complexe a bazelor si n mod corespunztor a codinilor.Reducerea dimensionaliii tetraedronului de 64 de codonidin Fig. 3 prin proiecia pe acelai plan red-blue cum a fost utilizat mai suus pentru tetraedronul de 4 baze (Fig. 5 i relaiile 3) rezult n reprezentarea codonilor n planul complex aa cum se arat n Fig.7 i a amino acizilor aa cum se arat n Fig. 8. Dup cum s-a observat, aceast abordare grupeaz amino acizii care sunt mapai in regiuni continue ale plaunului complex.

Fig. 7. Maparea codonilor in planul complex

Fig. 8. Maparea amino acizilor n planul complex

c + g+t a b= = 3 3 g+t +a c d= = 3 3 t +a+c g h de = 5. Realizarea unei baze de date = virusuri3 HIV 3 a + c + g de nucleotide 1. Reprezentarea FASTA a nucleotidelor ia perechilor= t v= 3 3 n plus la simbolurile de nucleotide. reprezentarea FASTA include ase simboluri pentru cele ase clase descries mai sus: patru simboluri pentru clasele celor trei nucleotide i un symbol n = 0, pentru o nucleotiod neidentificat. Ecuaiile corespunztoare pentru reprezentarea vectorial complex sunt: a+t w= =i 2 c+g s= = i (5) 2 a+c m= =j 2 g +t k= =j 2 a+g r= =k 2 c +t y= = k 2

Astfel c reprezentarea tetredral este completat cu punctele artate mai jos n Figura 9.

Fig. 9. Reprezentarea vectorial 3D FASTA a nucleotidelor.

n mod corespunztor, reprezentarea complex din ecuaiile (5) este completat cu: w= m= k = r = 1 0 0 j b= 1 ( 1 j) 3 1 v = ( 1 + j) 3 1 d = (1 + j) 3 1 h = (1 j ) 3

s = 1

(4)

y = j

n= 0 i distribuia punctelor n planul complex este cea dat n Figura 10

Fig. 10 Reprezentarea complex (2D) FASTA a nucleotidelor

2.

Rezultate preliminary a analizei de faz a secvenelor de HIV

Reprezentarea FASTA extins a fost utilizat pentru studiul variabilittii virusului uman imunodeficitar lundu-se n consideraie selecia combinat a acestora i rspunsul la tratament. Mai specific, s-a utilizat Analiza Componentelor Independente pentru identificarea caractersticilor care definesc secvenele de HIV de sub tip F izolate n Romnia. Reprezentarea FASTA a fost utilizat att pentru secvenele standard din bazele mari de date [1] i pentru cteva date experimentale care se refer la subtipul F. Figura 11 prezint faza cumulat i faza desfurat a tipului HIV 1 standard dat de GenBank, numr de acces NC 001802 [1, 9], care are un chromozom de9181 bp (perechi de baze). Este surprinztoare comportarea aproape linear (sau linear pe priuni) gsit pentru semnalele genomice care descriu cromozomii cei mai mari de prokariote i eukariote, i gsit aici la scar mult mai mic a acestui.

Fig. 11. Analiza de faz a semnalului genomic a virusului uman imunodeficitar cu numrul de acces NC 001802 [1, 9] Figura 12 reprezint Nucleotide Path (continuitatea nucleotidelor) pentru semnalul genomic al virusului din Figura 11. O astfel de reprezentare permite o comparaie rapid ntre cromozomii din diferite lanuri de virui sau din interiorul subtipului.

Fig. 12. Nucleotide Path a semnalului genomic a Virusului uman imunodeficitar cu numrul de acces NC 001802 [1, 9] Figurile 13 a i b reprezint variaia fazei cumulate i a fazei defsurate pentru 10 eantioane de virusuri HIV isolate i secveniate la Institutl Naiobnal de Boli Infecioase Prof.dr. Matei Bal. Un segment al fiecrui cromozom pornind din poziia 2805 i avnd lungime de 1302 perechi de baze a fost secveniat i convertit n semnal digital. Acest segment este n intregime codat, cade ntr-un domeniu "gag-pol" i cuprinde inte pentru tratamentul antiretroviral. Este evident c faza desfurat, care exprim statisticile perechilor de baze, mai degrab dect statisticile de ordinul nti ale perechilor de baze nsui, art mai corect schimbrile n genomul viral.

Figura 13 a i b. Variabilitaea virusului uman imunodeficitar de tip 1, subtip F. Fazele cumulate i desfurate a 10 eantioane de virui

6. CONCLUZII
Proiectul propune o reprezentare tetredral a Codului genetic care reflect cel mai bine structura i degenerescena sa. S-au propus mapri simbolice n semnale digitale ale amino acizilor pentru diferite aplictii practice. Este de menionat faptul c pentru prima dat s-a artat existena unei nfsurri elicoidale globale a reprezentrilor complexe de a lungul secvenelor bazelor de DNA, o tendina pe scar larg a semnalelor genomice. Noi instrumente pentru analiza semnalelor genomice, care utilizeaz faza, faza agregat, faza desfurat, calea secveelor, reprezentarea stem a componentelor frecvenelor relative, precum i analiza tranziiilor au fost introduse pentru nucleotide, la nivel de codoni i amino acizi i n abordarea multirezoluie. Este de remarcat c utilizarea analizei fazei a dovedit existena nfurrii elicoidale a reprezentrilor complexe a bazelor de a lungul secvenelor de DNA. Aceasta este o caracteristic pe scala larg, care se pstreaz pe distane de zeci de milioane de baze i reliefeaz o regularitate statistic a succesiunii bazelor, care nu depinde de distribuia bazelor. Utilizarea abordrii Proieciei n spaiul bi-dimensional a permis utilizarea analizei componentelor independente pe semnalele genomice obinute din secvene exta-gene de DNA care nu codeaz proteine, dar care reliefeaz faptul c ele contribuie la controlul funcionrii genelor, adic la sintezele de proteine. Totodat, proiectul prezint i o extensie a conversiei simbolurilor de secvene de nucleotide mapate pe semnale genomice care opereaz cu toate simbolurile FASTA. Secvenele FASTA cuprind nu numia patru simboluri de nucleotide (a, c, g, t), ci i simboluri pentru clasele a dou, trei i patru (neidentificat) nucleotide. Descrierea fuzzy reflect cel mai bine realitatea biologic cand se studiaz o populaie ce cuprinde cteva subtipuri, cu o variabilitate semnificativ n cadrul fiecrui subtip, sau cu zgomot

BIBLIOGRAFIE:
1. P. D. Cristea, Digital representation and analysis DNA genomic data, Proceedings of the 2. 3. 4. 5.
Romanian Academy, Series A: Mathematics, Physics, Technical Sciences, Informatics Science, vol. 5, no. 2, May-August 2004, pp. 213-222. P. D. Cristea, Genomic Signals of Re-Oriented ORFs, EURASIP Journal on Applied Signal processing, Special Issue on Genomic Signal Processing, volume 2004, no.1, pp. 132-137, 1 January 2004. P.D. Cristea, Multiresolution analysis of DNA FASTA sequences, Intelligent Systems in Medicine, Selected papers from ECIT 2004, Edit. Performantica, Iai 2004, ISBN 973-7994-82-5, pp. 9-19. P. D. Cristea, Digital representation and analysis DNA genomic data, Proceedings of the Romanian Academy, Series A: Mathematics, Physics, Technical Sciences, Informatics Science, vol. 5, no. 2, May-August 2004, pp. 213-222. P. D. Cristea, Genomic Signals of Re-Oriented ORFs, EURASIP Journal on Applied Signal processing, Special Issue on Genomic Signal Processing, volume 2004, no.1, pp. 132-137, 1 January 2004.

1. P.D. Cristea, Morphological and Functional Statistical Features of DNA Molecules,


Proceedings of SNET 2004 National Symposium of Theoretical Electrical Engineering, October 22-23, 2004, Bucharest, Romania. 2. P.D. Cristea, A model of chromosome longitudinal structure, Proceedings of NEUREL 2004 7th Seminar on Neural Network Applications in Electrical Engineering, Invited Plenary Paper, University of Belgrade, Serbia and Montenegro, September 23-25, 2004, pp. 145-150. 3. P.D. Cristea, Representability of Genomic Signals, Proceedings of EMBS 2004 26th Annual International Conference IEEE Engineering in Medicine and Biology Society, San Francisco, California, September 1-5, 2004, pp. 326. 4. P. D. Cristea, Multiresolution analysis of DNA FASTA sequences, Proceedings of ECIT 2004 Third European Conference on Intelligent Systems and Technologies, Invited Plenary Paper, Iai, Romania, July 21-23, 2004, pp. 9-19. 1. P.D. Cristea, Visualization of genomic data The signal Representability problem, Proceedings of 2nd European Symposium on Biomedical Engineering, Patras, Greece, Invited Speaker in Plenary Session, 26-27 June 2004, pp. 25-28. 5. P.D. Cristea, Intelligent Analysis of Genomic Data, Proceedings of 2nd Summer School on Emerging Technologies in Biomedicine, Patras, Greece, Invited Speaker in Plenary Session, June20-25, 2004. 6. P.D. Cristea, Intelligent E-learning Environments Architecture and Basic Tools, Proceedings of ITHET 2004 5th International Conference on Information Technology Based Higher Education and Training, Istanbul, Turkey, 31 May 2 June, 2004. 7. P. D. Cristea, Data representability the case of genomic signals, Proceedings of ICCC 2004 International Conference on Computers and Communications, Bile Felix Spa Oradea, Romania, May 27-29, 2004, pp. 98-104. 8. P.D. Cristea, Multiresolution Phase Analysis of Genomic Signals, ISCCSP 2004 - 1st International Symposium on Control, Communications and Signal Processing, Signal Processing in Biological Sciences, Hammamet, Tunisia, 21-24 March 2004, pp. 743-746.

S-ar putea să vă placă și