Sunteți pe pagina 1din 8

Curs 7

Bioinformatica

6. Microarii si baze de date ale procesarii genetice (microarray and gene expression databases)
6.1. Introducere

Expresie genetică (procesare genetică) este procesul în care o secvenţă DNA a unei gene este convertită
în structură şi funcţie a unei celule. Gene care aparţin non-proteinelor (e.g. genele rRNA şi tRNA) nu
sunt translate în proteine.

Analiza microarii (sau microchip) este o tehnologie în care toate genele unui organism sunt reprezentate prin
secvenţe de nucleotide dispuse pe o arie de 80x80 sliduri de microscop care care poate fi de asemeni sintetizat
direct dintr-o proba la densitatea de un million pe cm2. De exemplu, prin această tehnologie, se poate face
comparaţia intre expresia genetică dintre cellule normale şi cellule bolnave (e.g. canceroase). Tehnologia este
cunoscută şi sub alte cîteva nume: microarii DNA, cip DNA, arii DNA, etc.

De ce microarrii?
 Analiza simultană a mii de gene
 Descoperire functii ale genelor
 Analiza exinsa genomica
 Analiza mutanţilor si transgenetică (transgenic) – un animal transgenetic este cela care poartă o
genă străină care a fost introdusă deliberat în genomul sau (e.g. producere soareci transgenetici)
(http://users.rcn.com/jkimball.ma.ultranet/BiologyPages/T/TransgenicAnimals.html)
 Identificare medicamente ţintă
 Înţelegere cauzală a bolilor
 Studii clinice şi seturi de experimente

Sunt mai multe abordări tehnologice:


 Abordare un singur canal
- Gene cip Affymetrix
- macroarii
 Abordare mai multe canale
- Microarii dual color (cDNA)
 Abordări specifice
- Arii baghetă: Lynx, Illumina
- Bazate pe profile PCR (Polymerase chain reaction): CuraGen
Exemplu 1: cDNA

Exemplu 2: Gene cip Affymetrix


6.2. Principiile analiză cu microarii
Reamintim ca diferite nucleotide pot fi conectate (legate) în orice ordine pentru a forma
poliniucleotide, de exemplu:
A-G-T-C-C-A-A-G-C-T-T

Polinucleotidele pot fi de orice lungime şi pot avea orice secvenţă. Cele două capete ale acestei
molecule sunt diferite chimic, secvenţa are direcţionalitate, ca de exemplu:
A->G->T->C->C->A->A->G->C->T->T->

Sfârşitul unei polynucleotide este marcat 5' sau 3' (din raţiuni chimice, în numărarea grupelor –OH la
inel zahăr). Prin conveţie, DNA se scrie în mod obişnuit cu 5' la stînga şi 3' la dreapta cu o codare a
benzii deasupra. Două benzi sunt complementare fie daca una este obţinută din cealaltă prin schimbare
mutuală A cu T şi C cu G şi schimbarea direcţiei moleculei în sens opus. Ca atare, complementara
polinucleotidei de mai sus va fi:
<-T<-C<-A<-G<-G<-T<-T<-C<-G<-A<-A

Perechile de nucleotide specificate pot forma legaturi slabe intre ele. A se leagă la T C la G (mai précis,
două legături de hydrogen pot fi formate la perechea A-T şi trei legături de hydrogen la perechea C-G).
Deşi astfel de interacţiuni sunt slabe la nivel individual, atunci când două lanţuri de polinucleotide
complementare se întâlnesc tind să se lipească, ca mai jos:
5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3'
| | | | | | | | | | | | | | |
3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5'

Liniile verticale dintre nucleotide reprezintă forţele dintre cele două lanţuri. Perechile A-T şi G-C sunt
perechi bază (bp) iar lungimea unei molecule DNA este masurată în bps au nucleotide (nt) care practice
este acelaşi lucru.

Două lanţuri de polinucleotide complementare formeă o structură stabilă, care seamănă cu o elice şi
este cunoscută ca elice dublă DNA. În această structură, o rotaţie completă ia aprox. 10 bp ţi este de
aprox. 3.4 nm lungime.
Se poate întimpla ca sa fie şi nepotriviri în cele 2 lanţuri dacă suma totală a forţelor slabe este suficientă
pentru menţine lipite cele două lanţuri.

C-G-A-T-T-G-C-C-A-C-G-A-T-G-C
| | | - | | | - | | | - | | |
G-C-T-T-A-C-G-T-T-G-C-A-A-C-G

Microariile exploatează aceaste legătură preferenţială. O microarie este în mod obişnuit o folie de sticlă
sau al material pe care moleculele de DNA sun ataşate în locaţii fixe (spoturi). Pot fi mii de spoturi pe o
arie, fiecare conţinînd un număr imens de molecule DNA identice (sau fragmente de molecule identice
– 107-108 molecule in spot). Pentru studiul expresiei genomice, fiecare din aceste molecule ideal ear
trebui sa identifice o gene sau un exon din genom, insă în practică, aceasta nu este întotdeauna posibil
datorită familiilor de gene similare din genom.
Spoturile sunt fie imprimate pe microarii de un robot, sintetizate prin foto-litografie (similar cu cip-
urile integrate) saui imprimate prin ink-jet.
Pentru a masura diferite nivele ale espresiilor genelor sunt mai multe modalităţi. Una din cele mai
cunoscute aplicaţii este de a compara nivelul expresiilor genelor în două eşantioane diferite de acelaşi
tip de cellule în stare sănătoasă şi afectate de boală.

Cantitatea totala de mRNA din cellule în cele două condiţii este extrasă şi etichetată cu două etichete
fluorescente: verde pentru cellule sănătoase şi roşu pentru celule afectate (etichetarea este făcută prin
sinteză unei benzi singulare DNA care este complementară mRNA extras cu o enzimă numită
transcriptază inversă).
Culoarea obţinută indică acea cantitate de probă legată de spotul respective prin nivelul de fluorescenţă
emis cind microaria este excitata de o rază laser. Dacă RNA din 1 este abundentă, culoarea cva fi
verde, iar daca 2 este abundentă, culoarea va fi roşu. Dacă ambele sunt egale, spotul va fi galben iar
dacă nici una nu este prezentă, spotul va avea culoarea negru. Din intensitatea fluorescenţei şi culoarea
fiecărui spot se poate evalua nivelul relative al fiecarei expresii a genelor.
Instalaţie de preparare a probelor

6.3. Procesare de imagini, transformare, normalizare şi analiză statistică

În secţiunea precedentă am vazut ca nivelul expresiei relative pentru fiecare genă (populaţia de RNA în
două eşantioane) poate fi stocată ca o imagine color. Din această imagine, se poate vedea că imaginile
nu sunt perfecte ci au în cele mai multe cazuri surse de zgomot cum ar fi particule de praf, zgârieturi,
zone stralucitoare, spoturi neregulate, variaţii de fond şi luminozitate, vatriabilitate în fluor, etc.

Un prim pas în analiza datelor din microarii este procesarea acestei imagini. Cele mai multe scannere
de microarii furnizează propriul software, totuși este important sa menţionăam ce date sunt extrase din
imagine şi ce reprezintă ele.
Procesarea de imagini reprezintă următorii paşi:

1. Identificarea spoturilor şi deosebirea lor faţă de semnale false


2. Determinarea spotului de investigat, determinarea regiunii locale pentru estimarea fondului
hibridizarii (sunt selectaţi pixelii corespunzători).
3. Raport de statistici specifice ţi asignarea intensităţii spotului după scaderea intensităţii fondului
(medie, mediană, etc).

Cea mai comună masură pentru cantitatea roşu-verde dupa excitare este:

Rk
TK 
Gk

De asemeni, pentru valoarea mediană:

spot
Rmedian  Rmedian
background
Tmedian  spot
Gmedian  Gmedian
background

Normalizarea datelor este termenul care descrie procesul de eliminare a variaţiilor sistematice care
afectează masurătorile cum ar fi variaţii datorate etichetării diferenţiale o două vopsele fluorescente sau
diferite cantităţi de materiale de start de mRNA în cele două probe.
Normalizarea intensităţii totale, folosint factorul de normalizare, este:

Daca se foloseste logaritmul mediei centrate, factorul de normalizare este:

care este echivalent cu:


6.4. Reprezentarea expresie genelor

 Masură absolută
 Masură relativă
 Log2
 Valori discrete
 Reprezentarea profilului ca vector extras din matricea de m gene şi n condiţii, unde valoarea
expresiei genei i în condiţia j este xij

Măsura distanţelor:

 Euclideeană
 Coeficient de corelaţie Pearson
 Coefiecient corelaţie pe ranguri
 Informaţie mutuală

Profil expresie inainte şi după centrare mediană

6.5. Metode de grupare (clustering)

Unul din scopurile analizei microarii este de a grupa genele sau probele cu expresii profil similare,
pentru a efectua o inferenţă biologică interpretabilă despre setul de gene sau probe. Gruparea
(clustering) este una din metodele nesupervizate de a grupa datele în grupuri de gene sau eşantioane cu
patternuri similare care sunt caracteristice grupului. Clusterizarea poate fi ierarhică (similar cu arbore
filogenetic) sau non-ierarhică.
Appendix. Lectură recomandată

1. T. R. Golub, 12* D. K. Slonim, 1 P. Tamayo, 1 C. Huard, 1 M. Gaasenbeek, 1 J. P. Mesirov, 1 H. Coller, 1 M. L.


Loh, 2 J. R. Downing, 3 M. A. Caligiuri, 4 C. D. Bloomfield, 4 E. S. Lander, Molecular Classification of Cancer:
Class Discovery and Class Prediction by Gene Expression Monitoring.
2. Kamberova, G. & Shah, S. “DNA Array Image Analysis Nuts & Bolts“. DNA Press LLC, 2002

S-ar putea să vă placă și