Documente Academic
Documente Profesional
Documente Cultură
elisation statistique de
s
equences pour la bio-informatique
M1 Universit
e Pierre et Marie Curie
Catherine Matias
1
Table des mati`
eres
Avant-propos 3
I Analyse de sequences 4
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
I.1.1 Courte introduction de biologie moleculaire . . . . . . . . . . . 4
I.1.2 Bref historique du sequencage . . . . . . . . . . . . . . . . . . 10
I.1.3 Modelisation de sequences . . . . . . . . . . . . . . . . . . . . 11
I.2 Chanes de Markov (`a temps discret et espace detats finis) . . . . . . 13
I.2.1 Mod`ele i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.2.2 Rappels sur les chanes de Markov (dordre 1) . . . . . . . . . 14
2
Avant-propos
3
Chapitre I
Analyse de s
equences
I.1 Introduction
I.1.1 Courte introduction de biologie mol
eculaire
On rappelle ici quelques grandes lignes de la biologie moleculaire. Nous reste-
rons volontairement tr`es generaux dans cette description (qui par ailleurs comporte
certainement de grossi`eres approximations).
4
Les biologistes travaillent souvent sur des organismes mod`eles, comme par exemple
Escherichia coli, Bacillus subtilis : qui sont des bact eries,
Arabidopsis thaliana (ou arabette) : une plante facile ` a reproduire et conserver
en laboratoire ; les plantes liees `a lalimentation humaine comme les cultures
cereali`eres sont egalement tr`es etudiees,
Saccharomyces cerevisiae : levure (champignons),
chromosome
noyau
tlomre
centromre
cellule tlomre
chromatides
nuclosomes
ADN
double brins
La structure de lADN a ete mise a` jour par Watson et Crick en 1953 (utilisant
les travaux de cristallographie aux rayons X de Franklin et Wilkins). Un ADN est
une macro-molecule organisee en double-brin (ou double-helice, Figure I.3). Chaque
brin est identifie par la succession des bases azotees - egalement appeles nucleotides
- qui le composent : A (adenosine), C (cytosine), G (guanine) et T (thymine). Les
deux brins sont chimiquement orientes et leur appariement se fait tete-beche selon
la r`egle C/G et A/T.
LADN est une molecule qui doit frequemment etre repliquee pour permettre la
division cellulaire (Figure I.4). Cette replication de lADN est (partiellement) cause
de la variabilite de linformation genetique.
5
Figure I.3 Appariement des deux brins de lADN (gauche) et composition chi-
mique de ladenosine (droite).
6
genetique.
Un g`ene est (grossi`erement) une petite unite dADN, qui code une proteine (Fi-
gure I.5). Le dogme central de la biologie moleculaire (propose dans les annees 70)
decrit les modalites de lexpression des g`enes. Celle-ci se fait en deux etapes : tout
dabord la transcription de lADN en ARN messager (Figure I.6) puis la traduction
de lARN messager en proteine via le code genetique (Figure I.7). LARN messager
est une petite molecule dARN (ou acide ribonucleique). LARN a globalement la
meme structure chimique que lADN mais la base azotee Thymine (T) y est rem-
placee par lUracile (U).
7
Figure I.7 Schema de letape de traduction de lARN messager en proteine
(gauche) et code genetique (droite).
8
Figure I.8 Schema du mecanisme de regulation de loperon lactose
obtenues a` partir du meme g`ene (Figure I.9). Lepissage alternatif existe egalement
chez les archees, mais pas chez les bacteries.
De nos jours, un g`ene est considere comme un segment dADN qui contribue au
phenotype ou a` une fonction biologique (au sens large).
9
genome de reference le genome consensus dune esp`ece donnee. Cest un mod`ele de
sequence (ce genome nexiste pas en tant que tel). Dans ce cours, nous nous placons
au niveau des esp`eces : les sequences considerees sont des genomes de reference.
` partir des annees 70-80, des initiatives internationales ont permis de cataloguer
A
les informations de sequence (`a lechelle des esp`eces) dans des bases de donnees
publiques (GenBank, EMBL, . . . ). Il a fallu environ 10 ans pour sequencer le genome
humain (`a lechelle de lesp`ece), le projet setant acheve en 2003.
Les techniques de sequencage developpees au milieu des annees 70 sont tr`es
couteuses et a` partir de 2005, de nouvelles technologies de sequencage ont vu le jour
(NGS pour next-generation sequencing ou HTS pour high-throughput sequencing).
Elles utilisent le sequencage massif (haut debit) et en parall`ele de tr`es petits frag-
ments (reads ou lectures) dADN. Le co ut de ce sequencage est plus faible mais le
nombre derreurs est plus important.
Les technologies de sequencage ont largement evolue avec larrivee du sequencage
massif. A` lheure actuelle, de nouvelles initiatives se concentrent sur des echelles plus
fines : par exemple 1000 Genomes project concerne le sequencage de 1000 individus
humains. En pratique cela signifie que lon se concentre sur des marqueurs individuels
(variants) qui distinguent les individus entre eux.
10
I.1.3 Mod
elisation de s
equences
Ce cours est consacre a` la modelisation des sequences biologiques. Il sagit donc de
macro-molecules qui peuvent etre resumees par des chanes lineaires de nucleotides
ou dacides amines. Les technologies de sequencage permettent dobtenir la sequence
consensus dun organisme.
Dun point de vue mathematique, nous les representerons comme des sequences
finies de variables aleatoires a` valeurs dans un alphabet A fini. Nous nous interesserons
a` differents types de sequences :
S equences dADN (g`enes, promoteurs, chromosomes, . . .) dalphabet A =
{A, C, G, T }.
S equences proteiques, dalphabet A = {20 acides amines } ={Ala, Cys, Asp,
Glu, . . .}.
S equences dARN, dalphabet A = {A, C, G, U }.
Toutes ces sequences peuvent avoir ete obtenues par des technologies differentes.
Il existe de nombreuses bases de donnees de sequences disponibles sur internet,
reguli`erement mises a` jour. Citons en particulier
S equences nucleotidiques : GenBank, http://www.ncbi.nlm.nih.gov/genbank/
Bases de donn ees de genomes complets : Ensembl, http://www.ensembl.
org/ (vertebres : humain, souris, . . .) et Ensembl Genomes, http://ensemblgenomes.
org/ (bacteries, champignons, plantes,. . .)
S equences proteiques : UniProt, http://www.uniprot.org/, Swiss-Prot
(version manuellement corrigee dUniProt), PROSITE, http://prosite.expasy.
org/ (famille de proteines et de domaines proteiques).
Une fois obtenues, ces sequences doivent etre analysees pour en extraire de linfor-
mation biologique. De par la taille des donnees et le bruit de mesure (technologique
ou biologique), il est necessaire dutiliser pour cela des mod`eles aleatoires et des
techniques informatiques. Cest lobjet de la bio-informatique, qui a emerge (envi-
ron) dans les annees 1970 et a commence `a prendre de lampleur dans les annees
1990 jusqu`a devenir une discipline a` part enti`ere.
Parmi les plus anciennes questions posees par lanalyse des sequences biologiques,
on trouve
Quelle est la localisation des g` enes sur les chromosomes (position et sens
de lecture) ? Combien y en a-t-il ? Quelle est leur structure (exons/introns
par ex) ? Quelles sont leurs sequences promotrices ? Forment-ils des operons ?
Cest lannotation des sequences.
O`u se trouvent dautres motifs fonctionnels, tels que les cross-over hotspot
instigators (ou sites chi, localises dans les genomes bacteriens), les sites de
11
restriction, de regulation, sites actifs de proteines . . . ? Cest la detection de
motifs.
Comment explique-t-on les differences entre genomes desp`eces differentes
mais proches ? Cest la modelisation de levolution des sequences.
Comment peut-on comparer des genomes desp`eces proches ? Cest (par exemple)
via lalignement de sequences.
Comment inf`ere-t-on des relations ancestrales entre les esp`eces (et leurs sequences) ?
Cest la reconstruction phylogenetique.
12
I.2 Chanes de Markov (`
a temps discret et espace
d
etats finis)
I.2.1 Mod`
ele i.i.d.
Une sequence biologique est vue comme une suite de variables aleatoires X1 , . . . , Xn
(que lon notera egalement X1:n ) `a valeurs dans un alphabet A.
Le mod`ele aleatoire de sequence le plus simple est le mod`ele o`
u toutes les variables
sont supposees independantes et identiquement distribuees (i.i.d.). Cela signifie que
chaque site de la sequence prend une valeur dans A independamment des autres
sites et suivant une distribution des lettres = ((a), a A) qui est la meme en
P
chaque site. Noter que (a) 0 et aA (a) = 1.
La probabilite dobserver une suite x1 , . . . , xn sous le mod`ele i.i.d. est donnee par
n
Y Y
P(X1 = x1 , . . . , Xn = xn ) = (xi ) = (a)n(a) ,
i=1 aA
avec N (a) = ni=1 1{Xi = a}. (On distingue la variable aleatoire N (a) de sa valeur
P
prise n(a) pour une observation). Ainsi, on verifie facilement 2 que lestimateur du
maximum de vraisemblance de secrit
N (a)
a A,
(a) = .
n
Cependant, on constate rapidement que ce mod`ele est assez mauvais car il
sajuste tr`es mal aux observations. En effet, on observe que les frequences des di-
nucleotides (i.e. les sequences de longueur 2) different beaucoup du produit des
13
frequences des nucleotides, ce qui ne devrait pas etre le cas dans un mod`ele i.i.d. (et
ce pour des sequences assez longues). Ainsi, dans un mod`ele i.i.d. on a a, b A,
N (ab) N (a)
fab = P (X1 = a, X2 = b), et fa = (a),
n1 n+ n n+
u N (ab) = n1
P
o` i=1 1{Xi = a, Xi+1 = b} est le nombre doccurrences du dinucl
eotide
ab. Cependant, on constate sur des sequences assez longues que
Enfin, il est naturel de supposer que les lettres ne sont pas independantes : par
exemple, les ilots CpG sont des regions genomiques avec une frequence tr`es elevee
du dinucleotide CG. Dans ces regions, la probabilite dobserver un G apr`es un C est
plus forte que celle dobserver un A apr`es un C.
Le mod`ele mathematique le plus simple de variables aleatoires dependantes est
celui des chanes de Markov.
D efinition. Soit {Xn }n1 une suite de variables aleatoires a` valeurs dans un espace
detats fini (ou denombrable) A. On dit que {Xn }n1 est une chane de Markov
homog`ene si i 1, x1 , . . . xi+1 A, on a
14
Exemple. Sur lalphabet A = {A, C, G, T }, on consid`ere la matrice de transition
0.7 0.1 0.1 0.1
0.2 0.4 0.3 0.1
p= . (I.1)
0.25 0.25 0.25 0.25
0.05 0.25 0.4 0.3
Alors on a en particulier,
p(2, 3) = P(Xk+1 = G|Xk = C) = 0.3.
A avec proba 0.7
Lorsque Xk = A on a Xk+1 = .
C, G ou T avec proba 0.1
Lorsque Xk = G, la variable Xk+1 est tiree uniformement sur A.
La Figure I.11 est une representation sous forme dautomate de cette chane de
Markov. Le poids dune arete a b indique la probabilite de transition p(a, b) =
P(Xi+1 = b|Xi = a). Dans cette representation, on nindique pas les boucles (tran-
sition de a vers a) mais il faut se souvenir que ces transitions existent. Leur pro-
babilite peut etre obtenue a` partir des poids des autres aretes et de la relation
P
bA p(a, b) = 1.
0.1 0.4
0.25 0.25
0.05
0.25 A T 0.3
0.1
0.2 0.25
0.1 0.1
Exercice. Remarquez que les mod`eles i.i.d. peuvent etre vus comme un cas parti-
culier de chane de Markov et donnez la matrice de transition p dune suite i.i.d. de
distribution .
15
Propri et
es des chanes de Markov. Nous allons tout dabord considerer la
probabilite dobserver une sequence particuli`ere sous le mod`ele de chane de Markov.
Pour cela, il faut
Specifier la distribution de X1 , egalement appelee loi initiale, (a) = P(X1 =
P
a) pour tout a A. Noter que (a) 0 et aA (a) = 1,
Par exemple, = (1/4, 1/4, 1/4, 1/4) est la loi uniforme sur A = {A, C, G, T },
tandis que = (0, 0, 1, 0) donne X1 = G presque s urement.
Se donner une matrice de transition p sur lalphabet A.
Ainsi, la probabilite dobserver une sequence est donnee par le produit des probabi-
lites de transitions et du terme de probabilite initial.
Exercice. Prouver la formule (I.2). Indice : par recursion sur n.
X X
`n (, p) = log P,p (X1 , . . . , Xn ) = 1{X1 = a} log (a) + N (ab) log p(a, b),
aA a,bA
(I.3)
o`
u N (ab) est le nombre doccurrences du dinucleotide ab dans la sequence X1 . . . Xn .
Demonstration. Dapr`es (I.2), on a
n
X
log P,p (X1 , . . . , Xn ) = log (X1 ) + log p(Xi1 , Xi )
i=2
X n
X X
= 1{X1 = a} log (a) + 1{Xi = a, Xi+1 = b} log p(a, b),
aA a,bA i=2
do`
u le resultat.
16
On va maintenant sinteresser `a la distribution dun site quelconque de la sequence
(i.e. aux lois marginales de la chane de Markov). De facon generale, on va noter
A = {1, . . . , Q} lalphabet et = ((1), . . . , (Q)) la loi initiale vue comme un
vecteur ligne. Enfin on note p = (p(i, j))1i,jQ la matrice de transition. Alors on
obtient
P,p (Xn = a) = (pn )(a), a A,
u pn est la puissance ni`eme de la matrice p et pn est le produit dun vecteur ligne
o`
par une matrice.
Demonstration. Par induction : soit n le vecteur ligne qui contient les probabilites
P,p (Xn = a). Alors, pour tout a A,
X
n (a) = P,p (Xn = a) = P,p (Xn1 = b, Xn = a)
bA
X
= P,p (Xn1 = b)P(Xn = a|Xn1 = b)
bA
X
= n1 (b)p(b, a) = (n1 p)(a).
bA
Exercice. Prendre la matrice p donnee par (I.1) et calculer P,p (X7 = C|X5 = T ).
Une chane de Markov {Xn }n1 est dite stationnaire si toutes les variables Xi
ont la meme loi ? . Lorsquelle existe, la loi stationnaire ? doit satisfaire la relation
suivante
?p = ?,
i.e. ? est un vecteur propre a` gauche de la matrice p pour la valeur propre 1. Notez
que la loi stationnaire depend uniquement de la matrice de transition de la chane.
Une chane de Markov dont la loi initiale est la loi stationaire ? associee a`
sa transition p, est automatiquement stationnaire. Lexistence et lunicite des lois
stationnaires est abordee dans le resultat suivant.
17
Th eor`eme I.1 (admis). Pour tout espace detats fini A, sil existe un entier m 1
tel que a, b A, on ait pm (a, b) > 0, alors la loi stationnaire ? existe et est unique.
De plus, (quelque soit la loi initiale de la chane), on a
a, b A, pn (a, b) ? (b).
n+
Estimation des param` etres. Considerons une suite X1 , . . . , Xn que lon suppose
generee selon une chane de Markov. On cherche a` estimer la matrice de transition
p de la chane qui a genere ces observations.
Dapr`es (I.3), lestimateur du maximum de vraisemblance p de la matrice de
transition est donne par
N (ab)
a, b A, p(a, b) = ,
N (a)
P
u N (a) = bA N (ab).
o`
Consequence : le comptage des dinucleotides de la sequence caracterise lestima-
teur des probabilites de transition. En ce sens, ce comptage caracterise enti`erement
la sequence du point de vue de sa modelisation par une chane de Markov dordre 1.
P
Demonstration. Dapr`es (I.3), on veut maximiser a,bA N (ab) log p(a, b) en les pa-
P
ram`etres {p(a, b), a, b A}, sous les contraintes bA p(a, b) = 1 pour tout a A.
P
On introduit des multiplicateurs de Lagrange a pour chaque contrainte bA p(a, b)
1 = 0, et on se ram`ene au probl`eme
X X X
sup N (ab) log p(a, b) + a p(a, b) 1 .
{a ,p(a,b)}a,bA a,bA aA bA
18
Il faut noter que lestimateur du maximum de vraisemblance de la loi initiale
nest pas satisfaisant : si on cherche le maximiseur de (I.3) en , on obtient
(a) = 1{Xi = a} pour tout a A ce qui ne donne pas un bon estimateur. (En
19
Bibliographie
Olivier Gascuel and Mike A. Steel, editors. Reconstructing evolution : new mathe-
matical and computational advances. Oxford university press, Oxford, 2007.
20