Modélisation Statistique de Séquences Pour La Bio-Informatique

Notes de cours : Mod
elisation statistique de
s
equences pour la bio-informatique
M1 Universit
e Pierre et Marie Curie
Catherine Matias
1
Table des mati`
eres
Avant-propos 3
I Analyse de sequences 4
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
I.1.1 Courte introduction de biologie moleculaire . . . . . . . . . . . 4
I.1.2 Bref historique du sequencage . . . . . . . . . . . . . . . . . . 10
I.1.3 Modelisation de sequences . . . . . . . . . . . . . . . . . . . . 11
I.2 Chanes de Markov (à temps discret et espace detats finis) . . . . . . 13
I.2.1 Modèle i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.2.2 Rappels sur les chanes de Markov (dordre 1) . . . . . . . . . 14
2
Avant-propos
Attention : ces notes contiennent certainement des erreurs et des imprecisions.

Nhesitez pas a` me les signaler.
Citons ici quelques ouvrages de reference qui pourront completer la lecture de
ces notes. Tout dabord, une bonne introduction a` la biologie moleculaire est donnee
dans Lionnet and Croquette [2005]. Les livres Durbin et al. [1998], Nuel and Prum
[2007] complètent les thèmes abordes au Chapitre I. Le livre de Yang [2006] complète
le Chapitre ?? et en particulier la Section ??. Enfin, les livres Felsenstein [2004],
Gascuel and Steel [2007] complètent le dernier Chapitre ??.
3
Chapitre I
Analyse de s
equences
I.1 Introduction
I.1.1 Courte introduction de biologie mol
eculaire
On rappelle ici quelques grandes lignes de la biologie moleculaire. Nous reste-
rons volontairement très generaux dans cette description (qui par ailleurs comporte
certainement de grossières approximations).
Structure du vivant et de linformation g enetique. Le vivant est constitue

de 3 grands règnes : les bacteries (ou eubacteries), les archees et les eucaryotes.
Les bacteries et les archees sont procaryotes i.e. leurs cellules ne contiennent pas de
noyau. Les eucaryotes sont des organismes dont les cellules possèdent un noyau (Fi-
gure I.1). Ce règne comprend entre autres les animaux, les plantes, les champignons,
les protistes . . . .
Figure I.1 Schema de cellule eucaryote.
4
Les biologistes travaillent souvent sur des organismes modèles, comme par exemple
Escherichia coli, Bacillus subtilis : qui sont des bact eries,
Arabidopsis thaliana (ou arabette) : une plante facile ` a reproduire et conserver
en laboratoire ; les plantes liees à lalimentation humaine comme les cultures
cerealières sont egalement très etudiees,
Saccharomyces cerevisiae : levure (champignons),
Homo sapiens, Rhesus macaque, souris, animaux d elevage, C. elegans nematode,

...
Drosophila melanogaster (ou mouche du vinaigre) . . .
Linformation genetique est (essentiellement) stockee dans les chromosomes, eux-

meme stockes dans le noyau lorsque la cellule est eucaryote. Chez lHomme, on
compte 22 paires de chromosomes plus une paire de chromosomes sexuels (Fi-
gure I.2). Un chromosome est une très longue molecule lineaire dADN (acide desoxyribo-
nucleique).
14/08/11 20:33
chromosome
noyau
tlomre
centromre
cellule tlomre
chromatides
nuclosomes
paires de bases histones
ADN
double brins
Figure I.2 Schema de structure de linformation genetique.

http://upload.wikimedia.org/wikipedia/commons/2/2a/Chromosome_fr.svg Page 1 sur 1
La structure de lADN a ete mise a` jour par Watson et Crick en 1953 (utilisant
les travaux de cristallographie aux rayons X de Franklin et Wilkins). Un ADN est
une macro-molecule organisee en double-brin (ou double-helice, Figure I.3). Chaque
brin est identifie par la succession des bases azotees - egalement appeles nucleotides
- qui le composent : A (adenosine), C (cytosine), G (guanine) et T (thymine). Les
deux brins sont chimiquement orientes et leur appariement se fait tete-beche selon
la règle C/G et A/T.
LADN est une molecule qui doit frequemment etre repliquee pour permettre la
division cellulaire (Figure I.4). Cette replication de lADN est (partiellement) cause
de la variabilite de linformation genetique.
5
Figure I.3 Appariement des deux brins de lADN (gauche) et composition chi-
mique de ladenosine (droite).
Figure I.4 Schema de replication dune molecule dADN.
Cette replication, dite semi-conservative, est globalement très fidèle. Cependant,

quelques erreurs se produisent au cours du processus. Il peut sagir de mutations
ponctuelles (changement dun nucleotide en un autre) ou dinsertions/ deletions/
deplacements/ inversions de segments.
Expression et r egulation de linformation g enetique. Chaque cellule dun

organisme contient la meme copie du genome ; pourtant les cellules ont des roles
specifiques une cellule de peau et une cellule de rein nont pas le meme role. Pour
fonctionner et remplir son role, la cellule doit donc produire un certain nombre de
composes : les proteines. Les proteines sont des macro-molecules lineaires que lon
peut voir comme une succession (ou sequence) dacides amines (essentiellement au
nombre de 20). Ce processus de production sappelle lexpression de linformation
6
genetique.
Un gène est (grossièrement) une petite unite dADN, qui code une proteine (Fi-
gure I.5). Le dogme central de la biologie moleculaire (propose dans les annees 70)
decrit les modalites de lexpression des gènes. Celle-ci se fait en deux etapes : tout
dabord la transcription de lADN en ARN messager (Figure I.6) puis la traduction
de lARN messager en proteine via le code genetique (Figure I.7). LARN messager
est une petite molecule dARN (ou acide ribonucleique). LARN a globalement la
meme structure chimique que lADN mais la base azotee Thymine (T) y est rem-
placee par lUracile (U).
Figure I.5 Schema global de transcription et de traduction dun gène en proteine.
Figure I.6 Schema de letape de transcription dun gène en ARN messager.
Ce dogme doit cependant etre affine en tenant compte de plusieurs phenomènes.

La regulation des gènes est le mecanisme qui permet de declencher ou dinterrompre
7
Figure I.7 Schema de letape de traduction de lARN messager en proteine
(gauche) et code genetique (droite).
la production des proteines en fonction des besoins (instantanes) de la cellule. Tout

dabord, des sequences promotrices se trouvent en amont des gènes et permettent
dinitier (ou pas) la transcription. La regulation peut seffectuer à differentes etapes
du processus, avec divers modes operatoires :
au niveau de la transcription : les facteurs de transcription initient la trans-
cription à partir des sequences promotrices. Leur controle permet la regulation
de lexpression : voir lexemple de loperon lactose,
au niveau post-transcriptionel : voir lexemple de lepissage alternatif,
au niveau post-traductionnel : modifications chimiques des proteines après
leur synthèse, . . .
Exemple : Loperon lactose. La -galactosidase est une enzyme qui initie la

chane du metabolisme du lactose en coupant le lactose en galactose et glucose. En
labsence de lactose dans le milieu, une proteine (represseur) se fixe sur lADN en
un site (operateur) qui bloque la transcription du gène de la -galactosidase (Fi-
gure I.8). En presence de lactose dans le milieu, un isomère du lactose, lallolactose,
saccroche sur le represseur et diminue ainsi son affinite pour lADN. La transcription
du gène est alors rendue possible. Ce système de regulation est nomme operon lac-
tose. (Un operon est un ensemble de gènes regules par la meme sequence promotrice).
Exemple : l epissage alternatif. Il sagit dune modification post-transcriptionnelle

qui existe chez les cellules eucaryotes. Les gènes sont organises en exons (qui seront
transcrits) et en introns (qui seront supprimes). Plusieurs proteines peuvent ainsi etre
8
Figure I.8 Schema du mecanisme de regulation de loperon lactose
obtenues a` partir du meme gène (Figure I.9). Lepissage alternatif existe egalement
chez les archees, mais pas chez les bacteries.
Figure I.9 Schema de fonctionnement de lepissage alternatif.
De nos jours, un gène est considere comme un segment dADN qui contribue au
phenotype ou a` une fonction biologique (au sens large).
Le g enome dun organisme et la variabilit e genetique. Le genome dun

organisme est lensemble des molecules dADN et dARN presentes dans ses cel-
lules : les chromosomes ; les ARNs (ARN messagers, ARN de transfert, . . .) de la
cellule ; plus, chez les eucaryotes, lADN mitochondrial. Chez lHomme, lensemble
du genome est compose de 3.4 milliards de nucleotides (ou paires de bases).
Les individus dune meme espèce ont des genomes essentiellement identiques.
Chaque individu possède cependant un genome unique et son genome diffère de
celui dun autre individu de la meme espèce par des variants genetiques. On appelle
9
genome de reference le genome consensus dune espèce donnee. Cest un modèle de
sequence (ce genome nexiste pas en tant que tel). Dans ce cours, nous nous placons
au niveau des espèces : les sequences considerees sont des genomes de reference.
I.1.2 Bref historique du s

equencage
Le sequencage consiste à determiner la suite des bases qui composent un brin
dADN. Les premières techniques de sequencage sont dues à Frederick Sanger et ses
co-auteurs et datent de 1977. Cette technique consiste a` fragmenter le brin à etudier
en morceaux denviron 2000 a` 2500 bases qui seront ensuite amplifies (i.e. reproduits
en plusieurs exemplaires) puis sequences. Une etape dassemblage (informatique) est
necessaire pour reconstituer la sequence cible complète (voir Figure I.10).
Figure I.10 Sequencage dit shotgun (methode de Sanger et co-auteurs).
` partir des annees 70-80, des initiatives internationales ont permis de cataloguer
A
les informations de sequence (à lechelle des espèces) dans des bases de donnees
publiques (GenBank, EMBL, . . . ). Il a fallu environ 10 ans pour sequencer le genome
humain (à lechelle de lespèce), le projet setant acheve en 2003.
Les techniques de sequencage developpees au milieu des annees 70 sont très
couteuses et a` partir de 2005, de nouvelles technologies de sequencage ont vu le jour
(NGS pour next-generation sequencing ou HTS pour high-throughput sequencing).
Elles utilisent le sequencage massif (haut debit) et en parallèle de très petits frag-
ments (reads ou lectures) dADN. Le co ut de ce sequencage est plus faible mais le
nombre derreurs est plus important.
Les technologies de sequencage ont largement evolue avec larrivee du sequencage
massif. A` lheure actuelle, de nouvelles initiatives se concentrent sur des echelles plus
fines : par exemple 1000 Genomes project concerne le sequencage de 1000 individus
humains. En pratique cela signifie que lon se concentre sur des marqueurs individuels
(variants) qui distinguent les individus entre eux.
10
I.1.3 Mod
elisation de s
equences
Ce cours est consacre a` la modelisation des sequences biologiques. Il sagit donc de
macro-molecules qui peuvent etre resumees par des chanes lineaires de nucleotides
ou dacides amines. Les technologies de sequencage permettent dobtenir la sequence
consensus dun organisme.
Dun point de vue mathematique, nous les representerons comme des sequences
finies de variables aleatoires a` valeurs dans un alphabet A fini. Nous nous interesserons
a` differents types de sequences :
S equences dADN (gènes, promoteurs, chromosomes, . . .) dalphabet A =
{A, C, G, T }.
S equences proteiques, dalphabet A = {20 acides amines } ={Ala, Cys, Asp,
Glu, . . .}.
S equences dARN, dalphabet A = {A, C, G, U }.
Toutes ces sequences peuvent avoir ete obtenues par des technologies differentes.
Il existe de nombreuses bases de donnees de sequences disponibles sur internet,
regulièrement mises a` jour. Citons en particulier
S equences nucleotidiques : GenBank, http://www.ncbi.nlm.nih.gov/genbank/
Bases de donn ees de genomes complets : Ensembl, http://www.ensembl.
org/ (vertebres : humain, souris, . . .) et Ensembl Genomes, http://ensemblgenomes.
org/ (bacteries, champignons, plantes,. . .)
S equences proteiques : UniProt, http://www.uniprot.org/, Swiss-Prot
(version manuellement corrigee dUniProt), PROSITE, http://prosite.expasy.
org/ (famille de proteines et de domaines proteiques).
Une fois obtenues, ces sequences doivent etre analysees pour en extraire de linfor-
mation biologique. De par la taille des donnees et le bruit de mesure (technologique
ou biologique), il est necessaire dutiliser pour cela des modèles aleatoires et des
techniques informatiques. Cest lobjet de la bio-informatique, qui a emerge (envi-
ron) dans les annees 1970 et a commence à prendre de lampleur dans les annees
1990 jusquà devenir une discipline a` part entière.
Parmi les plus anciennes questions posees par lanalyse des sequences biologiques,
on trouve
Quelle est la localisation des g` enes sur les chromosomes (position et sens
de lecture) ? Combien y en a-t-il ? Quelle est leur structure (exons/introns
par ex) ? Quelles sont leurs sequences promotrices ? Forment-ils des operons ?
Cest lannotation des sequences.
Où se trouvent dautres motifs fonctionnels, tels que les cross-over hotspot
instigators (ou sites chi, localises dans les genomes bacteriens), les sites de
11
restriction, de regulation, sites actifs de proteines . . . ? Cest la detection de
motifs.
Comment explique-t-on les differences entre genomes despèces differentes
mais proches ? Cest la modelisation de levolution des sequences.
Comment peut-on comparer des genomes despèces proches ? Cest (par exemple)
via lalignement de sequences.
Comment infère-t-on des relations ancestrales entre les espèces (et leurs sequences) ?
Cest la reconstruction phylogenetique.
Toutes ces questions necessitent le developpement doutils automatiques qui

intègrent une composante de modelisation. Les outils mathematiques que nous presenterons
dans ce cours permettent dy repondre. Ainsi, nous nous interesserons à la recherche
de motifs, definis comme de courtes sequences dont les occurrences presentent un
comportement inattendu, cest-à-dire a) nombre trop frequent ou trop rare ; ou bien
b) dont la composition est differente du reste de la sequence. En definissant un
modèle nul (qui est ce à quoi on sattend à partir de linformation dejà connue), on
peut alors tester si a) le nombre doccurrences dun mot est trop grand ou trop petit
par rapport a` ce modèle nul ; ou bien b) la distribution des lettres de ce mot est
differente de celle du modèle. Les chanes de Markov ou chanes de Markov cachees
sont des outils adaptes pour repondre a` ces questions. Dans certains cas, il sagit
dobtenir de linformation à partir de la sequence uniquement ; dans dautres cas,
on cherchera a` comparer la sequence à celles dorganismes sur lesquels on possède
dejà de linformation. Cest lobjet de la genomique comparative. Pour comprendre
les differences entre 2 copies dun gène dans des espèces proches mais distinctes, on
utilisera en particulier des modèles de mutation de sequence, qui sont des chanes
de Markov à temps continu.
Rappelons pour conclure cette introduction quun modèle mathematique nest

jamais vrai mais quil a besoin detre utile. Cela signifie quil doit a` la fois rester
simple (pour pouvoir etre manipule du point de vue mathematique ou informa-
tique) et egalement r ealiste : ces deux proprietes se contredisant, il est necessaire
de trouver un equilibre. Rappelons egalement quil est absolument necessaire de
bien comprendre les hypothèses sous-jacentes a` un modèle et ses limites, sans quoi
linterpretation biologique que lon fait peut-etre complètement faussee.
12
I.2 Chanes de Markov (`
a temps discret et espace
d
etats finis)
I.2.1 Mod`
ele i.i.d.
Une sequence biologique est vue comme une suite de variables aleatoires X1 , . . . , Xn
(que lon notera egalement X1:n ) à valeurs dans un alphabet A.
Le modèle aleatoire de sequence le plus simple est le modèle o`
u toutes les variables
sont supposees independantes et identiquement distribuees (i.i.d.). Cela signifie que
chaque site de la sequence prend une valeur dans A independamment des autres
sites et suivant une distribution des lettres = ((a), a A) qui est la meme en
P
chaque site. Noter que (a) 0 et aA (a) = 1.
La probabilite dobserver une suite x1 , . . . , xn sous le modèle i.i.d. est donnee par
n
Y Y
P(X1 = x1 , . . . , Xn = xn ) = (xi ) = (a)n(a) ,
i=1 aA
u n(a) = ni=1 1{xi = a} est le nombre doccurrences de la lettre a dans la sequence

P
o`
x1 , . . . , xn . Comme est le paramètre de ce modèle, on notera P la loi sous ce
paramètre. Noter que la dimension de lespace des paramètres (nombre de variables
libres) est |A| 1.
Du point de vue statistique, on estime la loi a` partir des frequences observees
sur cette sequence. En effet, la log-vraisemblance 1 sous le modèle i.i.d. secrit
X
`n () = log P (X1 , . . . , Xn ) = N (a) log (a),
aA
avec N (a) = ni=1 1{Xi = a}. (On distingue la variable aleatoire N (a) de sa valeur
P
prise n(a) pour une observation). Ainsi, on verifie facilement 2 que lestimateur du
maximum de vraisemblance de secrit
N (a)
a A,
(a) = .
n
Cependant, on constate rapidement que ce modèle est assez mauvais car il
sajuste très mal aux observations. En effet, on observe que les frequences des di-
nucleotides (i.e. les sequences de longueur 2) different beaucoup du produit des
1. Dans ce cours, tous les logarithmes sont des logarithmes neperiens.

2. Verifiez le `
a titre dexercice. Indice : noubliez pas la contrainte sur !
13
frequences des nucleotides, ce qui ne devrait pas etre le cas dans un modèle i.i.d. (et
ce pour des sequences assez longues). Ainsi, dans un modèle i.i.d. on a a, b A,
P (X1 = a, X2 = b) = P (X1 = a)P (X2 = b) = (a)(b).
Or daprès la loi des grands nombres, on a egalement
N (ab) N (a)
fab = P (X1 = a, X2 = b), et fa = (a),
n1 n+ n n+
u N (ab) = n1
P
o` i=1 1{Xi = a, Xi+1 = b} est le nombre doccurrences du dinucl
eotide
ab. Cependant, on constate sur des sequences assez longues que
N (ab) N (a) N (b)

fab = fa fb = .
n1 n n
Enfin, il est naturel de supposer que les lettres ne sont pas independantes : par
exemple, les ilots CpG sont des regions genomiques avec une frequence très elevee
du dinucleotide CG. Dans ces regions, la probabilite dobserver un G après un C est
plus forte que celle dobserver un A après un C.
Le modèle mathematique le plus simple de variables aleatoires dependantes est
celui des chanes de Markov.
I.2.2 Rappels sur les chanes de Markov (dordre 1)

Dun point de vue heuristique, une chane de Markov est une suite de variables
aleatoires dependantes, caracterisees par la propriete suivante : le futur ne depend
du passe que par le present. Une formulation mathematique plus precise est donnee
ci-dessous.
D efinition. Soit {Xn }n1 une suite de variables aleatoires a` valeurs dans un espace
detats fini (ou denombrable) A. On dit que {Xn }n1 est une chane de Markov
homogène si i 1, x1 , . . . xi+1 A, on a
P(Xi+1 = xi+1 |X1 = x1 , . . . , Xi = xi ) = P(Xi+1 = xi+1 |Xi = xi ) = p(xi , xi+1 ).
La fonction p : A2 [0, 1] est la transition de la chane de Markov. La chane

est dite homogène car cette transition ne depend pas de la position i consideree.
Lorsque A est fini, p est aussi une matrice stochastique : ses entrees sont positives
P
p(a, b) 0 et les sommes de ses lignes valent 1, i.e. bA p(a, b) = 1 pour tout a A.
14
Exemple. Sur lalphabet A = {A, C, G, T }, on considère la matrice de transition

0.7 0.1 0.1 0.1
0.2 0.4 0.3 0.1

p= . (I.1)
0.25 0.25 0.25 0.25
0.05 0.25 0.4 0.3
Alors on a en particulier,
p(2, 3) = P(Xk+1 = G|Xk = C) = 0.3.

A avec proba 0.7
Lorsque Xk = A on a Xk+1 = .
C, G ou T avec proba 0.1
Lorsque Xk = G, la variable Xk+1 est tiree uniformement sur A.
La Figure I.11 est une representation sous forme dautomate de cette chane de
Markov. Le poids dune arete a b indique la probabilite de transition p(a, b) =
P(Xi+1 = b|Xi = a). Dans cette representation, on nindique pas les boucles (tran-
sition de a vers a) mais il faut se souvenir que ces transitions existent. Leur pro-
babilite peut etre obtenue a` partir des poids des autres aretes et de la relation
P
bA p(a, b) = 1.
0.1 0.4
0.25 0.25
0.05
0.25 A T 0.3
0.1
0.2 0.25
0.1 0.1
Figure I.11 Representation sous forme dautomate de la matrice de transi-

tion (I.1).
Exercice. Remarquez que les modèles i.i.d. peuvent etre vus comme un cas parti-
culier de chane de Markov et donnez la matrice de transition p dune suite i.i.d. de
distribution .
15
Propri et
es des chanes de Markov. Nous allons tout dabord considerer la
probabilite dobserver une sequence particulière sous le modèle de chane de Markov.
Pour cela, il faut
Specifier la distribution de X1 , egalement appelee loi initiale, (a) = P(X1 =
P
a) pour tout a A. Noter que (a) 0 et aA (a) = 1,
Par exemple, = (1/4, 1/4, 1/4, 1/4) est la loi uniforme sur A = {A, C, G, T },
tandis que = (0, 0, 1, 0) donne X1 = G presque s urement.
Se donner une matrice de transition p sur lalphabet A.
La loi dune chane de Markov est dons parametree par le couple (, p) et on

notera P,p la distribution sous le paramètre (, p). La dimension de lespace des
paramètres est ici |A| 1 pour la loi initiale et |A|(|A| 1) pour la matrice de
transition p. On obtient pour tout n 1, (x1 , . . . , xn ) An ,
n
Y
P,p (X1 = x1 , . . . , Xn = xn ) = (x1 ) p(xi1 , xi ). (I.2)
i=2
Ainsi, la probabilite dobserver une sequence est donnee par le produit des probabi-
lites de transitions et du terme de probabilite initial.
Exercice. Prouver la formule (I.2). Indice : par recursion sur n.
Exemple. La probabilite dobserver la sequence AACT T T GAC sous un modèle de

chane de Markov de loi initiale et de matrice de transition p est donnee par
P(AACT T T GAC) = (A)p(A, A)p(A, C)p(C, T )p(T, T )2 p(T, G)p(G, A)p(A, C).
La log-vraisemblance dune sequence X1:n sous un modèle de chane de Markov
de loi initiale et matrice de transition p est donc donnee par
X X
`n (, p) = log P,p (X1 , . . . , Xn ) = 1{X1 = a} log (a) + N (ab) log p(a, b),
aA a,bA
(I.3)
o`
u N (ab) est le nombre doccurrences du dinucleotide ab dans la sequence X1 . . . Xn .
Demonstration. Daprès (I.2), on a
n
X
log P,p (X1 , . . . , Xn ) = log (X1 ) + log p(Xi1 , Xi )
i=2
X n
X X
= 1{X1 = a} log (a) + 1{Xi = a, Xi+1 = b} log p(a, b),
aA a,bA i=2
do`
u le resultat.
16
On va maintenant sinteresser à la distribution dun site quelconque de la sequence
(i.e. aux lois marginales de la chane de Markov). De facon generale, on va noter
A = {1, . . . , Q} lalphabet et = ((1), . . . , (Q)) la loi initiale vue comme un
vecteur ligne. Enfin on note p = (p(i, j))1i,jQ la matrice de transition. Alors on
obtient
P,p (Xn = a) = (pn )(a), a A,
u pn est la puissance nième de la matrice p et pn est le produit dun vecteur ligne
o`
par une matrice.
Demonstration. Par induction : soit n le vecteur ligne qui contient les probabilites
P,p (Xn = a). Alors, pour tout a A,
X
n (a) = P,p (Xn = a) = P,p (Xn1 = b, Xn = a)
bA
X
= P,p (Xn1 = b)P(Xn = a|Xn1 = b)
bA
X
= n1 (b)p(b, a) = (n1 p)(a).
bA
De la meme facon, pour tous a, b A et tout k 0, on a
pn (a, b) = P,p (Xn = b|X1 = a) = P,p (Xk+n = b|Xk+1 = a).
Exercice. Prouver la relation precedente.
Exercice. Prendre la matrice p donnee par (I.1) et calculer P,p (X7 = C|X5 = T ).
Une chane de Markov {Xn }n1 est dite stationnaire si toutes les variables Xi
ont la meme loi ? . Lorsquelle existe, la loi stationnaire ? doit satisfaire la relation
suivante
?p = ?,
i.e. ? est un vecteur propre a` gauche de la matrice p pour la valeur propre 1. Notez
que la loi stationnaire depend uniquement de la matrice de transition de la chane.
Exercice. Prouver cette relation.
Une chane de Markov dont la loi initiale est la loi stationaire ? associee a`
sa transition p, est automatiquement stationnaire. Lexistence et lunicite des lois
stationnaires est abordee dans le resultat suivant.
17
Th eorème I.1 (admis). Pour tout espace detats fini A, sil existe un entier m 1
tel que a, b A, on ait pm (a, b) > 0, alors la loi stationnaire ? existe et est unique.
De plus, (quelque soit la loi initiale de la chane), on a
a, b A, pn (a, b) ? (b).
n+
Consequence : les longues sequences generees sous un modèle de Markov ont

tendance à perdre la trace de leur distribution initiale et la distribution dun site
tend (quand la position du site augmente) a` devenir la loi stationnaire. Remarquons
que cette propriete est au fondement des methodes de Monte Carlo par chanes de
Markov (MCMC).
Exercice. Considerez la matrice p donnee par (I.1) et calculez sa loi stationnaire.
Estimation des param` etres. Considerons une suite X1 , . . . , Xn que lon suppose
generee selon une chane de Markov. On cherche a` estimer la matrice de transition
p de la chane qui a genere ces observations.
Daprès (I.3), lestimateur du maximum de vraisemblance p de la matrice de
transition est donne par
N (ab)
a, b A, p(a, b) = ,
N (a)
P
u N (a) = bA N (ab).
o`
Consequence : le comptage des dinucleotides de la sequence caracterise lestima-
teur des probabilites de transition. En ce sens, ce comptage caracterise entièrement
la sequence du point de vue de sa modelisation par une chane de Markov dordre 1.
P
Demonstration. Daprès (I.3), on veut maximiser a,bA N (ab) log p(a, b) en les pa-
P
ramètres {p(a, b), a, b A}, sous les contraintes bA p(a, b) = 1 pour tout a A.
P
On introduit des multiplicateurs de Lagrange a pour chaque contrainte bA p(a, b)
1 = 0, et on se ramène au problème
X X X
sup N (ab) log p(a, b) + a p(a, b) 1 .
{a ,p(a,b)}a,bA a,bA aA bA
En derivant, on obtient lensemble dequations

(
N (ab)
+ a = 0, (a, b) A2
P p(a,b)
aA p(a, b) 1 = 0, a A
ce qui etablit que le resultat annonce correspond a` un point singulier. Il reste à

verifier quil sagit bien dun maximum : la Hessienne est definie negative.
18
Il faut noter que lestimateur du maximum de vraisemblance de la loi initiale
nest pas satisfaisant : si on cherche le maximiseur de (I.3) en , on obtient
(a) = 1{Xi = a} pour tout a A ce qui ne donne pas un bon estimateur. (En
effet, si X1 = A on va poser = (1, 0, 0, 0) mais il nest pas raisonnable de considerer

que la probabilite davoir eu X1 = C etait nulle).
Souvent, on suppose que la sequence est en regime stationnaire et alors plusieurs
solutions sont possibles pour estimer :
On peut chercher un vecteur propre a ` gauche pour la valeur propre 1 de
lestimateur p. Linconvenient de cette methode, outre quelle est un peu
complexe, est que meme si p admet une loi stationnaire il est possible que p
nen possède pas.
Puisquen r egime stationnaire la loi ? est la distribution de tous les Xi on
peut choisir destimer la loi initiale via les frequences sur toute la sequence.
Ainsi on pose (a) = N (a)/n, pour tout a A. Linconvenient est que
nest (en general) pas la loi stationnaire associee a` p.
Exercice. 1) On observe la sequence suivante X1:20 = CCCACGACGTATATTTC-

GAC que lon suppose generee sous un modèle de Markov. Donnez la valeur de
lestimateur p de la matrice de transition p.

2) Ecrire une fonction sous R qui fait cela pour nimporte quelle sequence (sur lal-
phabet A = {A, C, G, T } ou un alphabet fini fixe).
19
Bibliographie
R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Biological sequence analysis :

probabilistic models of proteins and nucleic acids. Cambridge University Press,
Cambridge, UK, 1998.
J. Felsenstein. Inferring phylogenies. Sinauer Associates, 2004.
Olivier Gascuel and Mike A. Steel, editors. Reconstructing evolution : new mathe-
matical and computational advances. Oxford university press, Oxford, 2007.
T. Lionnet and V. Croquette. Introduction a` la Biologie Moleculaire. Cours en ligne,

2005. URL http://pimprenelle.lps.ens.fr/biolps/sites/default/files/
teaching/4/my_biomol.pdf.
G. Nuel and B. Prum. Analyse Statistique des Sequences Biologiques. Hermes

Sciences, 2007.
Z. Yang. Computational Molecular Evolution. Oxford Series in Ecology and Evolu-

tion. Oxford University Press, 2006.
20

Modélisation Statistique de Séquences Pour La Bio-Informatique

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modélisation Statistique de Séquences Pour La Bio-Informatique

Încărcat de

Drepturi de autor:

Formate disponibile

Notes de cours : Mod

Attention : ces notes contiennent certainement des erreurs et des imprecisions.

Structure du vivant et de linformation g enetique. Le vivant est constitue

Figure I.1 Schema de cellule eucaryote.

Homo sapiens, Rhesus macaque, souris, animaux d elevage, C. elegans nematode,

Linformation genetique est (essentiellement) stockee dans les chromosomes, eux-

paires de bases histones

Figure I.2 Schema de structure de linformation genetique.

Figure I.4 Schema de replication dune molecule dADN.

Cette replication, dite semi-conservative, est globalement tr`es fid`ele. Cependant,

Expression et r egulation de linformation g enetique. Chaque cellule dun

Figure I.5 Schema global de transcription et de traduction dun g`ene en proteine.

Figure I.6 Schema de letape de transcription dun g`ene en ARN messager.

Ce dogme doit cependant etre affine en tenant compte de plusieurs phenom`enes.

la production des proteines en fonction des besoins (instantanes) de la cellule. Tout

Exemple : Loperon lactose. La -galactosidase est une enzyme qui initie la

Exemple : l epissage alternatif. Il sagit dune modification post-transcriptionnelle

Figure I.9 Schema de fonctionnement de lepissage alternatif.

Le g enome dun organisme et la variabilit e genetique. Le genome dun

I.1.2 Bref historique du s

Figure I.10 Sequencage dit shotgun (methode de Sanger et co-auteurs).

Toutes ces questions necessitent le developpement doutils automatiques qui

Rappelons pour conclure cette introduction quun mod`ele mathematique nest

u n(a) = ni=1 1{xi = a} est le nombre doccurrences de la lettre a dans la sequence

1. Dans ce cours, tous les logarithmes sont des logarithmes neperiens.

P (X1 = a, X2 = b) = P (X1 = a)P (X2 = b) = (a)(b).

Or dapr`es la loi des grands nombres, on a egalement

N (ab) N (a) N (b)

I.2.2 Rappels sur les chanes de Markov (dordre 1)

P(Xi+1 = xi+1 |X1 = x1 , . . . , Xi = xi ) = P(Xi+1 = xi+1 |Xi = xi ) = p(xi , xi+1 ).

La fonction p : A2 [0, 1] est la transition de la chane de Markov. La chane

Figure I.11 Representation sous forme dautomate de la matrice de transi-

La loi dune chane de Markov est dons parametree par le couple (, p) et on

Exemple. La probabilite dobserver la sequence AACT T T GAC sous un mod`ele de

De la meme facon, pour tous a, b A et tout k 0, on a

pn (a, b) = P,p (Xn = b|X1 = a) = P,p (Xk+n = b|Xk+1 = a).

Exercice. Prouver la relation precedente.

Exercice. Prouver cette relation.

Consequence : les longues sequences generees sous un mod`ele de Markov ont

Exercice. Considerez la matrice p donnee par (I.1) et calculez sa loi stationnaire.

En derivant, on obtient lensemble dequations

ce qui etablit que le resultat annonce correspond a` un point singulier. Il reste `a

effet, si X1 = A on va poser = (1, 0, 0, 0) mais il nest pas raisonnable de considerer

Exercice. 1) On observe la sequence suivante X1:20 = CCCACGACGTATATTTC-

R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Biological sequence analysis :

J. Felsenstein. Inferring phylogenies. Sinauer Associates, 2004.

T. Lionnet and V. Croquette. Introduction a` la Biologie Moleculaire. Cours en ligne,

G. Nuel and B. Prum. Analyse Statistique des Sequences Biologiques. Hermes

Z. Yang. Computational Molecular Evolution. Oxford Series in Ecology and Evolu-

S-ar putea să vă placă și