Sunteți pe pagina 1din 20

Notes de cours : Mod

elisation statistique de
s
equences pour la bio-informatique

M1 Universit
e Pierre et Marie Curie

Catherine Matias

1
Table des mati`
eres

Avant-propos 3

I Analyse de sequences 4
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
I.1.1 Courte introduction de biologie moleculaire . . . . . . . . . . . 4
I.1.2 Bref historique du sequencage . . . . . . . . . . . . . . . . . . 10
I.1.3 Modelisation de sequences . . . . . . . . . . . . . . . . . . . . 11
I.2 Chanes de Markov (`a temps discret et espace detats finis) . . . . . . 13
I.2.1 Mod`ele i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.2.2 Rappels sur les chanes de Markov (dordre 1) . . . . . . . . . 14

2
Avant-propos

Attention : ces notes contiennent certainement des erreurs et des imprecisions.


Nhesitez pas a` me les signaler.
Citons ici quelques ouvrages de reference qui pourront completer la lecture de
ces notes. Tout dabord, une bonne introduction a` la biologie moleculaire est donnee
dans Lionnet and Croquette [2005]. Les livres Durbin et al. [1998], Nuel and Prum
[2007] compl`etent les th`emes abordes au Chapitre I. Le livre de Yang [2006] compl`ete
le Chapitre ?? et en particulier la Section ??. Enfin, les livres Felsenstein [2004],
Gascuel and Steel [2007] compl`etent le dernier Chapitre ??.

3
Chapitre I

Analyse de s
equences

I.1 Introduction
I.1.1 Courte introduction de biologie mol
eculaire
On rappelle ici quelques grandes lignes de la biologie moleculaire. Nous reste-
rons volontairement tr`es generaux dans cette description (qui par ailleurs comporte
certainement de grossi`eres approximations).

Structure du vivant et de linformation g enetique. Le vivant est constitue


de 3 grands r`egnes : les bacteries (ou eubacteries), les archees et les eucaryotes.
Les bacteries et les archees sont procaryotes i.e. leurs cellules ne contiennent pas de
noyau. Les eucaryotes sont des organismes dont les cellules poss`edent un noyau (Fi-
gure I.1). Ce r`egne comprend entre autres les animaux, les plantes, les champignons,
les protistes . . . .

Figure I.1 Schema de cellule eucaryote.

4
Les biologistes travaillent souvent sur des organismes mod`eles, comme par exemple
Escherichia coli, Bacillus subtilis : qui sont des bact eries,
Arabidopsis thaliana (ou arabette) : une plante facile ` a reproduire et conserver
en laboratoire ; les plantes liees `a lalimentation humaine comme les cultures
cereali`eres sont egalement tr`es etudiees,
Saccharomyces cerevisiae : levure (champignons),

Homo sapiens, Rhesus macaque, souris, animaux d elevage, C. elegans nematode,


...
Drosophila melanogaster (ou mouche du vinaigre) . . .

Linformation genetique est (essentiellement) stockee dans les chromosomes, eux-


meme stockes dans le noyau lorsque la cellule est eucaryote. Chez lHomme, on
compte 22 paires de chromosomes plus une paire de chromosomes sexuels (Fi-
gure I.2). Un chromosome est une tr`es longue molecule lineaire dADN (acide desoxyribo-
nucleique).
14/08/11 20:33

chromosome
noyau
tlomre

centromre

cellule tlomre
chromatides

nuclosomes

paires de bases histones

ADN
double brins

Figure I.2 Schema de structure de linformation genetique.


http://upload.wikimedia.org/wikipedia/commons/2/2a/Chromosome_fr.svg Page 1 sur 1

La structure de lADN a ete mise a` jour par Watson et Crick en 1953 (utilisant
les travaux de cristallographie aux rayons X de Franklin et Wilkins). Un ADN est
une macro-molecule organisee en double-brin (ou double-helice, Figure I.3). Chaque
brin est identifie par la succession des bases azotees - egalement appeles nucleotides
- qui le composent : A (adenosine), C (cytosine), G (guanine) et T (thymine). Les
deux brins sont chimiquement orientes et leur appariement se fait tete-beche selon
la r`egle C/G et A/T.
LADN est une molecule qui doit frequemment etre repliquee pour permettre la
division cellulaire (Figure I.4). Cette replication de lADN est (partiellement) cause
de la variabilite de linformation genetique.

5
Figure I.3 Appariement des deux brins de lADN (gauche) et composition chi-
mique de ladenosine (droite).

Figure I.4 Schema de replication dune molecule dADN.

Cette replication, dite semi-conservative, est globalement tr`es fid`ele. Cependant,


quelques erreurs se produisent au cours du processus. Il peut sagir de mutations
ponctuelles (changement dun nucleotide en un autre) ou dinsertions/ deletions/
deplacements/ inversions de segments.

Expression et r egulation de linformation g enetique. Chaque cellule dun


organisme contient la meme copie du genome ; pourtant les cellules ont des roles
specifiques une cellule de peau et une cellule de rein nont pas le meme role. Pour
fonctionner et remplir son role, la cellule doit donc produire un certain nombre de
composes : les proteines. Les proteines sont des macro-molecules lineaires que lon
peut voir comme une succession (ou sequence) dacides amines (essentiellement au
nombre de 20). Ce processus de production sappelle lexpression de linformation

6
genetique.
Un g`ene est (grossi`erement) une petite unite dADN, qui code une proteine (Fi-
gure I.5). Le dogme central de la biologie moleculaire (propose dans les annees 70)
decrit les modalites de lexpression des g`enes. Celle-ci se fait en deux etapes : tout
dabord la transcription de lADN en ARN messager (Figure I.6) puis la traduction
de lARN messager en proteine via le code genetique (Figure I.7). LARN messager
est une petite molecule dARN (ou acide ribonucleique). LARN a globalement la
meme structure chimique que lADN mais la base azotee Thymine (T) y est rem-
placee par lUracile (U).

Figure I.5 Schema global de transcription et de traduction dun g`ene en proteine.

Figure I.6 Schema de letape de transcription dun g`ene en ARN messager.

Ce dogme doit cependant etre affine en tenant compte de plusieurs phenom`enes.


La regulation des g`enes est le mecanisme qui permet de declencher ou dinterrompre

7
Figure I.7 Schema de letape de traduction de lARN messager en proteine
(gauche) et code genetique (droite).

la production des proteines en fonction des besoins (instantanes) de la cellule. Tout


dabord, des sequences promotrices se trouvent en amont des g`enes et permettent
dinitier (ou pas) la transcription. La regulation peut seffectuer `a differentes etapes
du processus, avec divers modes operatoires :
au niveau de la transcription : les facteurs de transcription initient la trans-
cription `a partir des sequences promotrices. Leur controle permet la regulation
de lexpression : voir lexemple de loperon lactose,
au niveau post-transcriptionel : voir lexemple de lepissage alternatif,
au niveau post-traductionnel : modifications chimiques des proteines apr`es
leur synth`ese, . . .

Exemple : Loperon lactose. La -galactosidase est une enzyme qui initie la


chane du metabolisme du lactose en coupant le lactose en galactose et glucose. En
labsence de lactose dans le milieu, une proteine (represseur) se fixe sur lADN en
un site (operateur) qui bloque la transcription du g`ene de la -galactosidase (Fi-
gure I.8). En presence de lactose dans le milieu, un isom`ere du lactose, lallolactose,
saccroche sur le represseur et diminue ainsi son affinite pour lADN. La transcription
du g`ene est alors rendue possible. Ce syst`eme de regulation est nomme operon lac-
tose. (Un operon est un ensemble de g`enes regules par la meme sequence promotrice).

Exemple : l epissage alternatif. Il sagit dune modification post-transcriptionnelle


qui existe chez les cellules eucaryotes. Les g`enes sont organises en exons (qui seront
transcrits) et en introns (qui seront supprimes). Plusieurs proteines peuvent ainsi etre

8
Figure I.8 Schema du mecanisme de regulation de loperon lactose

obtenues a` partir du meme g`ene (Figure I.9). Lepissage alternatif existe egalement
chez les archees, mais pas chez les bacteries.

Figure I.9 Schema de fonctionnement de lepissage alternatif.

De nos jours, un g`ene est considere comme un segment dADN qui contribue au
phenotype ou a` une fonction biologique (au sens large).

Le g enome dun organisme et la variabilit e genetique. Le genome dun


organisme est lensemble des molecules dADN et dARN presentes dans ses cel-
lules : les chromosomes ; les ARNs (ARN messagers, ARN de transfert, . . .) de la
cellule ; plus, chez les eucaryotes, lADN mitochondrial. Chez lHomme, lensemble
du genome est compose de 3.4 milliards de nucleotides (ou paires de bases).
Les individus dune meme esp`ece ont des genomes essentiellement identiques.
Chaque individu poss`ede cependant un genome unique et son genome diff`ere de
celui dun autre individu de la meme esp`ece par des variants genetiques. On appelle

9
genome de reference le genome consensus dune esp`ece donnee. Cest un mod`ele de
sequence (ce genome nexiste pas en tant que tel). Dans ce cours, nous nous placons
au niveau des esp`eces : les sequences considerees sont des genomes de reference.

I.1.2 Bref historique du s


equencage
Le sequencage consiste `a determiner la suite des bases qui composent un brin
dADN. Les premi`eres techniques de sequencage sont dues `a Frederick Sanger et ses
co-auteurs et datent de 1977. Cette technique consiste a` fragmenter le brin `a etudier
en morceaux denviron 2000 a` 2500 bases qui seront ensuite amplifies (i.e. reproduits
en plusieurs exemplaires) puis sequences. Une etape dassemblage (informatique) est
necessaire pour reconstituer la sequence cible compl`ete (voir Figure I.10).

Figure I.10 Sequencage dit shotgun (methode de Sanger et co-auteurs).

` partir des annees 70-80, des initiatives internationales ont permis de cataloguer
A
les informations de sequence (`a lechelle des esp`eces) dans des bases de donnees
publiques (GenBank, EMBL, . . . ). Il a fallu environ 10 ans pour sequencer le genome
humain (`a lechelle de lesp`ece), le projet setant acheve en 2003.
Les techniques de sequencage developpees au milieu des annees 70 sont tr`es
couteuses et a` partir de 2005, de nouvelles technologies de sequencage ont vu le jour
(NGS pour next-generation sequencing ou HTS pour high-throughput sequencing).
Elles utilisent le sequencage massif (haut debit) et en parall`ele de tr`es petits frag-
ments (reads ou lectures) dADN. Le co ut de ce sequencage est plus faible mais le
nombre derreurs est plus important.
Les technologies de sequencage ont largement evolue avec larrivee du sequencage
massif. A` lheure actuelle, de nouvelles initiatives se concentrent sur des echelles plus
fines : par exemple 1000 Genomes project concerne le sequencage de 1000 individus
humains. En pratique cela signifie que lon se concentre sur des marqueurs individuels
(variants) qui distinguent les individus entre eux.

10
I.1.3 Mod
elisation de s
equences
Ce cours est consacre a` la modelisation des sequences biologiques. Il sagit donc de
macro-molecules qui peuvent etre resumees par des chanes lineaires de nucleotides
ou dacides amines. Les technologies de sequencage permettent dobtenir la sequence
consensus dun organisme.
Dun point de vue mathematique, nous les representerons comme des sequences
finies de variables aleatoires a` valeurs dans un alphabet A fini. Nous nous interesserons
a` differents types de sequences :
S equences dADN (g`enes, promoteurs, chromosomes, . . .) dalphabet A =
{A, C, G, T }.
S equences proteiques, dalphabet A = {20 acides amines } ={Ala, Cys, Asp,
Glu, . . .}.
S equences dARN, dalphabet A = {A, C, G, U }.
Toutes ces sequences peuvent avoir ete obtenues par des technologies differentes.
Il existe de nombreuses bases de donnees de sequences disponibles sur internet,
reguli`erement mises a` jour. Citons en particulier
S equences nucleotidiques : GenBank, http://www.ncbi.nlm.nih.gov/genbank/
Bases de donn ees de genomes complets : Ensembl, http://www.ensembl.
org/ (vertebres : humain, souris, . . .) et Ensembl Genomes, http://ensemblgenomes.
org/ (bacteries, champignons, plantes,. . .)
S equences proteiques : UniProt, http://www.uniprot.org/, Swiss-Prot
(version manuellement corrigee dUniProt), PROSITE, http://prosite.expasy.
org/ (famille de proteines et de domaines proteiques).

Une fois obtenues, ces sequences doivent etre analysees pour en extraire de linfor-
mation biologique. De par la taille des donnees et le bruit de mesure (technologique
ou biologique), il est necessaire dutiliser pour cela des mod`eles aleatoires et des
techniques informatiques. Cest lobjet de la bio-informatique, qui a emerge (envi-
ron) dans les annees 1970 et a commence `a prendre de lampleur dans les annees
1990 jusqu`a devenir une discipline a` part enti`ere.
Parmi les plus anciennes questions posees par lanalyse des sequences biologiques,
on trouve
Quelle est la localisation des g` enes sur les chromosomes (position et sens
de lecture) ? Combien y en a-t-il ? Quelle est leur structure (exons/introns
par ex) ? Quelles sont leurs sequences promotrices ? Forment-ils des operons ?
Cest lannotation des sequences.
O`u se trouvent dautres motifs fonctionnels, tels que les cross-over hotspot
instigators (ou sites chi, localises dans les genomes bacteriens), les sites de

11
restriction, de regulation, sites actifs de proteines . . . ? Cest la detection de
motifs.
Comment explique-t-on les differences entre genomes desp`eces differentes
mais proches ? Cest la modelisation de levolution des sequences.
Comment peut-on comparer des genomes desp`eces proches ? Cest (par exemple)
via lalignement de sequences.
Comment inf`ere-t-on des relations ancestrales entre les esp`eces (et leurs sequences) ?
Cest la reconstruction phylogenetique.

Toutes ces questions necessitent le developpement doutils automatiques qui


int`egrent une composante de modelisation. Les outils mathematiques que nous presenterons
dans ce cours permettent dy repondre. Ainsi, nous nous interesserons `a la recherche
de motifs, definis comme de courtes sequences dont les occurrences presentent un
comportement inattendu, cest-`a-dire a) nombre trop frequent ou trop rare ; ou bien
b) dont la composition est differente du reste de la sequence. En definissant un
mod`ele nul (qui est ce `a quoi on sattend `a partir de linformation dej`a connue), on
peut alors tester si a) le nombre doccurrences dun mot est trop grand ou trop petit
par rapport a` ce mod`ele nul ; ou bien b) la distribution des lettres de ce mot est
differente de celle du mod`ele. Les chanes de Markov ou chanes de Markov cachees
sont des outils adaptes pour repondre a` ces questions. Dans certains cas, il sagit
dobtenir de linformation `a partir de la sequence uniquement ; dans dautres cas,
on cherchera a` comparer la sequence `a celles dorganismes sur lesquels on poss`ede
dej`a de linformation. Cest lobjet de la genomique comparative. Pour comprendre
les differences entre 2 copies dun g`ene dans des esp`eces proches mais distinctes, on
utilisera en particulier des mod`eles de mutation de sequence, qui sont des chanes
de Markov `a temps continu.

Rappelons pour conclure cette introduction quun mod`ele mathematique nest


jamais vrai mais quil a besoin detre utile. Cela signifie quil doit a` la fois rester
simple (pour pouvoir etre manipule du point de vue mathematique ou informa-
tique) et egalement r ealiste : ces deux proprietes se contredisant, il est necessaire
de trouver un equilibre. Rappelons egalement quil est absolument necessaire de
bien comprendre les hypoth`eses sous-jacentes a` un mod`ele et ses limites, sans quoi
linterpretation biologique que lon fait peut-etre compl`etement faussee.

12
I.2 Chanes de Markov (`
a temps discret et espace
d
etats finis)
I.2.1 Mod`
ele i.i.d.
Une sequence biologique est vue comme une suite de variables aleatoires X1 , . . . , Xn
(que lon notera egalement X1:n ) `a valeurs dans un alphabet A.
Le mod`ele aleatoire de sequence le plus simple est le mod`ele o`
u toutes les variables
sont supposees independantes et identiquement distribuees (i.i.d.). Cela signifie que
chaque site de la sequence prend une valeur dans A independamment des autres
sites et suivant une distribution des lettres = ((a), a A) qui est la meme en
P
chaque site. Noter que (a) 0 et aA (a) = 1.

La probabilite dobserver une suite x1 , . . . , xn sous le mod`ele i.i.d. est donnee par
n
Y Y
P(X1 = x1 , . . . , Xn = xn ) = (xi ) = (a)n(a) ,
i=1 aA

u n(a) = ni=1 1{xi = a} est le nombre doccurrences de la lettre a dans la sequence


P
o`
x1 , . . . , xn . Comme est le param`etre de ce mod`ele, on notera P la loi sous ce
param`etre. Noter que la dimension de lespace des param`etres (nombre de variables
libres) est |A| 1.
Du point de vue statistique, on estime la loi a` partir des frequences observees
sur cette sequence. En effet, la log-vraisemblance 1 sous le mod`ele i.i.d. secrit
X
`n () = log P (X1 , . . . , Xn ) = N (a) log (a),
aA

avec N (a) = ni=1 1{Xi = a}. (On distingue la variable aleatoire N (a) de sa valeur
P

prise n(a) pour une observation). Ainsi, on verifie facilement 2 que lestimateur du
maximum de vraisemblance de secrit
N (a)
a A,
(a) = .
n
Cependant, on constate rapidement que ce mod`ele est assez mauvais car il
sajuste tr`es mal aux observations. En effet, on observe que les frequences des di-
nucleotides (i.e. les sequences de longueur 2) different beaucoup du produit des

1. Dans ce cours, tous les logarithmes sont des logarithmes neperiens.


2. Verifiez le `
a titre dexercice. Indice : noubliez pas la contrainte sur !

13
frequences des nucleotides, ce qui ne devrait pas etre le cas dans un mod`ele i.i.d. (et
ce pour des sequences assez longues). Ainsi, dans un mod`ele i.i.d. on a a, b A,

P (X1 = a, X2 = b) = P (X1 = a)P (X2 = b) = (a)(b).

Or dapr`es la loi des grands nombres, on a egalement

N (ab) N (a)
fab = P (X1 = a, X2 = b), et fa = (a),
n1 n+ n n+

u N (ab) = n1
P
o` i=1 1{Xi = a, Xi+1 = b} est le nombre doccurrences du dinucl
eotide
ab. Cependant, on constate sur des sequences assez longues que

N (ab) N (a) N (b)


fab =  fa fb = .
n1 n n

Enfin, il est naturel de supposer que les lettres ne sont pas independantes : par
exemple, les ilots CpG sont des regions genomiques avec une frequence tr`es elevee
du dinucleotide CG. Dans ces regions, la probabilite dobserver un G apr`es un C est
plus forte que celle dobserver un A apr`es un C.
Le mod`ele mathematique le plus simple de variables aleatoires dependantes est
celui des chanes de Markov.

I.2.2 Rappels sur les chanes de Markov (dordre 1)


Dun point de vue heuristique, une chane de Markov est une suite de variables
aleatoires dependantes, caracterisees par la propriete suivante : le futur ne depend
du passe que par le present. Une formulation mathematique plus precise est donnee
ci-dessous.

D efinition. Soit {Xn }n1 une suite de variables aleatoires a` valeurs dans un espace
detats fini (ou denombrable) A. On dit que {Xn }n1 est une chane de Markov
homog`ene si i 1, x1 , . . . xi+1 A, on a

P(Xi+1 = xi+1 |X1 = x1 , . . . , Xi = xi ) = P(Xi+1 = xi+1 |Xi = xi ) = p(xi , xi+1 ).

La fonction p : A2 [0, 1] est la transition de la chane de Markov. La chane


est dite homog`ene car cette transition ne depend pas de la position i consideree.
Lorsque A est fini, p est aussi une matrice stochastique : ses entrees sont positives
P
p(a, b) 0 et les sommes de ses lignes valent 1, i.e. bA p(a, b) = 1 pour tout a A.

14
Exemple. Sur lalphabet A = {A, C, G, T }, on consid`ere la matrice de transition

0.7 0.1 0.1 0.1
0.2 0.4 0.3 0.1

p= . (I.1)
0.25 0.25 0.25 0.25
0.05 0.25 0.4 0.3

Alors on a en particulier,
p(2, 3) = P(Xk+1 = G|Xk = C) = 0.3.

A avec proba 0.7
Lorsque Xk = A on a Xk+1 = .
C, G ou T avec proba 0.1
Lorsque Xk = G, la variable Xk+1 est tiree uniformement sur A.
La Figure I.11 est une representation sous forme dautomate de cette chane de
Markov. Le poids dune arete a b indique la probabilite de transition p(a, b) =
P(Xi+1 = b|Xi = a). Dans cette representation, on nindique pas les boucles (tran-
sition de a vers a) mais il faut se souvenir que ces transitions existent. Leur pro-
babilite peut etre obtenue a` partir des poids des autres aretes et de la relation
P
bA p(a, b) = 1.

0.1 0.4

0.25 0.25
0.05
0.25 A T 0.3
0.1
0.2 0.25

0.1 0.1

Figure I.11 Representation sous forme dautomate de la matrice de transi-


tion (I.1).

Exercice. Remarquez que les mod`eles i.i.d. peuvent etre vus comme un cas parti-
culier de chane de Markov et donnez la matrice de transition p dune suite i.i.d. de
distribution .

15
Propri et
es des chanes de Markov. Nous allons tout dabord considerer la
probabilite dobserver une sequence particuli`ere sous le mod`ele de chane de Markov.
Pour cela, il faut
Specifier la distribution de X1 , egalement appelee loi initiale, (a) = P(X1 =
P
a) pour tout a A. Noter que (a) 0 et aA (a) = 1,
Par exemple, = (1/4, 1/4, 1/4, 1/4) est la loi uniforme sur A = {A, C, G, T },
tandis que = (0, 0, 1, 0) donne X1 = G presque s urement.
Se donner une matrice de transition p sur lalphabet A.

La loi dune chane de Markov est dons parametree par le couple (, p) et on


notera P,p la distribution sous le param`etre (, p). La dimension de lespace des
param`etres est ici |A| 1 pour la loi initiale et |A|(|A| 1) pour la matrice de
transition p. On obtient pour tout n 1, (x1 , . . . , xn ) An ,
n
Y
P,p (X1 = x1 , . . . , Xn = xn ) = (x1 ) p(xi1 , xi ). (I.2)
i=2

Ainsi, la probabilite dobserver une sequence est donnee par le produit des probabi-
lites de transitions et du terme de probabilite initial.
Exercice. Prouver la formule (I.2). Indice : par recursion sur n.

Exemple. La probabilite dobserver la sequence AACT T T GAC sous un mod`ele de


chane de Markov de loi initiale et de matrice de transition p est donnee par
P(AACT T T GAC) = (A)p(A, A)p(A, C)p(C, T )p(T, T )2 p(T, G)p(G, A)p(A, C).
La log-vraisemblance dune sequence X1:n sous un mod`ele de chane de Markov
de loi initiale et matrice de transition p est donc donnee par

X X
`n (, p) = log P,p (X1 , . . . , Xn ) = 1{X1 = a} log (a) + N (ab) log p(a, b),
aA a,bA
(I.3)
o`
u N (ab) est le nombre doccurrences du dinucleotide ab dans la sequence X1 . . . Xn .
Demonstration. Dapr`es (I.2), on a
n
X
log P,p (X1 , . . . , Xn ) = log (X1 ) + log p(Xi1 , Xi )
i=2
X n
X X
= 1{X1 = a} log (a) + 1{Xi = a, Xi+1 = b} log p(a, b),
aA a,bA i=2

do`
u le resultat.

16
On va maintenant sinteresser `a la distribution dun site quelconque de la sequence
(i.e. aux lois marginales de la chane de Markov). De facon generale, on va noter
A = {1, . . . , Q} lalphabet et = ((1), . . . , (Q)) la loi initiale vue comme un
vecteur ligne. Enfin on note p = (p(i, j))1i,jQ la matrice de transition. Alors on
obtient
P,p (Xn = a) = (pn )(a), a A,
u pn est la puissance ni`eme de la matrice p et pn est le produit dun vecteur ligne
o`
par une matrice.

Demonstration. Par induction : soit n le vecteur ligne qui contient les probabilites
P,p (Xn = a). Alors, pour tout a A,
X
n (a) = P,p (Xn = a) = P,p (Xn1 = b, Xn = a)
bA
X
= P,p (Xn1 = b)P(Xn = a|Xn1 = b)
bA
X
= n1 (b)p(b, a) = (n1 p)(a).
bA

De la meme facon, pour tous a, b A et tout k 0, on a

pn (a, b) = P,p (Xn = b|X1 = a) = P,p (Xk+n = b|Xk+1 = a).

Exercice. Prouver la relation precedente.

Exercice. Prendre la matrice p donnee par (I.1) et calculer P,p (X7 = C|X5 = T ).

Une chane de Markov {Xn }n1 est dite stationnaire si toutes les variables Xi
ont la meme loi ? . Lorsquelle existe, la loi stationnaire ? doit satisfaire la relation
suivante
?p = ?,
i.e. ? est un vecteur propre a` gauche de la matrice p pour la valeur propre 1. Notez
que la loi stationnaire depend uniquement de la matrice de transition de la chane.

Exercice. Prouver cette relation.

Une chane de Markov dont la loi initiale est la loi stationaire ? associee a`
sa transition p, est automatiquement stationnaire. Lexistence et lunicite des lois
stationnaires est abordee dans le resultat suivant.

17
Th eor`eme I.1 (admis). Pour tout espace detats fini A, sil existe un entier m 1
tel que a, b A, on ait pm (a, b) > 0, alors la loi stationnaire ? existe et est unique.
De plus, (quelque soit la loi initiale de la chane), on a

a, b A, pn (a, b) ? (b).
n+

Consequence : les longues sequences generees sous un mod`ele de Markov ont


tendance `a perdre la trace de leur distribution initiale et la distribution dun site
tend (quand la position du site augmente) a` devenir la loi stationnaire. Remarquons
que cette propriete est au fondement des methodes de Monte Carlo par chanes de
Markov (MCMC).

Exercice. Considerez la matrice p donnee par (I.1) et calculez sa loi stationnaire.

Estimation des param` etres. Considerons une suite X1 , . . . , Xn que lon suppose
generee selon une chane de Markov. On cherche a` estimer la matrice de transition
p de la chane qui a genere ces observations.
Dapr`es (I.3), lestimateur du maximum de vraisemblance p de la matrice de
transition est donne par
N (ab)
a, b A, p(a, b) = ,
N (a)
P
u N (a) = bA N (ab).
o`
Consequence : le comptage des dinucleotides de la sequence caracterise lestima-
teur des probabilites de transition. En ce sens, ce comptage caracterise enti`erement
la sequence du point de vue de sa modelisation par une chane de Markov dordre 1.
P
Demonstration. Dapr`es (I.3), on veut maximiser a,bA N (ab) log p(a, b) en les pa-
P
ram`etres {p(a, b), a, b A}, sous les contraintes bA p(a, b) = 1 pour tout a A.
P
On introduit des multiplicateurs de Lagrange a pour chaque contrainte bA p(a, b)
1 = 0, et on se ram`ene au probl`eme
X X X 
sup N (ab) log p(a, b) + a p(a, b) 1 .
{a ,p(a,b)}a,bA a,bA aA bA

En derivant, on obtient lensemble dequations


(
N (ab)
+ a = 0, (a, b) A2
P p(a,b)
aA p(a, b) 1 = 0, a A

ce qui etablit que le resultat annonce correspond a` un point singulier. Il reste `a


verifier quil sagit bien dun maximum : la Hessienne est definie negative.

18
Il faut noter que lestimateur du maximum de vraisemblance de la loi initiale
nest pas satisfaisant : si on cherche le maximiseur de (I.3) en , on obtient
(a) = 1{Xi = a} pour tout a A ce qui ne donne pas un bon estimateur. (En

effet, si X1 = A on va poser = (1, 0, 0, 0) mais il nest pas raisonnable de considerer


que la probabilite davoir eu X1 = C etait nulle).
Souvent, on suppose que la sequence est en regime stationnaire et alors plusieurs
solutions sont possibles pour estimer :
On peut chercher un vecteur propre a ` gauche pour la valeur propre 1 de
lestimateur p. Linconvenient de cette methode, outre quelle est un peu
complexe, est que meme si p admet une loi stationnaire il est possible que p
nen poss`ede pas.
Puisquen r egime stationnaire la loi ? est la distribution de tous les Xi on
peut choisir destimer la loi initiale via les frequences sur toute la sequence.
Ainsi on pose (a) = N (a)/n, pour tout a A. Linconvenient est que
nest (en general) pas la loi stationnaire associee a` p.

Exercice. 1) On observe la sequence suivante X1:20 = CCCACGACGTATATTTC-


GAC que lon suppose generee sous un mod`ele de Markov. Donnez la valeur de
lestimateur p de la matrice de transition p.

2) Ecrire une fonction sous R qui fait cela pour nimporte quelle sequence (sur lal-
phabet A = {A, C, G, T } ou un alphabet fini fixe).

19
Bibliographie

R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Biological sequence analysis :


probabilistic models of proteins and nucleic acids. Cambridge University Press,
Cambridge, UK, 1998.

J. Felsenstein. Inferring phylogenies. Sinauer Associates, 2004.

Olivier Gascuel and Mike A. Steel, editors. Reconstructing evolution : new mathe-
matical and computational advances. Oxford university press, Oxford, 2007.

T. Lionnet and V. Croquette. Introduction a` la Biologie Moleculaire. Cours en ligne,


2005. URL http://pimprenelle.lps.ens.fr/biolps/sites/default/files/
teaching/4/my_biomol.pdf.

G. Nuel and B. Prum. Analyse Statistique des Sequences Biologiques. Hermes


Sciences, 2007.

Z. Yang. Computational Molecular Evolution. Oxford Series in Ecology and Evolu-


tion. Oxford University Press, 2006.

20

S-ar putea să vă placă și