Documente Academic
Documente Profesional
Documente Cultură
a. Etude de la biodiversité
i. Recensement des espèces
ii. Reconnaissance des barrières inter spécifiques
Caractérisation des populations de vaches en Afrique pour la FAO
iii. Caractérisation de la diversité génétique des espèces menacées
Guépard d'Afrique, Condor des Montagnes Rocheuses
i. Elevages d'animaux
Aquaculture (Huîtres), Pisciculture (Saumon, Truite, etc...)
ii. Réintroduction et management d'espèces disparues ou menacées par des
espèces proches
Ex: Tortues Caouanne en Méditerrannée, Bouquetin dans les Pyrénées,
Lynx en Suisse
iii. Banques de graines des espèces végétales
iv. Détermination d'espèces sauvages souches des espèces domestiques, pour
préserver la diversité génétique: Besoin d'identifier quelles sont ces espèces
souches.
c. Liens hôtes-parasites
i.Espèces hybrides
Ex: Fréquent chez les plantes
ii. Zones de tension, zones hybrides
Corneille et Mus musculus en Europe, mais aussi chez les grenouilles
et les sauterelles dans les Pyrénées
iii. Transfert horizontal de gènes d'une espèce à l'autre
Leghémoglobine chez les plantes, facteur P entre espèces de
Drosophile, vraisemblablement par le biais de vecteurs intermédiaires
et transposition.
e. Echanges génétiques entre populations
i. Migrations
ii. Caractérisation des flux migratoires entre populations
iii. Reconstruction de l'histoire du peuplement des espèces
iv. Assignation d'individus à des populations (migrants récents)
f. Barrières génétiques
ii. Comportementales
iii. Culturelles ou sociales (langues, coutumes).
i. Choix du conjoint
Peut-être pas aléatoire chez l'homme et la souris ou des individus
semblent préférer des partenaires possédant des spécificités différentes
de leur propre système HLA.
ii. Sytème de reproduction, consanguinité
Maladies génétiques: ex: Rendu Osler
i. Recontruction phylogénétiques
ii. Intraspécifiques
Estimation de temps de divergence entre populations
Mise en évidence de migrations
iii. Interspécifiques
Estimation de temps de divergence entre espèces
Mise en évidence de groupes monophylétiques
Taxonomie moléculaire
iv. Intergéniques
Estimation de temps de divergence entre gènes dupliqués
o Gènes de la globine: Apparition de nouveaux gènes au cours de
l'évolution, permettant de nouvelles adaptations.
i. Médecine légale
i. Empreintes génétiques
ii. Identification de suspects
j. Localisation de gènes
i. Gènes de maladies
Analyse de liaison dans des familles (linkage analysis)
Cartographie par étude de déséquilibre de liaison (linkage
disequilibrium mapping)
i. Clines
a. Séquences d'ADN
o Taux de mutation potentiellement hétérogènes
b. SNPs
o Sites nucléotidiques nécessairement polymorphes...
c. Microsatellites
o Modèle de mutation pas à pas avec beaucoup d'homoplasies
d. RAPD - AFLP
o Marqueurs dominants
Echantillonnage
En absence de forces évolutives telles que la sélection, les mutations ou la dérive génétique,
les fréquences génotypiques dépendent uniquement des fréquences alléliques si les individus
choisissent aléatoirement leur conjoint pour s'accoupler. Cette union aléatoire des individus
implique aussi une union aléatoire de leurs gamètes.
Ainsi, pour un individu diploide, la fréquence attendue du génotype formé des allèles Ai et
Aj ayant comme fréquences respectives pi et pj sera de
Si les fréquences attendues des génotypes sont en accord avec les fréquences observées,
alors on dira que la population est en équilibre de Hardy-Weinberg, du nom du
mathématicien anglais Hardy et du médecin allemand Weinberg qui ont découvert
indépendemment cette relation en 1908 (voir la partie du cours évolution pour plus de détails
sur cette dérivation).
S'il y a un trop grand écart entre les fréquences attendues et observées, alors on est en droit de
penser qu'une force évolutive, comme la sélection, est en jeu, ou encore que les gamètes de la
population ne s'unissent pas au hasard. Mais encore faut-il démontrer que cet écart est
significatif, c'est à dire plus grand que ce que l'on attendrait par hasard.
Test de Chi-2
La manière classique de comparer des fréquences observées et attendues se fait par un test de
Chi-2. Supposons que l'on ait n individus diploïdes dans un échantillon et que l'on observed k
allèles à un locus donné. On aura donc potentiellement k(k+1) /2 génotypes différents.
Supposons ici que k=3, et que l'on observe les fréquences génotypiques absolues suivantes
A1 A2 A3
A1 n11 n1
A2 n21 n22 n2
n1 n2 n3 n
Classiquement, le test de Chi-2 consiste à comparer les nombres observés des différents
génotypes aux nombres attendus sous l'hypothèse de Hardy-Weinberg, soit
A1 A2 A3
A2 n2
A3 n3
n1 n2 n3 n
qui devrait suivre asymptotiquement une loi de Chi-2 à k(k-1) /2 degrés de liberté. On
déclarera qu'il y aura un écart significatif à l'équilibre de HW si la probabilité associée au X2
est inférieur à un certain niveau de confiance alpha prédeterminé, par exemple alpha=0.05.
Vous pouvez vous exercer à calculer la valeur du X2 sur cette page web et obtenir sa
probabilité associée sur celle-ci.
Test exact
Guo et Thompson (1992) ont introduit un test de déséquilibre de HW qui est une extension du
test exact de Fisher sur les tables de contingences 2 par 2. Le test exact de Fisher consiste à:
1. Enumérer toutes les tables de contingences possible ayant les même sommes
marginales qu'une certaine table de contingence observée.
2. Calculer la probabilité conditionnelle de chacune de ces tables, dont une est forcément
celle que l'on a observé. La probabilité de la table originale a été établie par Levene
(1949) comme étant égale à
avec H qui est le nombre d'individus hétérozygotes. La probabilité des autres tables s'obtient
en changeant la valeur des nij, les ni ne changeant pas car ce sont précisément les sommes
marginales.
3. Calculer la probabilité d'observer une table de contingence plus improbable que celle
que l'on observe. Celle-ci s'obtient en sommant les probabilités des tables de
contingence plus improbables que celle observée comme
Pour de grands échantillons, l'approximation de Chi-2 est souvent très bonne, mais on
préférera un test exact lorsque l'on a de petits échantillons avec de faibles fréquences
génotypiques attendues < 5.
Il est assez informatif de dériver la formule de Levene. Faisons pour le cas simple d'un locus
à 2 allèles A et a, où l'on a donc les fréquences génotypiques suivantes dans un échantillon de
n individus.
Génotypes AA Aa aa
Fréquences nAA nAa naa
Dans la population, les allèles A et a ont des fréquences (inconnues) de pA et et 1- pA. Sous
l'hypothèse de HWE, la probabilité d'observer ces fréquences génotypiques suit une loi
multinomiale
Les fréquences alléliques inconnues de la population sont un problème, mais on peut s'en
débarrasser en calculant la probabilité des fréquences génotypique conditionnelle aux
fréquences alléliques observées nA et na. Ces fréquences alléliques ont elles-même une
probabilité qui suit une loi binomiale
Il y a plusieurs raison pour lesquelles on peut rejetter l'hypothèse de HWE. cela peut être du
au fait qu'un génotype donné aura une fréquence observée très différente de l'attendue, auquel
cas on pourra penser à un phénomène de sélection qui touche ce génotype. Au contraire, le
déséquilibre de HW peut toucher l'ensemble des génotypes, ce qui laisse penser à un
problème qui touche le système de reproduction, empêchant une union aléatoire des gamètes
et des individus. Une telle situation est courante en cas de consanguinité.
1.2 Consanguinité
Une population est dite consanguine lorsqu'une ceraine proportion d'individus apparentés
s'unissent pour produire des descendants dans la population. Dans ce cas, ces descendants de
couples consanguins pourront avoir des copies alléliques issues de la même copie d'un de leur
ancêtre commun. De ce fait, ils seront donc forcément homozygotes, mais pour une raison
indépendante des fréquences alléliques dans la population.
On peut raisonner exactement de la même manière pour les homozygote aa et l'on aura donc
Pour les hétérozygotes Aa, le raisonnement est similaire. Il faut juste réaliser que l'on ne peut
être hétérozygote que si ses 2 copies ne sont pas identiques par ascendance et donc
On peut bien sûr dériver les fréquences attendues des différents génotypes pour plus de 2
allèles, et l'on a, d'une manière générale
On a dit que les fréquences alléliques ne sont pas affectées par la consaguinité. On peut le
vérifier en exprimant p en fonction de P, et H. Ainsi
Wright a aussi montré que le coefficient de consanguinité f était égal à la corrélation des
deux gamètes d'un individu par rapport à deux gamètes pris au hasard. Voyons cela de plus
près et considérons une population où l'on a 2 allèles A et a de fréquence p et 1-p. On a une
certaine proportion d'hétérozygotes Ho dans cette population. On voit dans la table qui suit
que l'on peut exprimer les fréquences génotypiques dans la population en fonction de la
fréquences des hétérozygotes Ho et des fréquences alléliques, sans faire l'hypothèse de HWE.
Gamète 2
A a Total
Total p 1-p 1
On va considérer une variable indicatrice y qui sera égale à 1 si on tire un gamète de type
allélique A et à 0 si on tire un a. On voit tout de suite que si l'on répète l'épreuve qui consiste
à tirer un grand nombre de gamète, l'espérance de y est égale à
Pour calculer la corrélation de deux gamètes y1 et y2, il ne nous manque plus que leur
covariance cov(y1, y2). Celle-ci est obtenue de manière standard comme
Ainsi,
et
La notion de corrélation entre gamètes est intimement liée aux statistiques- F (F-statistics)
définies par Wright (1943, 1951) dans le cas de populations subdivisées. Nous y reviendrons
par la suite, mais il est important de noter ici que le coefficient de consanguinité est
équivalent à la statistique FIS définie par Wright comme la corrélation moyenne des 2 gènes
d'un individu par rapport à deux gènes pris au hasard dans une des subdivisions de la
population.
Finalement on notera que d'autres systèmes de reproduction causent des écarts à l'HWE,
comme l'autofécondation totale ou partielle, ou le choix du conjoint sur la base de son
phénotype (assortative mating).
Alors que dans des populations de taille infinie les fréquences alléliques sont stables au cours
des générations en l'absence de sélection et de mutation, les fréquences alléliques varient
aléatoirement dans des populations de taille finie. Cela est du à la variabilité du tirage
aléatoire des gènes d'une génération à l'autre.
Conséquences:
et r peut donc varier de 0 à 2N copies, impliquant que p(t+1) peut prendre des valeurs variant
entre et comprenant 0 et 1, avec une certaine probabilité donnée par la loi binomiale.
L'espérance de X est bien sûr donné par E(X) = 2N p, et sa variance par V(X) = 2N p (1-p).
Comme cela était déjà clair sur les figures ci-dessus, l'espérance de la fréquence de l'allèle A à
la génération t+1 est sa fréquence à la génération t, et donc de sa fréquence initiale p0. Par
Avec 250 individus, aucune population n'a fixé d'allèles au bout de 150 générations. Les
variations de fréquences alléliques sont aussi de plus faible amplitude.
Avec 500 individus, les fréquences varient relativement faiblement autour de la fréquence
initiale. On se rend compte que la moyenne des fréquences alléliques tend vers la fréquence
initiale.
Sur la figure suivante, on a représenté, pour différents nombres de gènes dans la population
(2N), l'enveloppe p0=0.5 ± (t).
Cette augmentation régulière de la variance des fréquences alléliques peut être utilisée pour
calculer le temps de séparation d'un ensemble de populations (sous l'hypothèse qu'elles
n'ont pas échangé de migrants). On suppose qu'on observe un ensemble de populations ayant
des fréquences alléliques p1, p2, p3, ... pi, ..., pd. La fréquence moyenne sur l'ensemble des
populations va se rapprocher de la fréquence initiale p0 et on peut ré-écrire l'équation
précédente comme:
Attention: Pour que ce temps de divergence ait un sens il faut que les hypothèse de notre
modèle soient vérifiées. Si il y a des migrations entre les populations ce temps de divergence
sera sous-estimé. Si les populations ne sont pas toutes de même taille, il sera sur-estimé.
Enfin, notez que comme D dépend inversément de N, un certain degré de divergence sera
obtenu beaucoup plus rapidement pour des petites populations que pour des grandes.
Dans le modèle de Wright-Fisher, il est parfaitement possible que les 2 copies alléliques d'un
individu soient identiques par ascendance d'une même copie de la génération précédente, et
cet évènement à une probabilité égale à 1/(2N). Dans le cas contraire, il est aussi possible que
les 2 copies soient identiques par ascendance mais à une génération antérieure. Le coefficient
de consaguinité f de la population à la génération t+1 va donc être égal à
On a vu que la loi binomiale donnait la probabilité qu'un allèle passe d'une fréquence p à la
génération t à la fréquence p' à la génération t+1. Si l'on raisonne en terme de fréquence
absolue, on voit que la loi binomiale décrit la probabilité de passer de i copies à j copies
en une génération, probabilité que l'on peut noter pij.
On peut ainsi représenter l'évolution des fréquences alléliques dans une population de
taille N comme une marche aléatoire dans un espace où les probabilités de déplacement
sont définie par une matrice de transition de taille (2N+1) dont les éléments sont
précisément les pij. Par exemple, pour une population de 10 individus, on peut visualiser la
matrice de transition dans la figure suivante.
Cette marche aléatoire peut être assimilée à une chaîne de Markov dont les probabilités de
transitions entre états {0, 1, 2, 3, ..., i, ... , 2N-2, 2N-1, 2N}sont définis par les probabilités
binomiales
Comme les états 0 et 2N sont absorbants, le résultats d'une marche aléatoire dans cette chaîne
ne peut qu'aboutir à la perte (i = 0) ou à la fixation (i = 2N) d'un allèle. D'autre part, comme
pour toute chaîne de Markov, la probabilité d'effectuer une certaine transition ne dépend que
de l'état présent et pas des états antérieurs, et donc pas du chemin déjà parcouru. On peut
donc théoriquement prédire l'évolution des fréquences alléliques dans une population de
n'importe quelle taille, mais pratiquement cette approche matricielle est limitée à des
populations de petites taille.
Pour des populations de grande taille, on approxime cette marche aléatoire dans un espace
discret par un processus de diffusion dans un espace continu. Cette approche a été
principalement introduite par Kimura.
Dans ce qui a précédé, nous n'avons pas considéré la possibilité d'avoir des mutations qui
sont une des forces évolutives. L'apparition de nouveaux mutants va avoir plusieurs
conséquences dont la première est de mofifier les fréquences alléliques dans les populations
de taille finie, et une autre et d'empêcher la fixation ultime des allèles. Les mutations vont
donc interférer quelque peut avec le processus de dérive génétique.
Dans le modèle des allèles infinis, on fait simplement l'hypothèse qu'une mutation
provoque l'apparition d'un nouvel allèle qui n'était encore jamais apparu dans la
population. La fréquence initiale de ce nouvel allèle sera bien évidemment de
Kimura et Crow (1964) ont montré que la probabilité de fixation d'un nouveau mutant
neutre était sa fréquence initiale soit 1/(2N). la probabilité qu'il soit ultimement perdu
par dérive génétique est donné par la probabilité complémentaire soit, 1-1/(2N).
Kimura et Ohta (1971) ont dérivé le temps moyen de fixation T1 pour un nouveau mutant
neutre comme étant égal à
Dans des populations de taille finie et en présence de mutations, de nouveaux allèles vont
être introduits par mutation et d'autres seront perdus par dérive. Il peut s'établir un équilibre
entre ces 2 forces qui va conditionner le nombre d'allèle qui pourrront être maintenus
dans une population de taille donnée.
Nous avons vu plus haut que la taille finie des populations conduisait à une augmentation de
la consanguinité de la population. En présence de mutation, cette augmentation de
l'homozygotie va être quelque peu freinée par l'introduction de nouveaux allèles. Plus
formellement, le changement du coefficient de consanguinité au cours du temps va
maintenant être conditioné par le fait que les copies d'un individu ne pourront être
ou u est le taux de mutation par gène par génération. A l'équilibre mutation-érive, f(t+1) = f(t)
= f , si bien que
Crow et Kimura ont défini le nombre efficace d'allèle pouvant être maintenu à l'équilibre
mutation-dérive ne comme la réciproque de la consanguinité, soit
Ce nombre est défini ainsi car il correspond au nombre fictif d'allèles ayant tous une
fréquence identique et qui donnerait lieu à l'hétérozygotie attendue.
Remarque: On représente souvent la quantité 4Nu par la notation , qui correspond donc au
produit de la taille de la population par le taux de mutation. Ces 2 quantités sont rarement
Ainsi par exemple on va obtenir, après bien des efforts que le nombre de sites polymorphes
S attendus dans un échantillon de taille n est égal à (Watterson 1975)
La théorie de la coalescence a une approche entièrement différente. Elle part d'un échantillon
de gènes observés, et vise à reconstruire l'histoire généalogique de ces gènes, selon une
certaine histoire démographique de la population et un certain modèle de mutation, jusqu'à
l'ancêtre commun le plus récent de ces gènes. On n'a pas donc pas besoin de modéliser
l'ensemble de la population. On se préoccupe uniquement de notre échantillon. C'est une
approche essentiellement rétrospective.
Considérons tout d'abord une généalogie d'individus diploïdes. Chacun de ces individus va
avoir un certain nombre de descendants auxquels il aura transmis une des 2 copies de ses
gènes à un locus donné. Certains gènes d'un individu ne seront pas transmis, mais d'autres
pourront être transmis en un ou plusieurs exemplaires.
Génératio
n1
Génératio
n2
Le gène représenté par le rond rouge (gène ancêtre de la génération 1) va être transmis à deux
enfants différents à la génération 2, et ces enfants le transmettrons eux-mêmes à un de leur
descendants à la génération 3. Ces 2 gènes rouges seront donc identiques par ascendance, et
ils auront un ancêtre commun 2 générations auparavant.
En première approximation on va ignorer le fait que ces gènes se trouvent dans des individus
diploides. Cela revient à dire assimiler notre population diploide de taille N à une
population haploide de taille 2N. On va ainsi visualiser plus simplement leurs relations
d'une génération à l'autre en représentant uniquement les lignes d'ascendance de ces gènes,
ou dit plus simplement les lignages de ces gènes. Lorsque deux lignages se rejoignent chez
un gêne ancestral, on dit qu'ils coalescent. Il s'agit donc d'un évènement de coalescence.
Pour simplifier, considérons une très petite population de taille constante contenant 7 gènes
(marqués en bleu) de la figure suivante.
Donc tous les gènes de la générations 0 ont un ancêtre commun 6 générations auparavant.
Maintenant, si l'on regarde le processus dans le sens du temps, on voit que un des gènes de la
génération 6 s'est fixé dans la population à la génération 0. Les autres gènes de la génération
0 se sont perdus, ils n'ont pas été transmis jusqu'à la génération présente. Ce processus de
fixation d'un gène et de perte des autres gènes est en fait exactement le processus de dérive
génétique. On voit donc que le processus rétrospectif de coalescence est entièrement
analogue à un processus prospectif de dérive génétique. Mais il deux avantages principaux
par rapport au processus de dérive.
2. On ne va
considér
er qu'un
échantill
on tiré
au
hasard
de la
populati
on, et
pas la
généalog
ie de la
populati
on
entière.
2. La taille de l'échantillon est beaucoup plus petit que la taille de la population (n<<N),
de telle sorte qu'il ne peut y avoir qu'un seul évènement de coalescence par
génération.
On peut dériver ces temps en commençant par s'intéresser à la probabilité d'un évènement de
coalescence entre j lignages P(j) à la génération précédente. Si l'on considère une paire de
lignages quelconque, c'est la probabilité que ces 2 lignages sont dérivés d'une même copie
d'un individu de la génération précédente, c'est à dire qu'ils sont identiques par ascendance à
la génération précédente. On a vu que cette probabilité était égale à 1/(2N). maintenant, on
doit considérer qu'un lignage peut coalescer avec n'importe quel autre lignage, et ceci avec la
même probabilité. Si l'on a j lignages, on peut former j(j-1)/2 paires différentes, ce qui
représente le nombre de combinaisons possibles de 2 lignages parmi j. Donc P(j) s'obtient
comme
et donc la probabilité qu'il n'y ait aucun évènement de coalescence est 1-P(j). A chaque
génération on peut associer une épreuve qui consistera à vérifier s'il y a eu un évènement de
coalescence ou non. Le temps de coalescence Tj peut être considéré comme le nombre de
générations écoulées jusqu'à ce que l'on ait un évènement de coalescence. C'est donc une
variable aléatoire qui est le nombre d'épreuves nécessaires pour observer un succès de
probabilité P(j). Une telle variable aléatoire suit une loi géométrique qui a la distribution de
probabilité suivante:
Cela revient simplement à dire que pendant t-1 générations il n'y a pas eu de coalescence et
qu'il y en a eu une à la t-ième. L'espérance et la variance d'une telle loi géométrique sont
connues et égales à
Comme on fait l'hypothèse que la taille de la populations est grande, on peut considérer que
la longueur d'une génération est presque négligeable par rapport à la longueur totale de la
généalogie. Dans ce cas, on peut utiliser la version continue de la loi géométrique qui est
la loi exponentielle qui a comme densité de probabilité
Cela n'a pas d'effet sur l'espérance, mais la variance des temps de coalescence est simplifié.
L'espérance s'obtient comme
Standardisation
On peut visualiser l'espérance des temps de coalescence sur une généalogie "moyenne" ou
les temps de coalescence seraient égaux à leur moyenne.
On peut également dériver la taille totale Tn de la généalogie, c'est à dire le temps jusqu'à
l'ancêtre commun le plus récent (MRCA en anglais) de tout l'échantillon. On a bien
évidement
On notera aussi que comme la probabilité de coalescence de n'importe quelle paire de lignage
est identique, toutes les topologies de généalogies ayant les mêmes temps de coalescence
sont équiprobables. Ainsi, la topologie b de la généalogie moyenne ci-dessous est aussi
probable que la topologie a de la généalogie que l'on a vu ci-dessus.
Enfin, il est important de constater que la taille absolue des généalogies va dépendre
étroitement de l'effectif efficace de la population d'où elles sont issues. Sur la figure ci-
dessus, on a représenté côte à côte la généalogie moyenne d'un gène nucléaire pour lequel il
existe donc 2N copies dans la population et la généalogie moyenne d'un gène mitochondrial,
pour lequel il existe N/2 copies dans la population, car ils'agit d'un système haploide transmis
uniquement par les femmes. On s'attend donc à ce que le TMRCA mitochondrial soit beaucoup
4c fois plus récent que le TMRCA nucléaire, et c'est à peu près ce que l'on remarque par
exemple chez l'homme, comme le montre la table ci-dessous..
4. Coalescence et mutations
Jusqu'à présent, nous n'avons pas parlé de mutations, car pour des gènes neutres, le processus
de coalescence ne dépend pas du processus de mutation. On peut les considérer comme
totalement indépendants. Donc la longueur des branches d'une généalogie dépendra
uniquement du processus démographique et pas du processus mutationnel.
On fait d'habitude l'hypothèse que les mutations se produisent suivant une loi de Poisson de
paramètre = ut, où u est le taux de mutation par unité de temps, et t la longueur d'un
segment de branche quelconque. Dans la version continue du processus de coalescence, où le
temps est mesuré en unité de 2N générations, le paramètre devient
Il convient de bien définir le modèle de mutation que l'on considère. Selon le modèle que l'on
va utiliser,le processus de mutation aura différents effets sur la diversité moléculaire
observée. Le modèle de mutation le plus simple est le modèle dit des sites infinis a été
introduit par Kimura en 1968. Il est en fait l'équivalent du modèle des allèles infinis pour
les données moléculaires. Selon ce modèle, toute nouvelle mutation se produit à un
nouveau site qui n'a encore jamais été touché par une mutation. Les molécules qui suivent ce
modèle ne connaissent donc pas d'homoplasie.
C'est généralement le modèle utilisé pour dériver la plupart des résultats théoriques
concernant la variabilité moléculaire des séquences d'ADN. Si la séquence d'ADN
considérée est très long et que le taux de mutation est bas, ce modèle constitue une très bonne
approximation de la réalité. Il sera donc aproprié pour des molécules d'ADN nucléaire, mais
pas très réaliste pour des molécules d'ADN mitochondrial.
Sous le modèle des sites infinis, le nombre de sites polymorphes S d'un échantillon est
simplement le nombre de mutations s'étant produites dans la généalogie des gènes de
l'échantillon. L'espèrance de cette variable aléatoire est simplement fonction de la longueur
totale de la généalogie T et du taux de mutation u.
ce qui a été obtenu de manière sensiblement plus compliquée par Watterson en 1975. Un
relativement bon estimateur de basé sur le nombre observé de sites polymorphes est donc
obtenu comme
Homozygotie attendue
L'homozygotie attendue F est la probabilité que lorsque l'on tire 2 gènes (habituellement
chez le même individu), ils soient du même type allélique. Bien évidemment, deux copies
d'un gène appartiendront à la même classe allélique (seront une copie du même type
allèlique) s'ils ne diffèrent l'un de l'autre par aucune mutation. Donc deux gènes seront donc
du même type allélique s'il n'y a pas eu de mutation depuis leur ancêtre commun le plus
récent. Cela est donc équivalent à la probabilité d'observer 0 sites polymorphes entre 2
gènes tirés au hasard.
Pour un temps de coalescence donné, la probabilité d'observer zéro mutations entre 2 gènes
est égale à
Dans les populations naturelles, tous les individus ne participent pas forcément au processus
reproductif, si bien qu'en général l'effectif de la population N qui détermine le rythme de la
dérive génétique n'est pas égale à l'effectif de recensement de la population. On défini donc
l'effectif efficace de la population (ou taille efficace) comme l'effectif d'une population
idéale (de type Wright-Fisher) pour laquelle on aurait une fluctuation du polymorphisme
équivalente à celle de la population naturelle.C'est donc le nombre d'individus d'une
population idéale pour lequel on aurait un degré de dérive génétique équivalent à celui
de la population réelle. On note ce nombre comme Ne.
Il y a en fait plusieurs types d'effectif efficace, selon à quel effet de la dérive génétique on
s'intéresse.
Donc, dans une population réelle, l'effectif efficace sera celui qui provoquera un changement
de consanguinité de même amplitude que dans une population idéale.
Donc l'effectif efficace de variance sera donné par quelque chose de la forme
Si bien que l'effectif efficace d'une population réelle provoquant le même changement
d'hétérozygotie que dans une population idéale sera défini comme
Contrairement au modèle de Wright-Fisher, dans une population avec des sexes séparés deux
gènes ne peuvent être identiques par ascendance (ibd) que 2 générations auparavant.
Si l'on considère un individu quelconque, il peut avoir 2 gènes ibd venant de son grand-père
ou de sa grand-mère. Considérons qu'il y a Nm mâles dans la population et Nf femelles. Les
parents d'un individu de la génération t peuvent avoir 2 gènes ibd venant d'un mâle (le grand-
père) avec une probabilité 1/(2Nm) (en bleu sur la figure ci-dessus). Chaque parent a une
probabilité 1/2 de lui transmettre son gène ibd, et donc une probabilité totale de 1/4 que les
deux gènes ibd de ses parents lui soient transmis. Il y a donc une probabilité de 1/(8Nm) pour
que ses deux gènes soient ibd en provenance de son grand-père. Par le même raisonnement, il
y a une probabilité de 1/(8Nf) pour que ses 2 gènes soient ibd en provenance de sa grand-
mère. Il y a donc une probabilité totale de 1/(8Nm) + 1/(8Nf) pour qu'il ait 2 gènes ibd.
Pour les gènes portés sur le chromosome X ou les espèces haplo-diploides (p. ex. les insectes
sociaux), le calcul de l'effectif efficace est un peu différent que pour les espèces à sexes
séparés. Là on va utiliser l'effectif efficace de variance, car la notion de consanguinité ne
marche pas pour les haploides.
A l'équilibre, pm = pf = p, et donc
Comme dans une population idéale la variance est donnée par Var(p) = pq / (2Ne), l'effectif
efficace de variance est donnée par
Pour des gènes liés au sexe avec autant de mâles que de femelles, on a Ne = 2/3 N. Pour les
insectes sociaux qui possède une seule reine qui produit tous les individus de la population,
Nf = 1 et (Wright 1931)
La réduction de taille est donc relativement minime dans les populations faiblement
consanguines. Par contre, chez les plantes qui ont un fort taux d'autofécondation et où f est
proche de 1, l'effectif efficace peut être seulement la moitié de l'effectif total.
Les populations naturelles sont rarement de taille constante au cours du temps. Celles-ci
puvent en effet fluctuer fortement de génération en génération, par exemple suite à des
changements climatiques, dans des modèles proies-prédateurs ou hôtes-parasites, ou encore
par l'action de l'homme. Dans ce cas, l'effectif efficace de la population sera proche de la plus
petite taille par laquelle une population a passé au cours de son histroire récente.
L'effectif efficace dans un tel cas se calcule en fonction de l'hétérozygotie (Crow et Kimura
1970). On a vu en effet que dans une population de taille constante
L'effectif efficace de la population sera donc celui d'une population stationnaire qui causerait
la même réduction d'hétérozygotie après t générations de dérive génétique, soit
Ceci se résout facilement si l'on fait l'hypothèse que les Ni sont grands et que l'on utilise
l'approximation
si x est petit
Bottlenecks périodiques:
On suppose qu'une population d'insecte décuple sa taille en 2 générations pendant l'été
et qu'ele retourne à sa taille initiale pendant l'hiver. Elle passera donc par un cycle de
N, 10N et 100N individus chaque année. Quelle sera sa taille efficace?
Réponse: 2.7N seulement, et pas 36.7 N comme l'indiquerait la moyenne arithmétique
des tailles de population.
Lorsque la population est structurée en classes d'âges, avec des individus qui ne se
reproduisent pas encore ou plus, l'effectif efficace de la population sera inférieur à l'effectif
de recensement. Dans ce cas il y a plusieurs façons de calculer l'effectif efficace et Nei et
Imaizumi (1966) suggèrent que l'effectif efficace est donné par
où T est l'âge moyen à la reproduction (le temps de génération) et Na est le nombre moyen
d'individus nés chaque année qui vont arriver à l'âge de reproduction. A partir des données
démographiques d'Amérique du Nord, Felsenstein (1971) a calculé que l'effectif efficace de
la population était environ 34% de l'effectif de recensement, ce qui correspond
grossièrement au tiers de la population, soit à la proportion des gens féconds de la population.
Dans le modèle de Wright-Fisher, on fait l'hypothèse que le nombre de gamètes transmis par
individu suit une loi de poisson de paramètre =2. Cependant, dans des populations naturelles
de taille constante, le nombre de gamètes transmis k peut avoir une plus grande variance que
celle d'une loi de Poisson (p. ex dans des population animales avec harems) ou bien une
variance plus petite (p.ex chez des oiseaux qui contrôlent le nombre d'oeufs par nid). Dans ce
cas, l'effectif efficace d'une population de taille constante qui a une variance Vk du nombre de
gamètes transmis par individu est donné par
Lorsque l'effectif de la population n'est pas constant, Kimura et Crow (1963) suggèrent
d'utiliser l'expression plus générale
Exemples:
Les populations naturelles sont rarement stationnaires et elles peuvent passer par des périodes
d'augmentation ou de réduction d'effectif. Il existe des modèles simples de croissance de
population qui approximent assez bien les phénomènes réels.
On admet que l'on a une population dont l'effectif est augmenté d'un certain facteur r à
chaque génération, soit
Le modèle de croisance ou décroissance exponentielle n'est pas toujours réaliste car les
conditions de croissance ou décroissance d'une population vont varier au cours du temps. Par
exemple, des ressources abondantes vont permettre à une populatin de mieux se nourrir et de
croître rapidement, mais au fur et à mesure de la croissance, chaque individu aura une moins
grande proportion des ressources limitées à disposition. On va donc introduire la notion de
capacité de soutien K (carrying capacity) d'un certain environnement, qui exprime l'effectif
maximal d'une population dans un environnement donné. Ainsi, l'évolution de la population
dans un milieu à ressource limité est modélisé par une croissance logistique de la forme
On notera que d'autres modèles de croissance logistique ont été développés, où le fateur
d'acroissement est un peu différent de celui exposé ici.
A la génération actuelle, on
est donc dans une grande
population, où la probabilité
de coalescence d'une paire
de lignage à chaque
génération est de 1/ N1.
Comme cette probabilité est
petite, les évènements de
coalescence sont rares. Au
temps t, la population passe
de N1 à N0 et la probabilité
de coalescence devient 100
fois plus grande. C'est donc
à ce moment que vont se
produire la majorité des
coalescences.
Le fait que les mutations se produisent sur les longues branches de l'arbre et que ces longues
branches aient à peu près toutes la même longueur a une conséquence sur la diversité
moléculaire observée. Lorsque l'on ompare deux à deux tous les gènes d'une population, ils
vont présenter à peu près le même nombre de différences. Ceci est du au fait que les temps de
coalescences de toutes les paires de l'échantillons sont très corrélées, et datent d'une brève
période précédant l'expansion.
La distribution mismatch attendue après une expansion instantanée a été dérivée par Li 1977
et redérivée par Rogers et Harpending en 1992, sous le modèle des sites infinis. La
probabilité d'observer S différences va dépendre du temps de l'expansion et de l'effectif de la
population avant et après l'expansion, ces paramètres étant exprimés en unités de 2u
générations, et donc égaux respectivement à = 2tu, = 2N0u , et = 2N1u. Elle dépend est
donnée par
La référence est la population Turkana du nord Kenya, pour laquelle la date d'expansion la
plus ancienne a été trouvée (=2tu=0.036). Il existe une polémique importante sur le taux réel
de mutation de l'ADN mitochondrial humain. Les estimations varient de 7% de différence par
million d'années de divergence à plusde 150%. Nos propres estimations donnent des chiffres
d'environ 7%, ce qui daterait l'expansion démographique des Turkana à environ 500'000
ans, avec un intervalle de confiance à 95% de 332'000 à 627'000 ans. Des taux de mutations
plus élevés donneraient des temps d'expansion plus récents. Toutefois, les dates d'expansion
humaines semblent indiquer qu'elles ont connu pour la plupart une forte expansion
démographique au Pléistocène, et pas au Néolithique.
Bien que les démographes et les archéologistes nous disent que la population humaine a
connu une forte expansion au Néolithique, celle-ci n'aurait pas laissé de trace au niveau
moléculaire, car l'effectif de la population humaine était déjà trop important avent cette
expansion. On voit donc uniquement la trace d'une expansion qui fait passer une population
d'une très petite taille à une grande taille, et les expansions ultérieures sont plus difficiles à
déceler.
1. Populations subdivisées
Les populations naturelles ne peuvent pas toujours être considérées comme des populations
panmictiques où les gamètes s'unissent au hasard. On a déjà vu un effet de l'écart à la
panmixie qui est le fait que des individus apparentés s'unissent pour avoir des descendants:
la consanguinité. Sa conséquence est que les deux gènes à l'intérieur d'un individu sont plus
corrélés que deux gènes pris au hasard dans la population ou entre deux individus. On peut
Dans les populations naturelles, les individus ne peuvent pas toujours s'unir aléatoirement sur
l'ensemble de leur aire de répartition, du fait de contraintes géographique ou
environnementales. Les populations seront donc presque toujours subdivisées
géographiquement avec des individus qui s'unissent plus souvent avec des individus
géographiquement proches qu'avec des individus éloignés. Les unités à l'intérieur desquelles
les individus s'unissent le plus souvent sont appelées des dèmes. Ces dèmes peuvent être plus
ou moins isolés les uns des autres, former des unités discrètes ou il peut y avoir une certaine
continuité (génétique) entre dèmes voisins. Cependant, la dérive génétique va agir
différemment dans chaque dème, et les dèmes vont progressivement se différencier les uns
des autres.
Ces dèmes peuvent être eux-mêmes organisés en groupes dont les individus de différents
s'unissent occasionnellement. On peut ainsi imaginer une espèce comme une poupée russe
ayant différents degrés de subdivisions imbriqués les uns dans les autres.Donc pour la
génétique des populations, une espèce est une grande population subdivisée.
Ces dèmes peuvent maintenir des contacts entre eux par l'échange de gènes véhiculés par des
migrants. La migration va donc maintenir un certain niveau de cohérence génétique entre
ces dèmes.
On n'a pas toujours conscience que la population que l'on étudie est subdivisée. Cependant la
non prise en compte de cette subdivision a comme effet un écart à l'équilibre de Hardy-
Weinberg qui se traduit par un excès du nombre d'homozygotes observés par rapport aux
fréquences alléliques calculées.
On voit donc que la fréquence observée des hétérozygotes dans l'ensemble des subdivisions
est égale à la fréquence attendue sous l'équilibre de Hardy-Weiberg en considérant la
fréquence moyenne p sur l'ensemble des d dèmes moins deux fois la variance des fréquences
alléliques sur l'ensemble des dèmes. En ignorant la présence de subdivisions, on va
observer un déficit d'hétérozygotes, et donc un excès d'homozygotes par rapport aux
fréquencs alléliques observées. Cet effet Wahlund est une conséquence directe de la
présence de subdivisions à l'intérieur d'une population, et il sera d'autant plus prononcé que
les populations sont plus différenciées.
Nous allons maintenant passer en revue différents modèles de population subdivisée, dontles
dèmes échangent des migrants.
A l'équilibre, où la perte d'allèle par dérive est compensée par l'introduction de nouveaux
allèles par migration, f (t+1) = f (t) =f et
ce qui montre que si m>0, l'homozygotie attendue à l'intérieur de chaque dème ne tend
plus vers 1, comme dans une population de taille finie, et donc on ne va plus obligatoirement
fixer d'allèles.
Nm E( FST)
0.25 (un migrant toutes les 4 générations) 0.50
0.5 (un migrant toutes les 2 générations) 0.33
1 (un migrant par génération) 0.20
2 (deux migrants par génération) 0.11
On utilise souvent la relation entre Nm et la valeur de FST à l'équilibre pour le modèle en île
pour estimer Nm. En faisant cela, on fait bien sûr l'hypothèse que les dèmes que l'on observe
sont bien arrangés en île et que nous sommes à l'équilibre migration-dérive. Ainsi,
Chez l'homme, à l'échelle mondiale la valuer de FST est d'environ 0.1, ce qui donne une valeur
de Nm de 2.25 . On a donc un degréd e différentiation entre les populations humaines qui est
celle que l'on attendrait si toutes les populations étaient stationnaires et qu'elles échangeaient
2.25 migrants par génération en moyenne. Nous verrons plus tard comment on estime ces
valeurs de FST .
Ce résultat est dû au fait que l'effectif de chaque dème est fixe, et donc que les gènes
d'individus d'un certain dème vont obligatoirement avoir des représentants à la génération
suivante, et vont donc contribuer à diminuer la variance du nombre de descendants par
rapport à une population panmictique. On s'attendra donc à maintenir plus de diversité
génétique dans une population subdivisée que dans une population panmictique de même
taille de recensement.
Kimura (1953) a introduit des modèles de migration entre dèmes plus réalistes que le modèle
en île. Il a en effet voulu tenir compte du fait que l'on échangeait plutôt des migrants entre
dèmes géographiquement proches les uns des autres, et pas ou rarement entre dèmes éloignés.
C'est donc un modèle spatialement structué. Kimura a introduit ces modèles par analogie
avec les dalles permettant de circuler dans les jardins japonais. Il a donc qualifé ces modèles
en anglais de steping-stone models.
Dans ce cas, les migrations se font selon un axe principal, le nombre de populations pouvant
être arbitraire. Un dème va échanger des gènes avec ses deux dèmes voisins à un taux m/2.
Pour éviter des effets de bord, Maruyama (1971) a introduit un modèle en une dimension
mais circulaire, et un modèle en deux dimension où les dèmes sont à la surface d'un torre.
Dans ce modèle, les taux de migrations entre les dèmes sont complétements arbitraires et pas
forcément symétriques. les modèles en îles et en treillis sont bien sûr des cas particuliers de
ces modèles matriciels.
Les modèles de migration en treillis sont des modèles discrets d'isolement par la distance, où
l'on s'attend à ce que les dèmes soient d'autant plus proches génétiquement qu'ils sont proches
géographiquement. Malécot (1950) a introduit des modèles où les dèmes sont situés dans un
espace continu. Les individus migrent dans un certain dème situé à une certaine distance avec
une probabilité inversément proportionnelles à la distance géographique séparant ces dèmes.
On tient donc compte de la distribution des distances entre le lieu de naissance des individus
et de leurs descendants. D'une manière générale, que ce soit dans un espace discret ou
continu, la corrélation attendue entre gènes décroit exponentiellement avec la distance.
Modèle de méta-populations
Les modèles de méta-populations ont été introduits pour mieux coller à la réalité, et tenir
compte de la nature dynamique des populations et des dèmes. Il y a en effet beaucoup de
situations où les dèmes ont des tailles variables et peuvent même disparaître temprairement
avant d'être crées à nouveau par de nouveaux migrants venant d'une population voisine et
réoccupant le nouveau territoire. Ces propriétés sont assez typiques de petites populations, et
ont donc d'importantes applications en génétique de la conservation.
D'une manière générale, des dèmes de tailles inégales sont plus différenciés que des dèmes
de tailles sensiblement équivalentes, car la dérive génétique sera surtout plus forte dans les
petites populations. Les extinctions de dèmes contribuent aussi à augmenter la variabilité
globale de la population, en éliminant certains allèles. Enfin, les recolonisations sont
souvent accompagnées d'effets fondateurs, qui entraîne de grandes perturbation de
fréquences alléliques, et qui vont donc aussi contribuer à l'augmentation de la variabilité
génétique entre dèmes par rapport à un ensemble de populations arrangées en îles.
Whitlock et McCauley (1990) ont montré que la différentiation génétique des dèmes sera
plus grande que celle d'une population arrangée en île si
où k est le nombre moyen d'individus qui colonisent de nouveaux dèmes, N est la taille des
populations qui subsistent, m est le taux de migration entre dèmes et est la probabilité que
deux gènes colonisateurs viennent du même dème source. Dans la plupart des
métapopulations, cette relation est vérifiée. Si le degré de différentiation entre dèmes est plus
faible que dans le cas d'une population en île cela implique que la taille efficace d'une telle
population sera plus faible que dans le cas en île (voir Hedrick et Gilpin 1997 pour voir
Les populations peuvent être structurées de part leur histoire. Des fissions successives de
populations vont créer de nouvelles populations qui vont se différencier progressivement les
unes des autres. A partir du calcul de distances génétiques entre populations, on va essayer de
reconstituer ce processus de fission (voir cours d'Alicia sanchez-Mazas). Il faut toutefois
noter qu'il est difficile, voire impossible, de faire la différence entre une série de fissions de
populations et une population subdivisée présentant différents taux de migrations entre dèmes
(Felsenstein 1982).
Lorsqu'il y a des migrations entre populations qui ont eu une histoire de fission, on s'attend à
encore moins de cohérence entre localisation géographqie des gènes et relations
généalogiques.
Bien que cette relation avait été dérivée dans le cas où les 2 gènes se trouvaient dans le même
individu, celle-ci peut s'étendre plus généralement à deux gènes pris au hasard à n'importe
quel niveau de subdivision, et par exemple à deux gènes pris au hasard dans un des dèmes de
la population. Donc par extension, on a la relation
qui montre que la statistique FST est également la variance observée des fréquences alléliques
sur la variance attendue.
Si l'on considère un modèle où l'on part d'une seule population qui se subdivise
instantanément en plusieurs dèmes tous de même taille et possédant tous les même
fréquences alléliques, la variance de p sera donc nulle au dèpart du processus. Ensuite, sos
l'effet de la dérive génétique, les dèmes vont peu à peu se différencier les uns des autres pour
leurs fréquences alléliques. En l'absence de migrations et de mutation, un allèle ou l'autre va
aller se fixer dans chaque population, et la variance de p entre les popualtion sera égale à un
maximum. Dans ce cas la valeur de FST sera égale à 1. On voit donc que FST traduit en
quelque sorte le degré de différentiation des dèmes dans le processus de fixation des
fréquences alléliques sous l'effet de la dérive génétique. C'est pourquoi ces statistiques F
sont parfois appelées des indices de fixation (fixation indexes).
D'une manière générale, les statistiques F sont reliées les unes aux autres par la relation (p.ex.
Wright 1969)
La barre sur le FIS indique qu'il s'agit du coefficient de consanguinité moyen calculé sur
l'ensemble des subdivisions.
Nei (1977) a montré comment calculer les statistiques F pour un nombre arbitraire d'allèles,
car elles peuvent être exprimées simplement en fonction des hétérozygoties observées et
attendues comme
avec Ho étant l'hétérozygotie observée dépendant des fréquences Pkii des homozygotes AiAi
dans les subdivisions
et bien sûr
Cockerham (1969, 1973) a montré que les corrélations entre gènes similaires aux statistiques
F pouvaient être estimées par une analyse de variance des fréquences alléliques. Une telle
analyse consiste à partitionner la variabilité génétique totale en divers composants de
variances qui expriment la proportion de la variance totale attribués à différents niveaux de
subdivision de population, soit
Ces estimateurs diffèrent quelque peu des estimateur de Nei à partir des hétérozygoties
observées et attendues, et sont relativement moins biaisés, surtout lorsque le nombre de
dèmes est la taille des échantillons est petit.
Nous avons ensuite montré (Excoffier et al. 1992) comment cette analyse de variance des
fréquences alléliques pouvait être étendue pour incorporer la diversité moléculaire des gènes.
On procède ainsi à une analyse de la variance moléculaire des échantillons (Analysis of
MOlecular VAriance: AMOVA).
5.1 Différences entre statistiques F estimées par la méthode de Nei et par la méthode de
Cockerham
Si l'on définit
alors les corrélations des gènes calculées par l'analyse de variance de Cockerham sont
données comme
5.2 Expression des statistiques F en fonction des temps de coalescence moyen des gènes
Montgomery Slatkin a montré la relation entre les probabilité d'identité Q définies plus haut
et les temps de coalescence (Slatkin 1991; Slatkin et Voelm, 1991). Deux gènes seront
identiques si, depuis leur ancêtre commun le plus récent (MRCA), il n'y a pas eu de
mutations sur aucun des 2 lignages. Supposons que cet ancêtre commun vivait il y a t
générations. Dès lors, si l'on admet encore que les mutations se produisent à un rythme u par
génération, la probabilité qu'aucune mutation n'est survenue pendant les 2 t générations de
séparation des deux gènes est donnée par
Mais bien sûr on ne connait pas ce temps de coalescence, si bien que la probabilité non
conditionnelle d'identité et obtenu en considérant tous les temps de coalescence possibles:
où P(t) est la probabilité que deux gènes coalescent au temps t et qui suit une loi géométrique
comme nous l'avons vu précédemement. Si u est petit, on a la relation approximative
On peut utiliser cette relation pour reformuler n'importe quelle statistique F en fonction de
temps de coalescences moyens. Ainsi, la statistique FST estimée par l'analyse de variance
devient
Exemple: FST dans un modèle de pure fission avec tailles de population constantes
Slatkin (1995) a considéré un modèle de populations subdivisées sans migrations mais avec
des fissions historiques. On supose qu'il y a T générations, un ensemble de dèmes ont
divergés les uns des autres et sont restés séparés depuis cette période. Il suffit de trouver les
Maintenant, considérons des gènes de dèmes différents. On sait que les dèmes sont restés
séparés pendant T générations. Donc il n'y a pas pu y avoir de coalescence pendant cette
période. Ensuite, les lignages se sont tous trouvés dans la population ancestrale de taille N. A
partir de cet instant, le temps moyen de coalescence de 2 lignages était à nouveau de 2N
Dans ce cas, on peut estimer le temps de divergence entre les dèmes à partir du FST mesuré
comme
Warren Ewens a dérivé en 1972 la distribution attendue des fréquences de k allèles dans un
échantillon de taille n. Sans entrer dans les détails de la dérivation, il a montré que cette
distribution conditionnée par le nombre d'allèles observés (k) était indépendante du paramètre
de mutation de la population = 4Nu. Cette distribution s'obtient comme
Il y a aussi un
défaut
d'allèles
présentant des
fréquences
intermédiaires
.
Il y a donc un
écart
significatif
entre les
distributions
observées et
attendues.
Ewens (1972) a aussi établi que la probabilité d'observer k types alléliques dans un
échantillon de taille n était donné par
Il y abien sûr une relation étroite entre la théorie de l'échantillonnage de Ewens et la théorie
de la coalescence avec mutation. Les simulations par coalescence peuvent d'ailleurs permettre
d'obtenir des échantillons aléatoires de taille donnée possédant un certain nombre d'allèles.
En ne gardant que les échantillons ayant le nombre d'allèle observé, on obtiendra la même
distribution que celle donnée par la formule de Ewens.
Bien que des résultats théoriques existent concernant l'espérance et la variance de différentes
statistiques portant sur la diversité moléculaire neutre dans une population stationnaire
(comme le nombre de sites polymorphes, l'homozygotie, ou le nombre moyen de différences
par paires), la théorie de la coalescence permet d'obtenir facilement et rapidement toute
la distribution de ces statistiques. C'est pour cela que des simulations basées sur la théorie
de la coalescence sont à la base même de la plupart des tests actuels de neutralité sélective.
La généalogie des gènes porteurs de l'allèle A1 peut donc fortement ressembler à celle de
gènes trouvés dans une population ayant connu une expansion récente (Slatkin et Hudson
Dans le cas de la sélection balancée, les allèles vont avoir tendance à être conservés pendant
une plus grande période dans la population que pour des allèles neutres. Dans la figue ci-
dessous, on voit qu'un allèle se maintient dans une population de taille finie pendant une très
longue période, alors que des mutations neutres se fixent beaucoup plus rapidement .
On s'attend à ce que la généalogie de gènes soumis à sélection balancée soit globalement plus
longue qu'une généalogie de gènes neutres, et donc qu'un locus soumis à sélection balancée
maintienne plus de variabilité qu'un locus neutre.
Diversité nucléotidique observée et attendue sous un modèle neutre dans la région du gène Adh
de la drosophile.
Sur cette figure, le pic de variabilité autour du site F/S semble bien être dû au polymorphisme
balancé. La diversité génétique diminue rapidement lorsque l'on s'éloigne du site sélectionné
à cause de la recombinaison. L'effet de la sélection balancée ne se fait donc sentir que pour
quelques centaines de paires de bases autour du site sélectionné et pas au delà.
On peut donc imaginer qu'un screening de la diversité moléculaire dans des régions codantes
pourrait mettre en évidence d'autres sites soumis à sélection balancée. Ceci n'a cependant pas
été étudié pour d'autres locus qu'Adh. Dommage.
On constate que la sélection d'arrière plan conduit à une diversité réduite par rapport à la
diversité attendue pour une gènealogie non soumise à sélection. Cependant, la forme de la
généalogie est très semblable à celle d'une généalogie neutre et il est très difficile de
distinguer l'action de la sélection d'arrière plan d'un taux de mutation réduit, ou encore d'un
mécanisme de sélection directionnelle avec balayage sélectif (selective sweep) à un locus
proche dont l'effet atténué se fait sentir par autostop (hitchhiking effect) au site étudié
(Charlesworth et al. 1993).
Dans ce modèle de sélection, les mutations avantageuses se fixent rapidement et les allèles
nuisibles à leur porteur sont éliminés. On s'attend à observer une diversité moléculaire réduite
par rapport à un polymorphisme neutre.
Watterson (1978, 1986) s'est basé sur la théorie d'échantillonnage de Ewens pour proposer un
test de neutralité sélective basé sur l'homozygotie attendue d'un échantillon. Cette
homozygotie attendue dépend uniquement des fréquence alléliques comme
Watterson a montré que cette statistique était une statistique suffisante pour rendre compte de
la diversité génétique de l'échantillon. En pratique, test consiste à comparer la valeur de la
statistique F à celles obtenues à partir d'échantillon simulés sous l'hypothèse de neutralité et
de stationarité de la population. On utilise le plus souvent un algorithme décrit par Stewart
(1977) pour générer des échantillons aléatoires de même taille et possédant le même nombre
d'allèles que l'échantillon observé. Pour chaque échantillon simulé, on calcule la statistique F,
et l'on obtient empiriquement la probabilité associée à F comme la fraction des échantillons
donnant une valeur de F inférieure ou égale à celle observée.
A l'inverse, une forme de sélection balancée devrait conduire à observer des fréquences
alléliques trop égales et donc à une valeur de F trop faible. C'est effectivement ce que l'on
trouve pour le système HLA.
Tajima (1983) a proposé un des premiers test de neutralité sélective basé sur la diversité
moléculaire des échantillons.le principe de ce test est de comparer l'estimation du paramètre
de mutation = 4Nu obtenue à partir du nombre de sites polymorphes S S) à celle obtenue à
partir du nombre moyen de différences entre 2 gènes , qui est précisément une estimation de
. Tajima a ainsi défini la statistique D comme
que nous avons déja vue. Le dénominateur est une expression compliquée que nous ne
développerons pas. Comme dans le cas du test de Ewens-Watterson, la valeur observée de D
est comparée à celles obtenues en simulant des échantillons tirés d'une population
stationnaire de paramètre de mutation S . Dans le logiciel Arlequin, on utilise des
simulations du processus de coalescence pour générer ces échantillons.
Sélection directionnelle et purificatrice: S est peu affecté par la forme de la génalogie mais
beaucoup par sa longueur totale. Par contre estaffecté par les 2 facteurs, et sa valeur
dépendra avant tout de la diversité des allèles les plus fréquents. Après un épisode de
balayage sélectif, on aura beaucoup d'alèles rares qui contribueront peu à mais beaucoup à
S, si bien que l'on s'attend à avoir des valeurs négatives de D.
Sélection balancée: Dans ce cas on aura un effet inverse, car des allèles de fréquences
intermédiaires auront beaucoup d'effet sur mais relativement peu sur S. D sera donc
positif.
Statistique D de Tajima dans des populations en expansion et avec présence de sites hot-
spots de mutation. La distribution de D se trouve alors entièrement à l'intérieur de
l'intervalle de confiance neutraliste.
4.3 Tests de Fu
Ce test est un peu analogue au test de Tajima, mais au lieu de regarder si le nombre de
différence par paires ( ) est compatible avec le nombre de sites polymorphes, il se base sur
la relation attendue entre et le nombre d'allèles de l'échantillon (k). L'estimateur est
Dans un échantillon ayant un excès de nouvelles mutations, estimé par devrait être plus
petit que estimé par le nombre d'allèle, et donc S ' devrait être un bon indicateur de la
présence de mutation nouvelles. Pour éviter d'avoir des valeur critiques de S ' trop proches de
zéro, Fu prend comme statistique le logit de S ', soit
Fu (1997) a montré que ce test était paticulièrement sensible pour détecter des expansions
récentes (et donc aussi de la sélection directionnelle). La probabilité associée à la statistique F
est obtenue par une série de simulation de processus de coalescence en prenant comme
paramètre de mutation.
On note que e correspond aux nomre de mutations singletons de l'échantillon. Ils ont
ensuite démontré que l'espérance de e était égal à
Comme on a vu que
D'autre part, en cas de sélection d'arrière plan, les mutations sur les branches internes de la
généalogie seront certainement neutres alors que les mutation faiblement délétères seront
plutôt présentes sur les branches externes si elles ne sont pas éliminées par la sélection. Fu et
Li ont ainsi construit une autre statistique G pour mettre en évidence la présence de mutations
faiblement délétères,
Par simulation, Fu a montré que les statistiques F et G était les plus puissantes pour
détecter un phénomène de sélection d'arrière plan, car elle contrastaient les mutations
singletons et non-singletons.
Il est donc intéressant de comparer les résultats de différents test pour essayer de mettre
en évidence non seulement un écart à la neutralité, mais encore un modèle possible de
sélection.