Pourquoi Étudier La Génétique

 Pourquoi étudier la génétique (moléculaire) des populations ?
a. Etude de la biodiversité
i. Recensement des espèces
ii. Reconnaissance des barrières inter spécifiques
 Caractérisation des populations de vaches en Afrique pour la FAO
iii. Caractérisation de la diversité génétique des espèces menacées
 Guépard d'Afrique, Condor des Montagnes Rocheuses
b. Génétique de la conservation - Gestion des stocks génétiques
i. Elevages d'animaux
 Aquaculture (Huîtres), Pisciculture (Saumon, Truite, etc...)
ii. Réintroduction et management d'espèces disparues ou menacées par des
espèces proches
 Ex: Tortues Caouanne en Méditerrannée, Bouquetin dans les Pyrénées,
Lynx en Suisse
iii. Banques de graines des espèces végétales
iv. Détermination d'espèces sauvages souches des espèces domestiques, pour
préserver la diversité génétique: Besoin d'identifier quelles sont ces espèces
souches.
c. Liens hôtes-parasites
i. Relation entre diversité génétique des hôtes et des parasites

ii. Adaptation des parasites à l'évolution des hôtes
iii. Transmission de facteurs de résistance
iv. Sélection des virus dans les hôtes
 Rougeole, HLA en Amérique, HIV
d. Echanges génétiques entre espèces
i.Espèces hybrides
 Ex: Fréquent chez les plantes
ii. Zones de tension, zones hybrides
 Corneille et Mus musculus en Europe, mais aussi chez les grenouilles
et les sauterelles dans les Pyrénées
iii. Transfert horizontal de gènes d'une espèce à l'autre
 Leghémoglobine chez les plantes, facteur P entre espèces de
Drosophile, vraisemblablement par le biais de vecteurs intermédiaires
et transposition.
e. Echanges génétiques entre populations
i. Migrations
ii. Caractérisation des flux migratoires entre populations
iii. Reconstruction de l'histoire du peuplement des espèces
iv. Assignation d'individus à des populations (migrants récents)
f. Barrières génétiques
Génétique des populations Page 1

i. Recensement de barrières génétiques
 Mise en évidence de sous-espèces (Génétique de la conservation)
o Ex: Myotis myotis au Maroc et en Suisse
ii. Comportementales
iii. Culturelles ou sociales (langues, coutumes).
g. Echanges génétiques entre individus
i. Choix du conjoint
 Peut-être pas aléatoire chez l'homme et la souris ou des individus
semblent préférer des partenaires possédant des spécificités différentes
de leur propre système HLA.
ii. Sytème de reproduction, consanguinité
 Maladies génétiques: ex: Rendu Osler
h. Evolution des gènes
i. Recontruction phylogénétiques
ii. Intraspécifiques
 Estimation de temps de divergence entre populations
 Mise en évidence de migrations
iii. Interspécifiques
 Estimation de temps de divergence entre espèces
 Mise en évidence de groupes monophylétiques
 Taxonomie moléculaire
iv. Intergéniques
 Estimation de temps de divergence entre gènes dupliqués
o Gènes de la globine: Apparition de nouveaux gènes au cours de
l'évolution, permettant de nouvelles adaptations.
i. Médecine légale
i. Empreintes génétiques
ii. Identification de suspects
j. Localisation de gènes
i. Gènes de maladies
 Analyse de liaison dans des familles (linkage analysis)
 Cartographie par étude de déséquilibre de liaison (linkage
disequilibrium mapping)
ii. Gènes contrôlant des caractères quantitatifs

 QTLs
k. Compréhension des mécanismes d'adaptation
i. Clines

 Gènes de résistances. Ex: Moustiques dans le midi
ii. Sélection au niveau moléculaire
 Diversité HLA
iii. Spéciation et adaptation
 Quelles sont les mutations inpliquées dans des spéciations
l. Démographie historique des espèces
i. Expansions démographiques, bottlenecks

 Laissent une signature au niveau moléculaire Ex: Expansions humaines
(Pléistocène, Néolithique)
ii. Domestication résultant d'une expansion démographique
 Ex: Chèvres, moutons
iii. Invasion virale
 Ex: Souches HIV différentes
iv. Bouleversements climatiques et écologiques
v. Mécanismes de colonisation (souvent associées à des expansion depuis des
zones refuges)
 Types de données moléculaires
a. Séquences d'ADN
o Taux de mutation potentiellement hétérogènes
b. SNPs
o Sites nucléotidiques nécessairement polymorphes...
c. Microsatellites
o Modèle de mutation pas à pas avec beaucoup d'homoplasies
d. RAPD - AFLP
o Marqueurs dominants
 Statistiques résumant l'information moléculaire
a. Nombre d'allèles (k)

b. Diversité génique (h)- Hétérozygotie (H)
c. Nombre moyen de différences entre paires d'allèles ou d'haplotypes ()
d. Nombre de sites polymorphes (S)
e. Autres...
 Echantillonnage
a. Taille des échantillons

b. Homogénéité (qualité) des échantillons
Evolution des fréquences alléliques - Dérive génétique

1. Equilibre de Hardy-Weinberg (HWE)
En absence de forces évolutives telles que la sélection, les mutations ou la dérive génétique,
les fréquences génotypiques dépendent uniquement des fréquences alléliques si les individus
choisissent aléatoirement leur conjoint pour s'accoupler. Cette union aléatoire des individus
implique aussi une union aléatoire de leurs gamètes.
Ainsi, pour un individu diploide, la fréquence attendue du génotype formé des allèles Ai et
Aj ayant comme fréquences respectives pi et pj sera de
Si les fréquences attendues des génotypes sont en accord avec les fréquences observées,
alors on dira que la population est en équilibre de Hardy-Weinberg, du nom du
mathématicien anglais Hardy et du médecin allemand Weinberg qui ont découvert
indépendemment cette relation en 1908 (voir la partie du cours évolution pour plus de détails
sur cette dérivation).
S'il y a un trop grand écart entre les fréquences attendues et observées, alors on est en droit de
penser qu'une force évolutive, comme la sélection, est en jeu, ou encore que les gamètes de la
population ne s'unissent pas au hasard. Mais encore faut-il démontrer que cet écart est
significatif, c'est à dire plus grand que ce que l'on attendrait par hasard.
1. 1. Test de l'équilibre de Hardy-Weinberg
Test de Chi-2
La manière classique de comparer des fréquences observées et attendues se fait par un test de
Chi-2. Supposons que l'on ait n individus diploïdes dans un échantillon et que l'on observed k
allèles à un locus donné. On aura donc potentiellement k(k+1) /2 génotypes différents.
Supposons ici que k=3, et que l'on observe les fréquences génotypiques absolues suivantes
A1 A2 A3
A1 n11 n1
A2 n21 n22 n2
A3 n31 n32 n33 n3
n1 n2 n3 n
Classiquement, le test de Chi-2 consiste à comparer les nombres observés des différents
génotypes aux nombres attendus sous l'hypothèse de Hardy-Weinberg, soit
A1 A2 A3

A1 n1
A2 n2
A3 n3
n1 n2 n3 n
On calculera donc la statistique
qui devrait suivre asymptotiquement une loi de Chi-2 à k(k-1) /2 degrés de liberté. On
déclarera qu'il y aura un écart significatif à l'équilibre de HW si la probabilité associée au X2
est inférieur à un certain niveau de confiance alpha prédeterminé, par exemple alpha=0.05.
Vous pouvez vous exercer à calculer la valeur du X2 sur cette page web et obtenir sa
probabilité associée sur celle-ci.
Test exact
Guo et Thompson (1992) ont introduit un test de déséquilibre de HW qui est une extension du
test exact de Fisher sur les tables de contingences 2 par 2. Le test exact de Fisher consiste à:
1. Enumérer toutes les tables de contingences possible ayant les même sommes
marginales qu'une certaine table de contingence observée.
2. Calculer la probabilité conditionnelle de chacune de ces tables, dont une est forcément
celle que l'on a observé. La probabilité de la table originale a été établie par Levene
(1949) comme étant égale à
avec H qui est le nombre d'individus hétérozygotes. La probabilité des autres tables s'obtient
en changeant la valeur des nij, les ni ne changeant pas car ce sont précisément les sommes
marginales.
3. Calculer la probabilité d'observer une table de contingence plus improbable que celle
que l'on observe. Celle-ci s'obtient en sommant les probabilités des tables de
contingence plus improbables que celle observée comme

Pour des petites tables de contingence il est possible d'énumerer de façon exhaustive toutes
les tables possibles, mais cela devient fastidieux et trop long pour de grandes tables de
contingences (grands échantillons et nombre élevé d'allèles et de génotypes). Dans ce cas on
n'explore pas toutes les tables possibles mais un grand nombre au moyen d'une chaîne de
Markov. On arrive ainsi à une très bonne approximation de la probabilité exacte dans un
temps raisonnables qui ne dépend pas de la taille de la table. C'est cette procédure qui est
implémentée dans le logiciel Arlequin (voir section "Methodological outlines" pour plus de
détails).
Pour de grands échantillons, l'approximation de Chi-2 est souvent très bonne, mais on
préférera un test exact lorsque l'on a de petits échantillons avec de faibles fréquences
génotypiques attendues < 5.
Dérivation de la formule de Levene
Il est assez informatif de dériver la formule de Levene. Faisons pour le cas simple d'un locus
à 2 allèles A et a, où l'on a donc les fréquences génotypiques suivantes dans un échantillon de
n individus.
Génotypes AA Aa aa
Fréquences nAA nAa naa
Dans la population, les allèles A et a ont des fréquences (inconnues) de pA et et 1- pA. Sous
l'hypothèse de HWE, la probabilité d'observer ces fréquences génotypiques suit une loi
multinomiale
Les fréquences alléliques inconnues de la population sont un problème, mais on peut s'en
débarrasser en calculant la probabilité des fréquences génotypique conditionnelle aux
fréquences alléliques observées nA et na. Ces fréquences alléliques ont elles-même une
probabilité qui suit une loi binomiale
si bien que la probabilité conditionnelle devient

ce qui montre bien que cette probabilité conditionnelle est indépendante des fréquences
alléliques dans la population.
2. Ecarts à l'équilibre de Hardy-Weinberg
Il y a plusieurs raison pour lesquelles on peut rejetter l'hypothèse de HWE. cela peut être du
au fait qu'un génotype donné aura une fréquence observée très différente de l'attendue, auquel
cas on pourra penser à un phénomène de sélection qui touche ce génotype. Au contraire, le
déséquilibre de HW peut toucher l'ensemble des génotypes, ce qui laisse penser à un
problème qui touche le système de reproduction, empêchant une union aléatoire des gamètes
et des individus. Une telle situation est courante en cas de consanguinité.
1.2 Consanguinité
Une population est dite consanguine lorsqu'une ceraine proportion d'individus apparentés
s'unissent pour produire des descendants dans la population. Dans ce cas, ces descendants de
couples consanguins pourront avoir des copies alléliques issues de la même copie d'un de leur
ancêtre commun. De ce fait, ils seront donc forcément homozygotes, mais pour une raison
indépendante des fréquences alléliques dans la population.
Un marriage entre frère et

soeur peut résulter en un
individu homozygote avec 2
gènes identiques par
ascendance

On s'attend donc intuitivement à ce qu'il y ait un excès d'homozygotes par rapport à HWE
dans une population consanguine. Cet excès sera d'autant plus grand qu'il y a d'individus qui
possèdent des gènes identiques par ascendance dans la population. Wright (1943, 1951) a
proposé d'appeller cette proportion d'individus le coefficient de consanguinité de la
population et il est généralement noté f. Cette proportion f correspond donc, pour un individu
pris au hasard dans la population, à la probabilité que ses deux copies alléliques soient
identiques par ascendance. La consanguinité de la population ne provoque pas de
modification des fréquences alléliques au cours du temps, mais elle va affecter les
fréquences génotypiques uniquement.
Plus formellement, considérons un locus à deux allèles A et a, de fréquences p et 1-p dans

une population diploide de taille supposée infinie. Notons P comme étant la fréquence des
homozygotes AA, H celle des hétérozygotes Aa et Q celle des homozygotes aa. On va d'abord
chercher à déterminer la fréquences des homozygotes AA. On peut être homozygote de deux
manières, soit parce que l'on a deux copies de gènes identiques par ascendance, avec la
probabilité f, soit car on a hérité de deux allèles de même type mais indépendants de deux
parents non-apparentés, et ceci avec une probabilité 1-f. Donc,
On peut raisonner exactement de la même manière pour les homozygote aa et l'on aura donc
Pour les hétérozygotes Aa, le raisonnement est similaire. Il faut juste réaliser que l'on ne peut
être hétérozygote que si ses 2 copies ne sont pas identiques par ascendance et donc
On a donc bien un déficit d'hétérozygotes en cas de consanguinité. On peut donc exprimer f

en fonction de ce déficit d'hétérozygotes. En réarrangeant la dernière équation, on obtient

ce qui montre que le coefficient de consanguinité f est égal à 1 moins le rapport de
l'hétérozygotie observée sur l'hétérozygotie attendue sous l'hypothèse de HWE.
On peut bien sûr dériver les fréquences attendues des différents génotypes pour plus de 2
allèles, et l'on a, d'une manière générale
On a dit que les fréquences alléliques ne sont pas affectées par la consaguinité. On peut le
vérifier en exprimant p en fonction de P, et H. Ainsi
On peut consulter le cours d'évolution sur la consanguinité pour visualiser l'effet du

coefficient f sur les fréquences génotypiques.
Consanguinité et corrélation des gamètes
Wright a aussi montré que le coefficient de consanguinité f était égal à la corrélation des
deux gamètes d'un individu par rapport à deux gamètes pris au hasard. Voyons cela de plus
près et considérons une population où l'on a 2 allèles A et a de fréquence p et 1-p. On a une
certaine proportion d'hétérozygotes Ho dans cette population. On voit dans la table qui suit
que l'on peut exprimer les fréquences génotypiques dans la population en fonction de la
fréquences des hétérozygotes Ho et des fréquences alléliques, sans faire l'hypothèse de HWE.
Fréquences des différents génotypes dans la population
Gamète 2
A a Total

A p
Gamète
1
a 1-p
Total p 1-p 1
On va considérer une variable indicatrice y qui sera égale à 1 si on tire un gamète de type
allélique A et à 0 si on tire un a. On voit tout de suite que si l'on répète l'épreuve qui consiste
à tirer un grand nombre de gamète, l'espérance de y est égale à
E(y) = p.1 + (1-p) .0 = p
De la même manière, E(y2) = p et la variance de y est obtenue facilement comme
Pour calculer la corrélation de deux gamètes y1 et y2, il ne nous manque plus que leur
covariance cov(y1, y2). Celle-ci est obtenue de manière standard comme
cov(y1, y2) = E(y1y2) - E(y1) E( y2)
La simple consultation de la table précédante nous permet d'obtenir facilement cette

covariance, car il apparaît que
Ainsi,
et

On remarque donc que la corrélation de deux gamètes est bien égale à f, le coefficient de
consanguinité défini un peu plus haut.
La notion de corrélation entre gamètes est intimement liée aux statistiques- F (F-statistics)
définies par Wright (1943, 1951) dans le cas de populations subdivisées. Nous y reviendrons
par la suite, mais il est important de noter ici que le coefficient de consanguinité est
équivalent à la statistique FIS définie par Wright comme la corrélation moyenne des 2 gènes
d'un individu par rapport à deux gènes pris au hasard dans une des subdivisions de la
population.
Finalement on notera que d'autres systèmes de reproduction causent des écarts à l'HWE,
comme l'autofécondation totale ou partielle, ou le choix du conjoint sur la base de son
phénotype (assortative mating).
2. Dérive génétique dans des populations de taille finie
Alors que dans des populations de taille infinie les fréquences alléliques sont stables au cours
des générations en l'absence de sélection et de mutation, les fréquences alléliques varient
aléatoirement dans des populations de taille finie. Cela est du à la variabilité du tirage
aléatoire des gènes d'une génération à l'autre.
2.1 Modèle démographique de Wright-Fisher
Pour permettre un traitement mathématique pas trop compliqué, on modélise la transmission

des gènes d'une génération à l'autre de façon très schématique. Ce modèle est une
simplification considérable du cycle de reproduction des populations naturelles. Il représente
à peuprès celui d'une population monoèce pratiquant l'autofécondation, mais avec des
générations séparées. Dans ce cas, une population de N individus peut êre représentée par un
vecteur de 2N copies alléliques.
Tansmission aléatoire avec répétition des gamètes entre générations séparées

Selon ce modèle, les 2N gènes des individus d'une certaine génération sont tirés avec
répétition à partir des 2N gamètes de la génération précédente. Le nombre de copies
transmises d'un certain gamète suit donc une loi de Poisson de paramètre =1.
Conséquences:
 Un individu peut transmettre plusieurs copies du même gamète à la génération

suivante.
 Les deux gènes d'un certain individu peuvent être issus du même gène à la génération
précédente. Il sont donc dans ce cas identiques par ascendence.
2.2 Evolution des fréquences alléliques sous l'effet de la dérive génétique
Intéressons nous de nouveau à un locus à 2 allèle A et a, où la fréquence de l'allèle A est p

dans une population diploide de taille N suivant le modèle de Wright-Fisher.Quelle va être la
fréquence de l'allèle A à la prochaine génération. Sur la figure précédente on voit que la
nouvelle génération est formée par tirage aléatoire de 2N gènes à partir du pool gamétique de
la génération précédente.On considère en général que la taille de ce pool gamétique est infini,
du fait que chaque individu produit un nombre considérable de gamètes.
La constitution de la nouvelle génération consite donc à répéter 2N épreuves élémentaires où

l'on a à chaque fois une probabilité p de tirer un allèle A et une probabilité 1-p de tirer un
allèle a. Le nombre X d'allèle A à la prochaine génération est donc une variable aléatoire qui
suit donc une loi binomiale de paramète b(2N, p). La probabilité d'observer r allèles est
donnée par
et r peut donc varier de 0 à 2N copies, impliquant que p(t+1) peut prendre des valeurs variant
entre et comprenant 0 et 1, avec une certaine probabilité donnée par la loi binomiale.
Distribution de probabilité de la fréquence de l'allèle A si la fréquence

à la génération prédédente est de p=0.5

Distribution de probabilité de la fréquence de l'allèle A si la fréquence
à la génération prédédente est de p=0.1
L'espérance de X est bien sûr donné par E(X) = 2N p, et sa variance par V(X) = 2N p (1-p).
On peut facilement obtenir l'espérance et la variance de p(t+1) comme
Comme cela était déjà clair sur les figures ci-dessus, l'espérance de la fréquence de l'allèle A à
la génération t+1 est sa fréquence à la génération t, et donc de sa fréquence initiale p0. Par

contre, si l'espérance de la fréquence allélique est constante, sa variance est d'autant plus
grande que la population est petite. En d'autres termes, la taille finie de la population
provoque une variation aléatoire des fréquences alléliques d'une génération à l'autre. Si
l'on part d'une fréquence initiale donnée p0, la fréquence de l'allèle A variera aléatoirement au
cours des générations, et ceci d'autant plus que la taille de la population sera petite. On peut
visualiser ce processus de dérive génétique sur les figures suivantes.
Dans une population de 10 individus diploides, on va fixer rapidement un allèle ou un autre

en partant de 0.5. Notez aussi la très grande amplitude des changements de fréquence d'une
génération à l'autre.

Dans un epopulation de 50 individus, un polymorphisme va pouvoir être maintenu pendant
une plus longue période, mais ultimement on aura aussi fixation ou perte d'allèle. Les
fréquences alléliques varient toujours fortement d'une génération à l'autre.
Avec 250 individus, aucune population n'a fixé d'allèles au bout de 150 générations. Les
variations de fréquences alléliques sont aussi de plus faible amplitude.
Avec 500 individus, les fréquences varient relativement faiblement autour de la fréquence
initiale. On se rend compte que la moyenne des fréquences alléliques tend vers la fréquence
initiale.

Vous pouverz aussi aller sur ce site pour essayer d'autres combinaisons de paramètres.
Ces différentes courbes correspondent à des réplications indépendentes du processus

d'évolution des fréquences alléliques à partir d'une même fréquence initiale. Cela
pourrait correspondre à l'évolution de différents locus dans la même population, ou à
l'évolution de différentes populations ayant divergé à partir d'une certaine population
ancestrale. Dans ce cas, on se rend compte que la divergence des populations augmente
régulièrement au cours du temps.cette divergence est liée à l'augmentation de la variance des
fréquences allélique de génération en génération. On peut en effet montrer que l'évolution de
la variance au cours du temps est donnée par
Sur la figure suivante, on a représenté, pour différents nombres de gènes dans la population
(2N), l'enveloppe p0=0.5 ± (t).
Cette augmentation régulière de la variance des fréquences alléliques peut être utilisée pour
calculer le temps de séparation d'un ensemble de populations (sous l'hypothèse qu'elles
n'ont pas échangé de migrants). On suppose qu'on observe un ensemble de populations ayant
des fréquences alléliques p1, p2, p3, ... pi, ..., pd. La fréquence moyenne sur l'ensemble des
populations va se rapprocher de la fréquence initiale p0 et on peut ré-écrire l'équation
précédente comme:

et le temps de divergence exprimé relativement à la taille des populations s'obtient facilement
comme
Attention: Pour que ce temps de divergence ait un sens il faut que les hypothèse de notre
modèle soient vérifiées. Si il y a des migrations entre les populations ce temps de divergence
sera sous-estimé. Si les populations ne sont pas toutes de même taille, il sera sur-estimé.
Enfin, notez que comme D dépend inversément de N, un certain degré de divergence sera
obtenu beaucoup plus rapidement pour des petites populations que pour des grandes.
2.3 Consanguinité due à la taille finie des populations
Dans le modèle de Wright-Fisher, il est parfaitement possible que les 2 copies alléliques d'un
individu soient identiques par ascendance d'une même copie de la génération précédente, et
cet évènement à une probabilité égale à 1/(2N). Dans le cas contraire, il est aussi possible que
les 2 copies soient identiques par ascendance mais à une génération antérieure. Le coefficient
de consaguinité f de la population à la génération t+1 va donc être égal à
La consanguinité de la population va ainsi augmenter au cours du temps du fait de la

taille finie de la population. L'hétérozygotie de la population va du même coup diminuer.
On a vu plus haut que le coefficient de consanguinité et l'hétérozygotie étaient liés par la
relation 1 - f = H / [ 2 p (1 - p) ]. Ainsi, en commançant par ajoutter 1 aux 2 côtés de
l'équation précédente, on obtient
en ignorant les modifications de fréquences alléliques dus à la dérive génétique.

L'hétérozygotie de la population décline donc à un taux égal à 1/(2N) par génération, et à
terme il n'y aura que des homozygotes dans la population du fait du processus de fixation des
allèles par dérive génétique. L'hétérozygotie moyenne de la population variera donc au cours
du temps selon la relation suivante:

et la consanguinité selon
2.4 Matrice de transition - Chaîne de Markov
On a vu que la loi binomiale donnait la probabilité qu'un allèle passe d'une fréquence p à la
génération t à la fréquence p' à la génération t+1. Si l'on raisonne en terme de fréquence
absolue, on voit que la loi binomiale décrit la probabilité de passer de i copies à j copies
en une génération, probabilité que l'on peut noter pij.
On peut ainsi représenter l'évolution des fréquences alléliques dans une population de
taille N comme une marche aléatoire dans un espace où les probabilités de déplacement
sont définie par une matrice de transition de taille (2N+1) dont les éléments sont
précisément les pij. Par exemple, pour une population de 10 individus, on peut visualiser la
matrice de transition dans la figure suivante.

Matrice de probabilité de transition entre fréquences alléliques dans une
population de 10 individus diploides.
La probabilité de passer d'une certain nombre de copies à un autre

est exprimé sur l'axe Z.
Cette marche aléatoire peut être assimilée à une chaîne de Markov dont les probabilités de
transitions entre états {0, 1, 2, 3, ..., i, ... , 2N-2, 2N-1, 2N}sont définis par les probabilités
binomiales
Comme les états 0 et 2N sont absorbants, le résultats d'une marche aléatoire dans cette chaîne
ne peut qu'aboutir à la perte (i = 0) ou à la fixation (i = 2N) d'un allèle. D'autre part, comme
pour toute chaîne de Markov, la probabilité d'effectuer une certaine transition ne dépend que
de l'état présent et pas des états antérieurs, et donc pas du chemin déjà parcouru. On peut
donc théoriquement prédire l'évolution des fréquences alléliques dans une population de
n'importe quelle taille, mais pratiquement cette approche matricielle est limitée à des
populations de petites taille.
Pour des populations de grande taille, on approxime cette marche aléatoire dans un espace
discret par un processus de diffusion dans un espace continu. Cette approche a été
principalement introduite par Kimura.

3. Equilibre mutation-dérive
Dans ce qui a précédé, nous n'avons pas considéré la possibilité d'avoir des mutations qui
sont une des forces évolutives. L'apparition de nouveaux mutants va avoir plusieurs
conséquences dont la première est de mofifier les fréquences alléliques dans les populations
de taille finie, et une autre et d'empêcher la fixation ultime des allèles. Les mutations vont
donc interférer quelque peut avec le processus de dérive génétique.
3.1 Modèle des allèles infinis
Dans le modèle des allèles infinis, on fait simplement l'hypothèse qu'une mutation
provoque l'apparition d'un nouvel allèle qui n'était encore jamais apparu dans la
population. La fréquence initiale de ce nouvel allèle sera bien évidemment de
Kimura et Crow (1964) ont montré que la probabilité de fixation d'un nouveau mutant
neutre était sa fréquence initiale soit 1/(2N). la probabilité qu'il soit ultimement perdu
par dérive génétique est donné par la probabilité complémentaire soit, 1-1/(2N).
Kimura et Ohta (1971) ont dérivé le temps moyen de fixation T1 pour un nouveau mutant
neutre comme étant égal à
el le temps moyen de sa perte T0 comme étant
soit un temps beaucoup plus court que sa fixation.
Dans des populations de taille finie et en présence de mutations, de nouveaux allèles vont
être introduits par mutation et d'autres seront perdus par dérive. Il peut s'établir un équilibre
entre ces 2 forces qui va conditionner le nombre d'allèle qui pourrront être maintenus
dans une population de taille donnée.
3.2 Consanguinité et mutation
Nous avons vu plus haut que la taille finie des populations conduisait à une augmentation de
la consanguinité de la population. En présence de mutation, cette augmentation de
l'homozygotie va être quelque peu freinée par l'introduction de nouveaux allèles. Plus
formellement, le changement du coefficient de consanguinité au cours du temps va
maintenant être conditioné par le fait que les copies d'un individu ne pourront être

identiques par ascendance que si elles n'ont pas muté aucours de la dernière génération.
Ainsi
ou u est le taux de mutation par gène par génération. A l'équilibre mutation-érive, f(t+1) = f(t)
= f , si bien que
On peut résoudre cette équation pour f pour aboutir à
et si l'on ignore les termes en u2 on obtient
Dans un modèle avec mutation le coefficient de consanguinité à l'équilibre mutation

dérive est équivalent à l'homozygotie de la population, puisque deux copies alléliques du
même type seront obligatoirement issue d'une même copie sans mutation si l'on remonte
suffisamment loin dans le passé.
Crow et Kimura ont défini le nombre efficace d'allèle pouvant être maintenu à l'équilibre
mutation-dérive ne comme la réciproque de la consanguinité, soit
Ce nombre est défini ainsi car il correspond au nombre fictif d'allèles ayant tous une
fréquence identique et qui donnerait lieu à l'hétérozygotie attendue.
Remarque: On représente souvent la quantité 4Nu par la notation  , qui correspond donc au
produit de la taille de la population par le taux de mutation. Ces 2 quantités sont rarement

estimables séparément au vu de la diversité génétique de la population et seul  peut être
estimé indépendamment.
Introduction à la théorie de la coalescence
1. La coalescence: une approche rétrospective de la génétique des populations
L'approche classique de la génétique des populations consiste à essayer de prédire l'évolution

du polymorphisme génétique dans une population sous l'influence de différentes forces
évolutives. C'est donc une approche essentiellement prospective. Une fois que l'on a
compris ce qui se passe au niveau de la population, il faut encore développer la théorie qui
concerne des échantillons tirés de la population, car c'est le matériel que l'on observe. D'autre
part, la plupart des résultats obtenus font l'hypothèse que la population que l'on considère est
à un état d'équilibre entre différentes forces évolutives, par exemple entre la mutation et la
dérive génétique, ou entre sélection et dérive.
Ainsi par exemple on va obtenir, après bien des efforts que le nombre de sites polymorphes
S attendus dans un échantillon de taille n est égal à (Watterson 1975)
Ce résultats est important et permet d'obtenir une estimation relativement bonne du

paramètre =4Nu.
La théorie de la coalescence a une approche entièrement différente. Elle part d'un échantillon
de gènes observés, et vise à reconstruire l'histoire généalogique de ces gènes, selon une
certaine histoire démographique de la population et un certain modèle de mutation, jusqu'à
l'ancêtre commun le plus récent de ces gènes. On n'a pas donc pas besoin de modéliser
l'ensemble de la population. On se préoccupe uniquement de notre échantillon. C'est une
approche essentiellement rétrospective.
2. Généalogie des individus et généalogie des gènes
Considérons tout d'abord une généalogie d'individus diploïdes. Chacun de ces individus va
avoir un certain nombre de descendants auxquels il aura transmis une des 2 copies de ses
gènes à un locus donné. Certains gènes d'un individu ne seront pas transmis, mais d'autres
pourront être transmis en un ou plusieurs exemplaires.
Génératio
n1
Génératio
n2

Génératio
n3
Le gène représenté par le rond rouge (gène ancêtre de la génération 1) va être transmis à deux
enfants différents à la génération 2, et ces enfants le transmettrons eux-mêmes à un de leur
descendants à la génération 3. Ces 2 gènes rouges seront donc identiques par ascendance, et
ils auront un ancêtre commun 2 générations auparavant.
En première approximation on va ignorer le fait que ces gènes se trouvent dans des individus
diploides. Cela revient à dire assimiler notre population diploide de taille N à une
population haploide de taille 2N. On va ainsi visualiser plus simplement leurs relations
d'une génération à l'autre en représentant uniquement les lignes d'ascendance de ces gènes,
ou dit plus simplement les lignages de ces gènes. Lorsque deux lignages se rejoignent chez
un gêne ancestral, on dit qu'ils coalescent. Il s'agit donc d'un évènement de coalescence.
La théorie de la coalescence décrit donc simplement le processus de coalescence des

gènes d'un échantillon depuis la génération présente jusqu'à l'ancêtre commun de tous
les gènes d'un échantillon.
Pour simplifier, considérons une très petite population de taille constante contenant 7 gènes
(marqués en bleu) de la figure suivante.

En remontant
dans le passé,
on voit que les
lignages vont
progressivement
fusionner les
uns avec les
autres par une
série de
coalescence
(marqués en
rouge), jusqu'à
un seul ancêtre
commun, à la
génération 6.
Donc tous les gènes de la générations 0 ont un ancêtre commun 6 générations auparavant.
Maintenant, si l'on regarde le processus dans le sens du temps, on voit que un des gènes de la
génération 6 s'est fixé dans la population à la génération 0. Les autres gènes de la génération
0 se sont perdus, ils n'ont pas été transmis jusqu'à la génération présente. Ce processus de
fixation d'un gène et de perte des autres gènes est en fait exactement le processus de dérive
génétique. On voit donc que le processus rétrospectif de coalescence est entièrement
analogue à un processus prospectif de dérive génétique. Mais il deux avantages principaux
par rapport au processus de dérive.

1. On ne va
s'intéres
ser
qu'aux
lignages
qui
laissero
nt des
descend
ants à la
générati
on
actuelle.
2. On ne va
considér
er qu'un
échantill
on tiré
au
hasard
de la
populati
on, et
pas la
généalog
ie de la
populati
on
entière.
3. Démographie et temps de coalescence

Kingman a formellement décrit le processus de coalescence en 1982 pour un échantillon de
taille n tiré d'une population diploide de taille N (ou d'une population haploide de taille 2N). Il
s'agit d'une marche aléatoire dans le passé ou l'on va passer par des états successifs avec n
lignages, n-1, lignages, n-2 lignages etc, jusqu'à l'ancêtre commun où l'on n'aura plus qu'un
seul lignage. Bien entendu, le passage d'un état avec j lignages à un état avec j-1 lignages
correspond à un évènement de coalescence. Au cours du processus de coalescence, on va
donc séjourner pendant un certain temps Tn à un état avec n lignages, puis un temps Tn-1 à un
état avec n-1 lignages, etc, pour finir par un temps T2 pendant lequel on n'aura plus que 2
lignages avant l'ultime évènement de coalescence.
Kingman a dérivé la distribution de probabilité de ces temps Tj en faisant les hypothèses

suivantes:
1. Le modèle démographique sous-jacent correspond au modèle de Wright-Fisher.
2. La taille de l'échantillon est beaucoup plus petit que la taille de la population (n<<N),
de telle sorte qu'il ne peut y avoir qu'un seul évènement de coalescence par
génération.
On peut dériver ces temps en commençant par s'intéresser à la probabilité d'un évènement de
coalescence entre j lignages P(j) à la génération précédente. Si l'on considère une paire de
lignages quelconque, c'est la probabilité que ces 2 lignages sont dérivés d'une même copie
d'un individu de la génération précédente, c'est à dire qu'ils sont identiques par ascendance à
la génération précédente. On a vu que cette probabilité était égale à 1/(2N). maintenant, on
doit considérer qu'un lignage peut coalescer avec n'importe quel autre lignage, et ceci avec la
même probabilité. Si l'on a j lignages, on peut former j(j-1)/2 paires différentes, ce qui
représente le nombre de combinaisons possibles de 2 lignages parmi j. Donc P(j) s'obtient
comme
et donc la probabilité qu'il n'y ait aucun évènement de coalescence est 1-P(j). A chaque
génération on peut associer une épreuve qui consistera à vérifier s'il y a eu un évènement de
coalescence ou non. Le temps de coalescence Tj peut être considéré comme le nombre de
générations écoulées jusqu'à ce que l'on ait un évènement de coalescence. C'est donc une
variable aléatoire qui est le nombre d'épreuves nécessaires pour observer un succès de
probabilité P(j). Une telle variable aléatoire suit une loi géométrique qui a la distribution de
probabilité suivante:
Cela revient simplement à dire que pendant t-1 générations il n'y a pas eu de coalescence et
qu'il y en a eu une à la t-ième. L'espérance et la variance d'une telle loi géométrique sont
connues et égales à

Approximation continue
Comme on fait l'hypothèse que la taille de la populations est grande, on peut considérer que
la longueur d'une génération est presque négligeable par rapport à la longueur totale de la
généalogie. Dans ce cas, on peut utiliser la version continue de la loi géométrique qui est
la loi exponentielle qui a comme densité de probabilité
Cela n'a pas d'effet sur l'espérance, mais la variance des temps de coalescence est simplifié.
L'espérance s'obtient comme
et la variance est donnée par
Standardisation
On peut aussi, faire abstraction de la taille de la population en exprimant les temps de

coalescence en unité de 2N générations. Dans ce cas, on a simpement

4. Visualisation des généalogies
On peut visualiser l'espérance des temps de coalescence sur une généalogie "moyenne" ou
les temps de coalescence seraient égaux à leur moyenne.
On remarque que les temps de coalescence moyens augmentent exponentiellement lorsque

l'on remonte dans le passé. Donc dans une population stationnaire (de taille constante) on
s'attend à ce que la majorité des évènements de coalescence surviennent relativement tôt et
que les derniers soient très espacés. Notamment le temps moyen pour la dernière coalescence
est égal à 2N générations, avec toutefois une variance égale à 2N(2N-1), soit près du carré de
la moyenne. Le processus généalogique a donc une très forte variabilité. Ceci implique que
les généalogies de locus indépendants pourront être très différentes. Cette variabilité peut être
visualisée et étudiée empiriquement à partir de cette page. Par exemple on peut représenter
les généalogies tirés de 6 échantillons de 5 gènes simulés pour la même population
stationnaire, mais pour 6 locus différents.

La variabilité des topologies est facilement perceptible, mais notez aussi les différence
d'échelle entre les 4 généalogies, ce qui indique aussi des différences considérables de la
taille de ces généalogies.
On peut également dériver la taille totale Tn de la généalogie, c'est à dire le temps jusqu'à
l'ancêtre commun le plus récent (MRCA en anglais) de tout l'échantillon. On a bien
évidement
Lorsque n est grand, on a donc Tn  4N , ce qui correspond au temps moyen de fixation

d'un nouveau mutant de fréquence initiale 1/(2N) dans une population, un résultat bien
connu de la génétique des populations prospective. On voit donc de nouveau la relation entre
processus de dérive et processus de coalescence.
On notera aussi que comme la probabilité de coalescence de n'importe quelle paire de lignage
est identique, toutes les topologies de généalogies ayant les mêmes temps de coalescence
sont équiprobables. Ainsi, la topologie b de la généalogie moyenne ci-dessous est aussi
probable que la topologie a de la généalogie que l'on a vu ci-dessus.

Généalogie nucléaire Généalogie mitochondriale
Enfin, il est important de constater que la taille absolue des généalogies va dépendre
étroitement de l'effectif efficace de la population d'où elles sont issues. Sur la figure ci-
dessus, on a représenté côte à côte la généalogie moyenne d'un gène nucléaire pour lequel il
existe donc 2N copies dans la population et la généalogie moyenne d'un gène mitochondrial,
pour lequel il existe N/2 copies dans la population, car ils'agit d'un système haploide transmis
uniquement par les femmes. On s'attend donc à ce que le TMRCA mitochondrial soit beaucoup
4c fois plus récent que le TMRCA nucléaire, et c'est à peu près ce que l'on remarque par
exemple chez l'homme, comme le montre la table ci-dessous..
Etude T MRCA Référence

ADN 160-250'000
Vigilant et al. 1991
mitochondrial ans
170-200'000
Chromosome Y Hammer, 1995; Tavaré et al. 1997
ans
120-150'000
Chromosome Y Hammer et al. 1998
ans
-globine 800'000 ans Harding et al. 1997
Chromosome X >200'000 ans Zietkewicz et al. 1998
Chromosome X 1'860'000 ans Harris et Hey 1999
Chromosome X 535'000 ans Koessmann et al. 1999
4. Coalescence et mutations
Jusqu'à présent, nous n'avons pas parlé de mutations, car pour des gènes neutres, le processus
de coalescence ne dépend pas du processus de mutation. On peut les considérer comme
totalement indépendants. Donc la longueur des branches d'une généalogie dépendra
uniquement du processus démographique et pas du processus mutationnel.

L'addition de mutations au processus de coalescence s'effectue donc d'une manière très
simple. On suppose que, pour une généalogie donnée, les mutations se produisent
aléatoirement le long des branches.
Généalogie sans mutation Généalogie avec mutations
On fait d'habitude l'hypothèse que les mutations se produisent suivant une loi de Poisson de
paramètre = ut, où u est le taux de mutation par unité de temps, et t la longueur d'un
segment de branche quelconque. Dans la version continue du processus de coalescence, où le
temps est mesuré en unité de 2N générations, le paramètre devient
4.1 Modèle de mutation des sites infinis
Il convient de bien définir le modèle de mutation que l'on considère. Selon le modèle que l'on
va utiliser,le processus de mutation aura différents effets sur la diversité moléculaire
observée. Le modèle de mutation le plus simple est le modèle dit des sites infinis a été
introduit par Kimura en 1968. Il est en fait l'équivalent du modèle des allèles infinis pour
les données moléculaires. Selon ce modèle, toute nouvelle mutation se produit à un
nouveau site qui n'a encore jamais été touché par une mutation. Les molécules qui suivent ce
modèle ne connaissent donc pas d'homoplasie.
C'est généralement le modèle utilisé pour dériver la plupart des résultats théoriques
concernant la variabilité moléculaire des séquences d'ADN. Si la séquence d'ADN
considérée est très long et que le taux de mutation est bas, ce modèle constitue une très bonne
approximation de la réalité. Il sera donc aproprié pour des molécules d'ADN nucléaire, mais
pas très réaliste pour des molécules d'ADN mitochondrial.

Selon ce modèle, la théorie de la coalescence avec mutation peut ainsi tout de suite nous
permettre de dériver quelques résultats importants
Nombre de sites polymorphes S dans un échantillon
Sous le modèle des sites infinis, le nombre de sites polymorphes S d'un échantillon est
simplement le nombre de mutations s'étant produites dans la généalogie des gènes de
l'échantillon. L'espèrance de cette variable aléatoire est simplement fonction de la longueur
totale de la généalogie T et du taux de mutation u.
ce qui a été obtenu de manière sensiblement plus compliquée par Watterson en 1975. Un
relativement bon estimateur de  basé sur le nombre observé de sites polymorphes est donc
obtenu comme
Homozygotie attendue
L'homozygotie attendue F est la probabilité que lorsque l'on tire 2 gènes (habituellement
chez le même individu), ils soient du même type allélique. Bien évidemment, deux copies
d'un gène appartiendront à la même classe allélique (seront une copie du même type
allèlique) s'ils ne diffèrent l'un de l'autre par aucune mutation. Donc deux gènes seront donc
du même type allélique s'il n'y a pas eu de mutation depuis leur ancêtre commun le plus
récent. Cela est donc équivalent à la probabilité d'observer 0 sites polymorphes entre 2
gènes tirés au hasard.
Pour un temps de coalescence donné, la probabilité d'observer zéro mutations entre 2 gènes
est égale à

car 2 gènes qui coalescent il y a T2 générations ont été séparés pendant 2T2 générations. On
obtient la probabilité non conditionnelle par rapport à T2 en tenant compte de tous les temps
de coalescence possibles pour T2 sous l'approximation continue comme
L'homozygotie attendue F est donc donnée par
et l'hétérozygotie attendue H par
Coefficient de consanguinité dans une population de taille finie
On réalise que sous ce modèle l'homozygotie attendue F est égale au coefficient de

consanguinité f , puisque obligatoirement 2 gènes du même type allélique sont identiques par
ascendance.
Changements démographiques et diversité moléculaire
1. Concept d'effectif efficace (effective population size)
Dans les populations naturelles, tous les individus ne participent pas forcément au processus
reproductif, si bien qu'en général l'effectif de la population N qui détermine le rythme de la
dérive génétique n'est pas égale à l'effectif de recensement de la population. On défini donc
l'effectif efficace de la population (ou taille efficace) comme l'effectif d'une population
idéale (de type Wright-Fisher) pour laquelle on aurait une fluctuation du polymorphisme
équivalente à celle de la population naturelle.C'est donc le nombre d'individus d'une
population idéale pour lequel on aurait un degré de dérive génétique équivalent à celui
de la population réelle. On note ce nombre comme Ne.
Il y a en fait plusieurs types d'effectif efficace, selon à quel effet de la dérive génétique on
s'intéresse.
 Changement de la consanguinité de la population (inbreeding effective population

size).

Dans une population idéale, on a vu que la probabilité que 2 gènes soient identiques par
ascendance à la génération précédente était égal à 1/(2N) et que le changement du coefficient
de consaguinité d'une génération à l'autre était donné par
Donc, dans une population réelle, l'effectif efficace sera celui qui provoquera un changement
de consanguinité de même amplitude que dans une population idéale.
 Variance du changement des fréquences alléliques d'une génération à l'autre

(variance effective population size).
Dans une popualtion idéale, on a vu que la variance de la fréquence allélique (V(t+1))

conditionnelle à celle de la génération précédente (p(t)) était donnée par la variance
binomiale
Donc l'effectif efficace de variance sera donné par quelque chose de la forme
 Changement de l'hétérozygotie de la population d'une génération à l'autre

(eigenvalue effective population size)
Dans une population idéale, on a vu que le changement d'hétérozygotie d'une génération à

l'autre était donné par le rapport
qui était égal à
Si bien que l'effectif efficace d'une population réelle provoquant le même changement
d'hétérozygotie que dans une population idéale sera défini comme

De manière générale, (mais pas toujours) les trois types de taille efficace donnet des valeurs
identiques. On utilisera une définition ou une autre selon les cas.
1.1 Population avec sexes séparés (dioécie)
Contrairement au modèle de Wright-Fisher, dans une population avec des sexes séparés deux
gènes ne peuvent être identiques par ascendance (ibd) que 2 générations auparavant.
Si l'on considère un individu quelconque, il peut avoir 2 gènes ibd venant de son grand-père
ou de sa grand-mère. Considérons qu'il y a Nm mâles dans la population et Nf femelles. Les
parents d'un individu de la génération t peuvent avoir 2 gènes ibd venant d'un mâle (le grand-
père) avec une probabilité 1/(2Nm) (en bleu sur la figure ci-dessus). Chaque parent a une
probabilité 1/2 de lui transmettre son gène ibd, et donc une probabilité totale de 1/4 que les
deux gènes ibd de ses parents lui soient transmis. Il y a donc une probabilité de 1/(8Nm) pour
que ses deux gènes soient ibd en provenance de son grand-père. Par le même raisonnement, il
y a une probabilité de 1/(8Nf) pour que ses 2 gènes soient ibd en provenance de sa grand-
mère. Il y a donc une probabilité totale de 1/(8Nm) + 1/(8Nf) pour qu'il ait 2 gènes ibd.
Or on a vu précédemment que la probabilité qu'un individu d'une population idéale ait 2

gènes ibd était de 1(2N). Il en découle que l'effectif efficace de consanguinité dans une
population avec sexe séparé est obtenu en résolvant l'équation
ce qui donne (p. ex. Kimura and Crow 1963)

dans le cas ou Nf =Nm , on a bien Ne = N, mais lorsque l'on a des nombres de mâles et de
femelles différents dans une population, l'effectif efficace de la population va être
considérablement réduit, avec un minimum d'environ 4.
Taille efficace en fonction du nombre de mâles dans la population
1.2 Gènes liés au sexes, espèces haplo-diploides
Pour les gènes portés sur le chromosome X ou les espèces haplo-diploides (p. ex. les insectes
sociaux), le calcul de l'effectif efficace est un peu différent que pour les espèces à sexes
séparés. Là on va utiliser l'effectif efficace de variance, car la notion de consanguinité ne
marche pas pour les haploides.
Une population haplo-diploide est généralement composée de mâles haploides et de femelles

diploides. Considérons un locus à 2 allèles où la fréquence de l'allèle A est de pm chez les
mâles et pf chez les femelles, et celle de l'alèle a de qm et qf chez les mâles et les femelle,
respectivement. La variance d'échantillonnage chez les mâles et les femelles sera
respectivement de
Or la fréquence de l'alèle A dans la population est donné par

si bien que la variance de p est obtenue comme
A l'équilibre, pm = pf = p, et donc
Comme dans une population idéale la variance est donnée par Var(p) = pq / (2Ne), l'effectif
efficace de variance est donnée par
Pour des gènes liés au sexe avec autant de mâles que de femelles, on a Ne = 2/3 N. Pour les
insectes sociaux qui possède une seule reine qui produit tous les individus de la population,
Nf = 1 et (Wright 1931)
Taille efficace pour les sytèmes haplo-diploides

1.3 Consanguinité
S'il y a de la consanguinité dans la population, l'effectif efficace de la population sera réduite

par un facteur proportionnel au coefficient de consanguinité
La réduction de taille est donc relativement minime dans les populations faiblement
consanguines. Par contre, chez les plantes qui ont un fort taux d'autofécondation et où f est
proche de 1, l'effectif efficace peut être seulement la moitié de l'effectif total.
1.4 Variation de l'effectif de la population au cours du temps
Les populations naturelles sont rarement de taille constante au cours du temps. Celles-ci
puvent en effet fluctuer fortement de génération en génération, par exemple suite à des
changements climatiques, dans des modèles proies-prédateurs ou hôtes-parasites, ou encore
par l'action de l'homme. Dans ce cas, l'effectif efficace de la population sera proche de la plus
petite taille par laquelle une population a passé au cours de son histroire récente.
L'effectif efficace dans un tel cas se calcule en fonction de l'hétérozygotie (Crow et Kimura
1970). On a vu en effet que dans une population de taille constante

dans une population de taille variable, cette relation sera à peu près identique, à cela près que
l'effectif de la population sera une variable qui dépendra du temps:
Si l'on étend ce processus sur 2 générations on aura
Donc sur un grand nombre de génération on aura quelque chose de la forme
L'effectif efficace de la population sera donc celui d'une population stationnaire qui causerait
la même réduction d'hétérozygotie après t générations de dérive génétique, soit
Ceci se résout facilement si l'on fait l'hypothèse que les Ni sont grands et que l'on utilise
l'approximation
si x est petit
Après résolution, on aura donc

et l'on se rend compte que l'effectif efficace de valeur propre est égale à la moyenne
harmonique des effectifs précédents de la population.
On peut appliquer cette formule à différentes situations:
 Effectif efficace de l'espèce humaine:

On fait l'hypothèse que l'espèce humaine a commencé un cycle de croissance
exponentielle il y a 100'000 ans passant de 10'000 individus à 10 milliards. Avant on
fait l'hypothèse que l'effectif de la population était constante à 10'000 individus depuis
-200'000 ans. En comptant une génération tous les 20 ans, on arrive à une moyenne
harmonique de 18'648 individus pour les 200 derniers millénaires. Dans ces
conditions, on s'attend donc à ce que la variabilité génétique et moléculaire de l'espèce
humaine soit à peuprès comparable à celle d'une population idéale d'environ 20'000
individus.
 Bottlenecks périodiques:
On suppose qu'une population d'insecte décuple sa taille en 2 générations pendant l'été
et qu'ele retourne à sa taille initiale pendant l'hiver. Elle passera donc par un cycle de
N, 10N et 100N individus chaque année. Quelle sera sa taille efficace?
Réponse: 2.7N seulement, et pas 36.7 N comme l'indiquerait la moyenne arithmétique
des tailles de population.

1.5 Structure par âge
Lorsque la population est structurée en classes d'âges, avec des individus qui ne se
reproduisent pas encore ou plus, l'effectif efficace de la population sera inférieur à l'effectif
de recensement. Dans ce cas il y a plusieurs façons de calculer l'effectif efficace et Nei et
Imaizumi (1966) suggèrent que l'effectif efficace est donné par
où T est l'âge moyen à la reproduction (le temps de génération) et Na est le nombre moyen
d'individus nés chaque année qui vont arriver à l'âge de reproduction. A partir des données
démographiques d'Amérique du Nord, Felsenstein (1971) a calculé que l'effectif efficace de
la population était environ 34% de l'effectif de recensement, ce qui correspond
grossièrement au tiers de la population, soit à la proportion des gens féconds de la population.
1.6 Variabilité du nombre de gamètes transmis par individu
Dans le modèle de Wright-Fisher, on fait l'hypothèse que le nombre de gamètes transmis par
individu suit une loi de poisson de paramètre =2. Cependant, dans des populations naturelles
de taille constante, le nombre de gamètes transmis k peut avoir une plus grande variance que
celle d'une loi de Poisson (p. ex dans des population animales avec harems) ou bien une
variance plus petite (p.ex chez des oiseaux qui contrôlent le nombre d'oeufs par nid). Dans ce
cas, l'effectif efficace d'une population de taille constante qui a une variance Vk du nombre de
gamètes transmis par individu est donné par

Losqu'il y échantillonnage aléatoire des gamètes d'une génération à l'autre, la probabilité
qu'un certain individu transmette un de ses gamètes est de p=1/N à chacun des 2N tirages
pour former la génération suivante. Ce nombre suit exactement un loi binomiale de paramètre
b( p, 2N) que l'on approxime par une loi de poisson de paramètre = 2Np =2. La variance du
nombre de gamète transmis par individu selon une loi binomiale est donc
et dans ce cas, l'effectif efficace est donc bien de Ne = N.
Lorsque l'effectif de la population n'est pas constant, Kimura et Crow (1963) suggèrent
d'utiliser l'expression plus générale
ou Ek est l'espérance du nombre de gamètes transmis par individu.
Donc d'une manière générale,
 Une variance du nombre de gamètes transmis plus grande que la moyenne va

entraîner une diminution de l'effectif efficace de la population. ceci revient à dire que
la dérive génétique dans une telle population sera plus forte que dans une population
ou l'espérance et la variance de k sont identiques.
 Une faible variance du nombre de gamètes transmis peut paradoxalement conduire à

une taille efficace plus grande que l'effectif de recensement. Ainsi, si Vk = 0, Ne = 2N-
1, presque le double de l'effectif de recensement. Bien sûr, ce phénomène indique
juste que le rythme de la dérive génétique est diminué de moitié par rapport à une
population de type Wright-Fisher.
 Dans une population en expansion, le nombre de gamètes transmis est généralement

plus important que dans une population stationnaire. Mais lorsque l'expansion est
généralisé à tous les membres de la population, la variance de k est souvent faible et
dans ce cas aussi, on a une taille efficace plus grande que l'effectif de recensement.
Donc pendant des périodes de croissance de population, on a une réduction de la
dérive génétique dans la population.
Exemples:

 Chez l'homme, Crow et Morton (1955) ont trouvé que l'effectif efficace était réduit de
5 à 30% selon les populations de part la grande variance du nombre de gamètes
transmis.
 Dans une population humaine polygame ou la variance du nombre d'enfants par

individus serait 2 fois plus grande chez les hommes que chez les femmes, soit Vkm = 4
et Vkf = 2, on s'attendrait à avoir une taille efficace pour l'ADNmt qui soit d'environ
N/2, mais seulement de N/3 pour le chromosome Y.
2. Modèles démographiques de changement de taille de population
Les populations naturelles sont rarement stationnaires et elles peuvent passer par des périodes
d'augmentation ou de réduction d'effectif. Il existe des modèles simples de croissance de
population qui approximent assez bien les phénomènes réels.
2.1 Croissance ou décroissance exponentielle
On admet que l'on a une population dont l'effectif est augmenté d'un certain facteur r à
chaque génération, soit
Dans l'exemple de croissance exponentielle de la population humaine qui aurait passé de

10'000 à 10 milliards d'individus en 100'000 ans, le facteur d'accroissement r est égal à
0.00276, soit un accroissement de 2.76 pour mille par génération
De la même manière, on peut avoir une population qui décroit exponentiellement
2.2 Croissance logistique
Le modèle de croisance ou décroissance exponentielle n'est pas toujours réaliste car les
conditions de croissance ou décroissance d'une population vont varier au cours du temps. Par
exemple, des ressources abondantes vont permettre à une populatin de mieux se nourrir et de
croître rapidement, mais au fur et à mesure de la croissance, chaque individu aura une moins
grande proportion des ressources limitées à disposition. On va donc introduire la notion de
capacité de soutien K (carrying capacity) d'un certain environnement, qui exprime l'effectif
maximal d'une population dans un environnement donné. Ainsi, l'évolution de la population
dans un milieu à ressource limité est modélisé par une croissance logistique de la forme

On voit que cela ressemble à de la croissance exponentielle, mais que le facteur
d'accroissement dépend maintenant du rapport de l'effectif à la génération précédente
et de la capacité de soutien. Le rythme de croissance sera d'autant plus faible que l'effectif
de la popuilation sera proche de la capacité de soutien. L'équation peut être exprimée en
fonction de N(0) en résolvant une équation différentielle en approximation continue, ce qui
donne
Croissances exponentielles et logistiques
On notera que d'autres modèles de croissance logistique ont été développés, où le fateur
d'acroissement est un peu différent de celui exposé ici.
3. Effet des expansions démographiques sur la diversité moléculaire
On a vu que la probabilité de coalescence à une génération donnée dépend de l'effectif de la

population, si bien que pour des populations de taille constante, la longueur des branches
d'une généalogie est directement proportionnelle à l'effectif de la population (voir différence
entre généalogie moyenne pour des gènes nucléaires et mitochondriaux tirés de la même
population).
Le même raisonnement peut s'appliquer à des populations de taille variable. Richard

Hudson et Montgomery Slatkin (1991) ont montré que des populations qui étaient entrées en
expansion exponentielle récemment présentaient des arbres en étoile (star-like trees) ou en
peigne. Alan Rogers et Henry Harpending (1992) on ensuite montré que des expansions
instantanées récentes étaient de bonnes approximatins de croissances de type logistiques ou
exponentielles. Ces expansions démographiques laissaient une signature au niveau
moléculaire au niveau de la distribution du nombre de différences par paires. Ces

distributions mismatch présentent en effet une allure unimodale avec une forme de courbe en
cloche.
On peut le comprendre aisément en s'intéressant à la généalogie d'un échantillon tiré d'une

population ayant connu une croissance démographique récente.
On représente ici le profil

démographique d'une
population ayant eu une
augmentation instantanée de
taille d'un facteur 100,
passant d'une taille N0 de
1'000 individus (ici
haploides) à une taille N1 de
100'000 individus. Ceci s'est
passé il y a t générations.
A la génération actuelle, on
est donc dans une grande
population, où la probabilité
de coalescence d'une paire
de lignage à chaque
génération est de 1/ N1.
Comme cette probabilité est
petite, les évènements de
coalescence sont rares. Au
temps t, la population passe
de N1 à N0 et la probabilité
de coalescence devient 100
fois plus grande. C'est donc
à ce moment que vont se
produire la majorité des
coalescences.
Processus de mutation superposé au processus de coalescence

La généalogie d'une population
ayant connu une expansion
récente sera donc typiquement en
forme de peigne, avec de
longues branches terminales et
de courtes branches internes.
Comme les mutations se

produisent au hasard le long des
branches de l'arbre, elles auront
plus de chances de survenir sur
les branches longues que sur les
branches courtes. Il s'ensuit que
la majorité des mutations vont
se produire après l'expansion,
lorsque l'effectif de la population
est grand, et l'on va observer très
peu de mutations qui se sont
produites avant l'expansion
Distribution du nombre de différences par apires (distribution mismatch).
Le fait que les mutations se produisent sur les longues branches de l'arbre et que ces longues
branches aient à peu près toutes la même longueur a une conséquence sur la diversité
moléculaire observée. Lorsque l'on ompare deux à deux tous les gènes d'une population, ils
vont présenter à peu près le même nombre de différences. Ceci est du au fait que les temps de
coalescences de toutes les paires de l'échantillons sont très corrélées, et datent d'une brève
période précédant l'expansion.

La forme
caractéristique d'une
distribution mismatch
dans population qui a
connu une expansion
récente sera donc une
courbe en cloche.
Le mode de la distribution est un indicateur du temps de l'expansion. En effet, si on a eu une

expansion importante il y a t générations, le temps de coalescence moyen de deux gènes tirés
au hasard sera d'un peu plus de t générations. Ces deux gènes auront donc été séparés par
environ 2t générations. Si l'on a un taux de mutation u par génération, alors ces deuc gènes
devraient présenter en moyenne = 2tu mutations. Il en découle que
 Le mode de la distribution nous donne une idée approximative du temps de

l'expansion
 Ce temps d'expansion est exprimé en unité de 2u générations.
 Si l'effectif de la population avant le bottleneck était déjà assez importante, les temps
de coalescence entre paires de liganges seront moins corrélés et la distribution sera
plus dispersée. L'estimation du temps de l'expansion sera plsu imprécise.
La distribution mismatch attendue après une expansion instantanée a été dérivée par Li 1977
et redérivée par Rogers et Harpending en 1992, sous le modèle des sites infinis. La
probabilité d'observer S différences va dépendre du temps de l'expansion et de l'effectif de la
population avant et après l'expansion, ces paramètres étant exprimés en unités de 2u
générations, et donc égaux respectivement à = 2tu, = 2N0u , et = 2N1u. Elle dépend est
donnée par

où FS () est la probabilité que deux gènes présentent S mutations dans une population
stationnaire de taille . et qui a été donnée par watterson (1975) comme
Il semble donc possible d'estimer ces paramètres d'expansion démographique à partir de la

distribution mismatch observée dans une population, par exemple par la méthode des
moindres carrés, encherchant les paramètres qui minimisent l'écart entre les points de la
distribution mismatch observée et attendue.
Exemples de distributions mismatch observées pour la région HV1 de l'ADN mitochondrial

humain.
Distribution mismatch dans des populations européennes
Distribution mismatch dans des populations africaines

Temps d'expansions relatif estimés pour diverses populations humaines

Seuls les secteurs noirs représentent des expansions significatives
La référence est la population Turkana du nord Kenya, pour laquelle la date d'expansion la
plus ancienne a été trouvée (=2tu=0.036). Il existe une polémique importante sur le taux réel
de mutation de l'ADN mitochondrial humain. Les estimations varient de 7% de différence par
million d'années de divergence à plusde 150%. Nos propres estimations donnent des chiffres
d'environ 7%, ce qui daterait l'expansion démographique des Turkana à environ 500'000
ans, avec un intervalle de confiance à 95% de 332'000 à 627'000 ans. Des taux de mutations
plus élevés donneraient des temps d'expansion plus récents. Toutefois, les dates d'expansion
humaines semblent indiquer qu'elles ont connu pour la plupart une forte expansion
démographique au Pléistocène, et pas au Néolithique.
Bien que les démographes et les archéologistes nous disent que la population humaine a
connu une forte expansion au Néolithique, celle-ci n'aurait pas laissé de trace au niveau
moléculaire, car l'effectif de la population humaine était déjà trop important avent cette
expansion. On voit donc uniquement la trace d'une expansion qui fait passer une population
d'une très petite taille à une grande taille, et les expansions ultérieures sont plus difficiles à
déceler.
Population subdivisée - Modèles de migration
1. Populations subdivisées
Les populations naturelles ne peuvent pas toujours être considérées comme des populations
panmictiques où les gamètes s'unissent au hasard. On a déjà vu un effet de l'écart à la
panmixie qui est le fait que des individus apparentés s'unissent pour avoir des descendants:
la consanguinité. Sa conséquence est que les deux gènes à l'intérieur d'un individu sont plus
corrélés que deux gènes pris au hasard dans la population ou entre deux individus. On peut

donc considérer qu'un premier niveau de subdivision est le compartiment formé par
l'individu diploide qui contient deux copies d'un certain gène.
Dans les populations naturelles, les individus ne peuvent pas toujours s'unir aléatoirement sur
l'ensemble de leur aire de répartition, du fait de contraintes géographique ou
environnementales. Les populations seront donc presque toujours subdivisées
géographiquement avec des individus qui s'unissent plus souvent avec des individus
géographiquement proches qu'avec des individus éloignés. Les unités à l'intérieur desquelles
les individus s'unissent le plus souvent sont appelées des dèmes. Ces dèmes peuvent être plus
ou moins isolés les uns des autres, former des unités discrètes ou il peut y avoir une certaine
continuité (génétique) entre dèmes voisins. Cependant, la dérive génétique va agir
différemment dans chaque dème, et les dèmes vont progressivement se différencier les uns
des autres.
Ces dèmes peuvent être eux-mêmes organisés en groupes dont les individus de différents
s'unissent occasionnellement. On peut ainsi imaginer une espèce comme une poupée russe
ayant différents degrés de subdivisions imbriqués les uns dans les autres.Donc pour la
génétique des populations, une espèce est une grande population subdivisée.
Population hiérarchiquement subdivisée
Ces dèmes peuvent maintenir des contacts entre eux par l'échange de gènes véhiculés par des
migrants. La migration va donc maintenir un certain niveau de cohérence génétique entre
ces dèmes.
1.1 Effet Wahlund: Excès d'homozygotes dans les populations subdivisées
On n'a pas toujours conscience que la population que l'on étudie est subdivisée. Cependant la
non prise en compte de cette subdivision a comme effet un écart à l'équilibre de Hardy-
Weinberg qui se traduit par un excès du nombre d'homozygotes observés par rapport aux
fréquences alléliques calculées.

Pour un locus à 2 allèles qui ont des fréquences p et (1-p), la proportion d'hétérozygotes HS
observés sur l'ensemble des subdivisions peut être exprimé simplement comme
l'hétérozygoite moyenne
Si on a l'équilibre de Hardy-Weinberg à l'intérieur de chaque dème, alors HSk = 2 pk(1-pk) et

on a donc
En se souvenant que var(X)=E(X2)-E(X)2, on a
On voit donc que la fréquence observée des hétérozygotes dans l'ensemble des subdivisions
est égale à la fréquence attendue sous l'équilibre de Hardy-Weiberg en considérant la
fréquence moyenne p sur l'ensemble des d dèmes moins deux fois la variance des fréquences
alléliques sur l'ensemble des dèmes. En ignorant la présence de subdivisions, on va
observer un déficit d'hétérozygotes, et donc un excès d'homozygotes par rapport aux
fréquencs alléliques observées. Cet effet Wahlund est une conséquence directe de la
présence de subdivisions à l'intérieur d'une population, et il sera d'autant plus prononcé que
les populations sont plus différenciées.
Conséquence: Lorsque l'on mesure un excès significatif d'homozygotes, on peut

légitimement se demander si la population étudiée n'est pas subdivisée ou amalgamé, c'est à
dire qu'elle le fruit d'un rassemblement d'individus provenant de populations en équilibre de
Hardy-Weinberg mais qui présentent des différences de fréquences alléliques.
2. Modèles de subdivisions avec migration
Nous allons maintenant passer en revue différents modèles de population subdivisée, dontles
dèmes échangent des migrants.
 Modèle de populations en îles (Wright's island model)

Dans le modèle de populations (dèmes) arrangés en îles indépendantes, comme dans un
archipel. On considère que les d dèmes peuvent échanger des migrants avec tous les autres
dèmes, habituellement avec la même probabilité m/(d-1). Les dèmes sont donc interconnectés
par des flux de gènes identiques. Ce modèle n'est guère vraisemblable dans les populations
naturelles, mais il conduit à un traitement mathématique très simple.
Modèle de 5 populations échangeant toutes une même

proportion m/4 de migrants par générations
Le processus de migration va donc interférer avec le processus de dérive à l'intérieur des

dèmes. Du fait des migrations, le processus de dérive génétique ne sera plus indépendant
dans chaque population, et de nouveaux allèles pourront être introduits dans des dèmes où
un autre allèle s'était fixé. Cela va aussi affecter la probabilité d'identité par ascendance. Ainsi
la variation du coefficient de consanguinité entre générations sera donnée par
A l'équilibre, où la perte d'allèle par dérive est compensée par l'introduction de nouveaux
allèles par migration, f (t+1) = f (t) =f et
En résolvant pour f on arrive à
ce qui montre que si m>0, l'homozygotie attendue à l'intérieur de chaque dème ne tend
plus vers 1, comme dans une population de taille finie, et donc on ne va plus obligatoirement
fixer d'allèles.

On a vu précédemment que f pouvait être considéré comme un coefficient de corrélation.
Dans notre cas, il exprime la corrélation entre 2 gènes tirés de la même subdivision (dème)
par rapport à 2 gènes tirés au hasard dans la population totale. On note cette corrélation par
FST, et donc l'espérance de la valeur de FST dans un modèle en île est donné par:
Le produit Nm est important car il représente le nombre absolu de migrants arrivant

dans chaque dème par génération. En effet, m représente la probabilité pour un gène donné
de migrer dans un dème, mais aussi la probabilité pour un gène donné qu'il soit un nouvel
immigrant. A l'équilibre et en admettant que la taille de dèmes soit constante au cours du
temps, le produit Nm représente donc bien la fraction attendue des gènes d'un dème qui sont
de nouveaux immigrants.
L'homozygotie attendue à l'intérieur des dèmes diminue rapidement avec Nm
Nm E( FST)
0.25 (un migrant toutes les 4 générations) 0.50
0.5 (un migrant toutes les 2 générations) 0.33
1 (un migrant par génération) 0.20
2 (deux migrants par génération) 0.11
La valeur de Nm est importante pour savoir comment vont évoluer un ensemble de

populations. Moran (1962) a montré que le taux de diminution de l'hétérozygotie dans une
population structurée en île et comprenant d dèmes était à peu près comparable à celui
d'une population non-structurée de taille Nd si Nm >> 1. Ce résultat ne concerne que la
variation du taux d'hétérozygotie. On a abusivement interprété ce résultat en disant qu'une
population subdivisée où Nm est > 1 se comportait comme une seule grande population
panmictique. Cela est faux pour divers aspect de la diversité génétique. C'est rassurant car on
peut donc parvenir à distinguer différentes structures génétique par l'observation de la
diversité génétique à l'intérieur et entre les dèmes.
On utilise souvent la relation entre Nm et la valeur de FST à l'équilibre pour le modèle en île
pour estimer Nm. En faisant cela, on fait bien sûr l'hypothèse que les dèmes que l'on observe
sont bien arrangés en île et que nous sommes à l'équilibre migration-dérive. Ainsi,
Chez l'homme, à l'échelle mondiale la valuer de FST est d'environ 0.1, ce qui donne une valeur
de Nm de 2.25 . On a donc un degréd e différentiation entre les populations humaines qui est
celle que l'on attendrait si toutes les populations étaient stationnaires et qu'elles échangeaient
2.25 migrants par génération en moyenne. Nous verrons plus tard comment on estime ces
valeurs de FST .

L'effectif efficace d'une population subdivisée est en fait plus grande que celui d'une
population panmictique (Whitlock et Barton 1996), et elle est dépend du degré de
différentiation des dèmes comme
Ce résultat est dû au fait que l'effectif de chaque dème est fixe, et donc que les gènes
d'individus d'un certain dème vont obligatoirement avoir des représentants à la génération
suivante, et vont donc contribuer à diminuer la variance du nombre de descendants par
rapport à une population panmictique. On s'attendra donc à maintenir plus de diversité
génétique dans une population subdivisée que dans une population panmictique de même
taille de recensement.
 Modèles de populations en treillis 1D-2D (Kimura's stepping-stone models)
Kimura (1953) a introduit des modèles de migration entre dèmes plus réalistes que le modèle
en île. Il a en effet voulu tenir compte du fait que l'on échangeait plutôt des migrants entre
dèmes géographiquement proches les uns des autres, et pas ou rarement entre dèmes éloignés.
C'est donc un modèle spatialement structué. Kimura a introduit ces modèles par analogie
avec les dalles permettant de circuler dans les jardins japonais. Il a donc qualifé ces modèles
en anglais de steping-stone models.
Migration en treillis en 1 dimension
Dans ce cas, les migrations se font selon un axe principal, le nombre de populations pouvant
être arbitraire. Un dème va échanger des gènes avec ses deux dèmes voisins à un taux m/2.
Migration en treillis en 2 dimensions

Dans ce cas, les dèmes sont arrangées selon deux axes, et un dème échangera des gènes avec
ses 4 plus proches voisins à un taux m/4.
Pour éviter des effets de bord, Maruyama (1971) a introduit un modèle en une dimension
mais circulaire, et un modèle en deux dimension où les dèmes sont à la surface d'un torre.
 Modèle avec taux de migration arbitraires (Migration matrix model)
Dans ce modèle, les taux de migrations entre les dèmes sont complétements arbitraires et pas
forcément symétriques. les modèles en îles et en treillis sont bien sûr des cas particuliers de
ces modèles matriciels.
Les taux de migrations sont ici symétriques et

proportionnels à l'épaisseur des flèches

D'une manière générale, la variabilité génétique sera plus importante dans une
population avec des taux de migrations très variables entre dèmes, car il y aura des dèmes
très isolés où la dérive génétique sera forte et conduira rapidment à l'élimination de
certains allèles.
 Modèle d'isolement par la distance (Isolation by distance model)
Les modèles de migration en treillis sont des modèles discrets d'isolement par la distance, où
l'on s'attend à ce que les dèmes soient d'autant plus proches génétiquement qu'ils sont proches
géographiquement. Malécot (1950) a introduit des modèles où les dèmes sont situés dans un
espace continu. Les individus migrent dans un certain dème situé à une certaine distance avec
une probabilité inversément proportionnelles à la distance géographique séparant ces dèmes.
On tient donc compte de la distribution des distances entre le lieu de naissance des individus
et de leurs descendants. D'une manière générale, que ce soit dans un espace discret ou
continu, la corrélation attendue entre gènes décroit exponentiellement avec la distance.
 Modèle de méta-populations
Les modèles de méta-populations ont été introduits pour mieux coller à la réalité, et tenir
compte de la nature dynamique des populations et des dèmes. Il y a en effet beaucoup de
situations où les dèmes ont des tailles variables et peuvent même disparaître temprairement
avant d'être crées à nouveau par de nouveaux migrants venant d'une population voisine et
réoccupant le nouveau territoire. Ces propriétés sont assez typiques de petites populations, et
ont donc d'importantes applications en génétique de la conservation.
Cycle d'extinction et de recolonisation dans un modèle de métapopulations

1. Taille de dèmes variables 2. Un dème disparaît
et taux de migration (extinction)
arbitraires

3. Un processus de 4. Le nouveau dème reprend
recolonisation à partir des échanges avec les
d'un autre dème autres dèmes
reconstitue ce dème
D'une manière générale, des dèmes de tailles inégales sont plus différenciés que des dèmes
de tailles sensiblement équivalentes, car la dérive génétique sera surtout plus forte dans les
petites populations. Les extinctions de dèmes contribuent aussi à augmenter la variabilité
globale de la population, en éliminant certains allèles. Enfin, les recolonisations sont
souvent accompagnées d'effets fondateurs, qui entraîne de grandes perturbation de
fréquences alléliques, et qui vont donc aussi contribuer à l'augmentation de la variabilité
génétique entre dèmes par rapport à un ensemble de populations arrangées en îles.
Whitlock et McCauley (1990) ont montré que la différentiation génétique des dèmes sera
plus grande que celle d'une population arrangée en île si
où k est le nombre moyen d'individus qui colonisent de nouveaux dèmes, N est la taille des
populations qui subsistent, m est le taux de migration entre dèmes et  est la probabilité que
deux gènes colonisateurs viennent du même dème source. Dans la plupart des
métapopulations, cette relation est vérifiée. Si le degré de différentiation entre dèmes est plus
faible que dans le cas d'une population en île cela implique que la taille efficace d'une telle
population sera plus faible que dans le cas en île (voir Hedrick et Gilpin 1997 pour voir

l'influence de différents facteurs sur la taille efficace, comme le nombre de subdivisions, les
taux de colonisation et d'extinction. la capacité de soutien ou le nombre de fondateurs).
3. Processus de coalescence dans les population subdivisées
Subdivisions sans migration: Fission de populations
Les populations peuvent être structurées de part leur histoire. Des fissions successives de
populations vont créer de nouvelles populations qui vont se différencier progressivement les
unes des autres. A partir du calcul de distances génétiques entre populations, on va essayer de
reconstituer ce processus de fission (voir cours d'Alicia sanchez-Mazas). Il faut toutefois
noter qu'il est difficile, voire impossible, de faire la différence entre une série de fissions de
populations et une population subdivisée présentant différents taux de migrations entre dèmes
(Felsenstein 1982).
Admettons cependant que 4 populations se sont progressivement différenciées à partir d'une

population ancestrale, comme montré ci-dessus. On va s'intéresser aux évènements de
coalescences se produisant entre les différents gènes provenant de populations identiques ou
différentes. Selon la taille des populations et leur temps de séparation, il se peut que la
plupart des évènements de coalescence ne se produisent pas dans les populations les plus
dérivées mais dans des population ancestrales. Ainsi, des gènes de différentes populations
pourront très bien avoir des temps de coalescence plus petit que des gènes de la même
population. Tajima (1983) a même calculé que l'on ait 95% de chance pour que les gènes de
la même population coalescent avant deux gènes de populations différentes, il fallait que ces
populations aient été séparées par environ 6N générations.

Conséquence: Lorsque l'on étudie la diversité moléculaire des populations d'une espèce, on
ne verra à peu près jamais une correspondance parfaite entre la localisation géographique des
gènes et leur position sur une phylogénie.
Phylogénie de 56 haplotypes de restriction de l'ADN mitochondrial humain (Excoffier et

al. 1992)
Cependant il existe quand même un certain degré de cohérence géographique entre la

répartition spatiale des gènes et leur position phylogénétique. Ceci est à la base des de la
phylogéographie (Avise et al. 1987) qui se réfère à l'étude des processus gouvernant la
distribution géographique des lignages généalogiques au niveau intra et inter spécifique. C'est
véritablement l'étude de John Avise en 1979 sur le polymorphisme de l'ADN mitochondrial
des gaufres de poche qui a lancé cette discipline.

Phylogénie de 87 gaufres de poche (pocket gophers) d'àprès Avise
et al. (1979). Les diférents haplotypes mitochondriaux
(représentés par des lettres sont reliés les uns aux autres par un
réseau parcimonieux.
Subdivisions avec migration
Lorsqu'il y a des migrations entre populations qui ont eu une histoire de fission, on s'attend à
encore moins de cohérence entre localisation géographqie des gènes et relations
généalogiques.

Généalogie de
gènes dans des
populations
échangeant des
migrants et ayant
une histoire de
fission à partir
de populations
ancestrales.
5. Estimation du degré de subdivision
5.1 Statistiques F (F-statistics)
On estime souvent le degré de subdivision d'une population au moyen de statistiques F (F-

statistics) définies par Wright (1943). Ces statistiques correspondent aux corrélations de
gènes pris à un certain niveau de subdivision par rapport à des gènes pris à un niveau
supérieur de subdivision. On a a déjà vu que le coefficient de consanguinité f =FIS pouvait
être exprimé comme la corrélation de deux gènes à l'intérieur d'un individu par rapport à deux
gènes pris au hasard dans une subdivision (dans un dème). On peut définir des corrélations
similaires pour des niveaux de subdivision supérieurs. On défini ainsi FST comme la
corrélation de deux gènes pris dans une subdivision par rapport à deux gènes pris au hasard
dans la population totale, et FIT comme la corrélation de deux gènes d'un individu par
rapport à deux gènes pris au hasard dans la population totale.
On avait vu que la proportion observée d'hétérozygotes à l'intérieur d'une subdivision H est

une fonction de la probabilité que les deux gènes d'un individu sont identiques par
ascendance, soit
Bien que cette relation avait été dérivée dans le cas où les 2 gènes se trouvaient dans le même
individu, celle-ci peut s'étendre plus généralement à deux gènes pris au hasard à n'importe
quel niveau de subdivision, et par exemple à deux gènes pris au hasard dans un des dèmes de
la population. Donc par extension, on a la relation

où HS est la proportion observée des hétérozygotes dans l'ensemble des subdivisions que l'on
a déjà vue plus haut. S'il existe d subdivisions, HS peut aussi être considérée comme la
probabilité moyenne d'être hétérozygote sur l'ensemble des d subdivisions. En remplaçant HS
par la valeur trouvée par Wahlund on obtient la relation classique
qui montre que la statistique FST est également la variance observée des fréquences alléliques
sur la variance attendue.
Si l'on considère un modèle où l'on part d'une seule population qui se subdivise
instantanément en plusieurs dèmes tous de même taille et possédant tous les même
fréquences alléliques, la variance de p sera donc nulle au dèpart du processus. Ensuite, sos
l'effet de la dérive génétique, les dèmes vont peu à peu se différencier les uns des autres pour
leurs fréquences alléliques. En l'absence de migrations et de mutation, un allèle ou l'autre va
aller se fixer dans chaque population, et la variance de p entre les popualtion sera égale à un
maximum. Dans ce cas la valeur de FST sera égale à 1. On voit donc que FST traduit en
quelque sorte le degré de différentiation des dèmes dans le processus de fixation des
fréquences alléliques sous l'effet de la dérive génétique. C'est pourquoi ces statistiques F
sont parfois appelées des indices de fixation (fixation indexes).
D'une manière générale, les statistiques F sont reliées les unes aux autres par la relation (p.ex.
Wright 1969)
La barre sur le FIS indique qu'il s'agit du coefficient de consanguinité moyen calculé sur
l'ensemble des subdivisions.
Nei (1977) a montré comment calculer les statistiques F pour un nombre arbitraire d'allèles,
car elles peuvent être exprimées simplement en fonction des hétérozygoties observées et
attendues comme
avec Ho étant l'hétérozygotie observée dépendant des fréquences Pkii des homozygotes AiAi
dans les subdivisions

HS et HT étant des hétérozygoties attendues ne dépendant pas des fréquences
génotypiques, mais uniquement des fréquences alléliques dans les subdivisions pki
et bien sûr
5.2 Estimation des corrélations par l'analyse de variance
Cockerham (1969, 1973) a montré que les corrélations entre gènes similaires aux statistiques
F pouvaient être estimées par une analyse de variance des fréquences alléliques. Une telle
analyse consiste à partitionner la variabilité génétique totale en divers composants de
variances qui expriment la proportion de la variance totale attribués à différents niveaux de
subdivision de population, soit
 aux différences entre gènes à l'intérieur des individus (2w),

 aux différences entre individus à l'intérieur des dèmes (2b)
 aux différences entre dèmes (2a)
La variance totale étant égale à la somme des composant de variance
Source de Espèrance des

variabilité d.l. Somme des carrés Carrés carrés moyens
moyens
Entre
d-1
dèmes
Entre
individus à
n-d
l'intérieur
des dèmes
Entre gènes
à l'intérieur
n
des
individus
2n-
Total
1

Cockerham a aussi monté que les statistiques F pouvaient être estimées par les relations
Ces estimateurs diffèrent quelque peu des estimateur de Nei à partir des hétérozygoties
observées et attendues, et sont relativement moins biaisés, surtout lorsque le nombre de
dèmes est la taille des échantillons est petit.
Nous avons ensuite montré (Excoffier et al. 1992) comment cette analyse de variance des
fréquences alléliques pouvait être étendue pour incorporer la diversité moléculaire des gènes.
On procède ainsi à une analyse de la variance moléculaire des échantillons (Analysis of
MOlecular VAriance: AMOVA).
5. Mesures d'identité par ascendance et temps de coalescence
5.1 Différences entre statistiques F estimées par la méthode de Nei et par la méthode de
Cockerham
La méthode de Nei par la mesure des hétérozygoties obsevées et attendues et celle de

Cockerham par l'analyse de variance fournissent des estimateurs légèrement différents. Sans
trop rentrer dans les détails, cela tient au fait que les deux méthodes n'estiment pas
exactement les mêmes paramétres au niveau de la population.
Si l'on définit
 Q0 comme la probabilité que deux gènes du même individu soient identiques

 Q1 comme la probabilité que deux gènes d'individus différents du même dème soient
identiques
 Q2 comme la probabilité que deux gènes de dèmes différents soient identiques
alors les corrélations des gènes calculées par l'analyse de variance de Cockerham sont
données comme
avec 0 = FIS , 1 = FIT, et 2 = FST .

Pour les statistiques F estimées par la méthode de Nei on a les relations
où les probabilités d'identités suivantes sont définies:
 comme la probabilité que deux gènes du même dème soient identiques.
 comme la probabilité que deux gènes de la population totale soient identiques.
5.2 Expression des statistiques F en fonction des temps de coalescence moyen des gènes
Montgomery Slatkin a montré la relation entre les probabilité d'identité Q définies plus haut
et les temps de coalescence (Slatkin 1991; Slatkin et Voelm, 1991). Deux gènes seront
identiques si, depuis leur ancêtre commun le plus récent (MRCA), il n'y a pas eu de
mutations sur aucun des 2 lignages. Supposons que cet ancêtre commun vivait il y a t
générations. Dès lors, si l'on admet encore que les mutations se produisent à un rythme u par
génération, la probabilité qu'aucune mutation n'est survenue pendant les 2 t générations de
séparation des deux gènes est donnée par
Mais bien sûr on ne connait pas ce temps de coalescence, si bien que la probabilité non
conditionnelle d'identité et obtenu en considérant tous les temps de coalescence possibles:
où P(t) est la probabilité que deux gènes coalescent au temps t et qui suit une loi géométrique
comme nous l'avons vu précédemement. Si u est petit, on a la relation approximative
où est simplement le temps de coalescence moyen de deux gènes.
On peut utiliser cette relation pour reformuler n'importe quelle statistique F en fonction de
temps de coalescences moyens. Ainsi, la statistique FST estimée par l'analyse de variance
devient

où et sont respectivement les temps de coalescence moyens de deux gènes tirés du
même dème et deux gènes tirés de dèmes différents.
Ces reformulations en termes de temps de coalescence moyens permettent d'obtenir

facilement les valeurs attendues des statistiques F dans différents modèles de subdivision
(Slatkin 1991; Rousset 1996, 1997, 2000).
Exemple: FST dans un modèle de pure fission avec tailles de population constantes
Slatkin (1995) a considéré un modèle de populations subdivisées sans migrations mais avec
des fissions historiques. On supose qu'il y a T générations, un ensemble de dèmes ont
divergés les uns des autres et sont restés séparés depuis cette période. Il suffit de trouver les
expressions pour et pour ce modèle démographique. On a déjà vu que = 2N pour les
populations diploides et = N pour les populations haploides de taille N.
Maintenant, considérons des gènes de dèmes différents. On sait que les dèmes sont restés
séparés pendant T générations. Donc il n'y a pas pu y avoir de coalescence pendant cette
période. Ensuite, les lignages se sont tous trouvés dans la population ancestrale de taille N. A
partir de cet instant, le temps moyen de coalescence de 2 lignages était à nouveau de 2N
générations (pour des population diploides. Donc, = T + 2N, si bien que
Dans ce cas, on peut estimer le temps de divergence entre les dèmes à partir du FST mesuré
comme

On notera que ce temps est relatif à la taille des dèmes et de la population ancestrale, et
qu'il ne dépend pas du nomre de dèmes dans la subdivision. On peut donc utiliser cet
estimateur comme une mesure de distance génétique entre 2 populations.
Tests de neutralité sélective
1. Qu'est-ce que la neutralité sélective ?
Pour mettre en évidence des mécanismes de sélection au niveau génétique et moléculaire, il

importe de définir auparavant ce que l'on attend en absence de sélection. Si les observations
ne peuvent être expliquées sous un modèle d'évolution neutre, alors seulement on pourra
invoquer l'action de la sélection.
On a donc paradoxalement besoin de définir des modèles d'évolution neutralistes avant

d'étudier l'effet de la sélection. Il existe plusieurs modèles de sélection comme la sélection
directionnelle, balancée ou diversifiante. Cependant, la simple compréhension de ces
phénomènes sélectifs ne nous permet pas décider si le polymorphisme observé (p. ex. la
distribution des fréquences alléliques) est compatible ou non avec la théorie neutraliste.
Plusieurs auteurs se sont donc attachés à définir la distribution de différentes quantités

observables sous l'hypothèse neutraliste, afin de permettre de décider de la vraisemblance du
modèle neutraliste. Il est aussi important de noter la plupart de ces dérivations ont été
obtenues sous l'hypothèse supplémentaire de stationarité démographique de la
population. Ces test de neutralités sont donc plus exactement des test de neutralité sélective
et d'équilibre des populations. Un écart significatif à l'attendu pourra donc être dû à un
phénomène de sélection ou à un écart à l'équilibre démographique de la population, comme à
un bottleneck ou une expansion.
2. Théorie de l'échantillonage des allèles de Ewens
Warren Ewens a dérivé en 1972 la distribution attendue des fréquences de k allèles dans un
échantillon de taille n. Sans entrer dans les détails de la dérivation, il a montré que cette
distribution conditionnée par le nombre d'allèles observés (k) était indépendante du paramètre
de mutation de la population = 4Nu. Cette distribution s'obtient comme

où les ni sont les nombres de gènes du type allélique i, et n est le nombre total de gènes dans
l'échantillon. la taille de l'échantillon, et est un nombre de Stirling du premier genre, c'est
à dire le coefficient devant k de l'expansion .
Cette distribution permet d'obtenir la distribution attendue des fréquences alléliques

dans une population. Stewart (1977) a décrit un algorithme (implanté dans Arlequin)
permettant d'obtenir des échantillons aléatoires tirés de cette distribution, et par la même
la distribution attendue des fréquences alléliques ou la distribution de toute autre quantité
basée sur les fréquences alléliques.
Distribution de fréquences d'alléles RFLP dans 2 populations humaines

L'allèle
observé le
plus fréquent
est beaucoup
plus fréquent
que ce que
l'on attend
sous
l'hypothèse
neutraliste
pour une
population
stationaire.
Il y a aussi un
défaut
d'allèles
présentant des
fréquences
intermédiaires
.
Il y a donc un
écart
significatif
entre les
distributions
observées et
attendues.

Les 2
distributions
sont ici par
contre en
assez bon
accord.
L'hypothèse
neutraliste
peut être
acceptée.
Ewens (1972) a aussi établi que la probabilité d'observer k types alléliques dans un
échantillon de taille n était donné par
A partir de la dernière relation, on peut obtenir l'espérance du nombre d'allèles dans un

échantillon de taille n comme
Nombre d'allèles attendus dans un échantillon de taille arbitraire pour différentes

valeurs du paramètre de mutation 

Cette relation permet de prédire le nombre d'allèles que l'on observerait pour d'autres tailles
d'échantillons que celle que l'on observe. Ceci est utile pour 2 raisons:
1. Pour établir un plan d'échantillonnage permettant d'échantillonner correctement la

diversité allélique d'une population.
2. Pour vérifier que 2 échantillons de tailles inégales sont bien tirés de populations
possédant une même diversité génétique.
2.1 Lien avec la théorie de la coalescence
Il y abien sûr une relation étroite entre la théorie de l'échantillonnage de Ewens et la théorie
de la coalescence avec mutation. Les simulations par coalescence peuvent d'ailleurs permettre
d'obtenir des échantillons aléatoires de taille donnée possédant un certain nombre d'allèles.
En ne gardant que les échantillons ayant le nombre d'allèle observé, on obtiendra la même
distribution que celle donnée par la formule de Ewens.
Bien que des résultats théoriques existent concernant l'espérance et la variance de différentes
statistiques portant sur la diversité moléculaire neutre dans une population stationnaire
(comme le nombre de sites polymorphes, l'homozygotie, ou le nombre moyen de différences
par paires), la théorie de la coalescence permet d'obtenir facilement et rapidement toute
la distribution de ces statistiques. C'est pour cela que des simulations basées sur la théorie
de la coalescence sont à la base même de la plupart des tests actuels de neutralité sélective.
3. Signatures de sélection au niveau moléculaire

3.1 Sélection directionnelle
L'évolution des fréquences alléliques sous l'effet de la la sélection directionnelle ressemble

fortement à l'évolution d'une population en croissance logistique.
Croissance logistique d'une population
Evolution de la fréquence de l'allèle A1

sous l'effet de la sélection directionnelle
La généalogie des gènes porteurs de l'allèle A1 peut donc fortement ressembler à celle de
gènes trouvés dans une population ayant connu une expansion récente (Slatkin et Hudson

1991), c'est à dire à une généalogie en étoile (star-shape genealogy) ou en peigne, selon la
façon dont on dessine ces généalogies. On note cependant qu'une telle observation n'est
possible que si la fitness absolue des porteurs de l'allèle favorablement sélectionné augmente
aussi. Il faut donc que le nombre de gènes de type A1 augmente fortement dans la population.
Dans une population de grande taille, on aura donc assez facilement des généalogies en étoile
après un épisode de sélection directionnelle. Cependant, dans des populations de petite
taille, la sélection directionnelle conduit le plus souvent à un balayage sélectif (selective
sweep) du polymorphisme, avec une généalogie en étoile de trop faible taille pour voir
l'apparition de beaucoup de mutations. La fixation de la nouvelle mutation va donc conduire à
y effacer la diversité génétique préexistante.
3.2 Sélection balancée
Dans le cas de la sélection balancée, les allèles vont avoir tendance à être conservés pendant
une plus grande période dans la population que pour des allèles neutres. Dans la figue ci-
dessous, on voit qu'un allèle se maintient dans une population de taille finie pendant une très
longue période, alors que des mutations neutres se fixent beaucoup plus rapidement .
Succession de fixations de mutation neutres
Polymorphisme maintenu par sélection balancée

pendant une longue période

Les généalogie de tels gènes devraient donc ressembler schématiquement à ceci:
Diversité moléculaire Diversité moléculaire accumulée sur une

accumulée sur une généalogie de gènes maintenus par sélection
généalogie de gènes neutres balancée (avantage d'un hétérozygote)
On s'attend à ce que la généalogie de gènes soumis à sélection balancée soit globalement plus
longue qu'une généalogie de gènes neutres, et donc qu'un locus soumis à sélection balancée
maintienne plus de variabilité qu'un locus neutre.
Exemple du gène de l'alcool déhydrogénase chez Drosophila melanogaster

Kreitman et Hudson (1991) ont analysé le polymorphisme de séquence de la région du gène
Adh (environ 5Kb), et ils ont noté un fort excès de polymorphisme autour d'un site
polymorphe responsable de l'occurrnce de deux variants électrophorétiques (fast: F et slow:
S). Ce polymorphisme semble être soumis à sélection balancée par un mécanisme d'avantage
des hétérozygotes. On retrouve aussi un gradient de fréquence de l'allèle F en fonction de la
latitude, qui semble être plus avantagé dans les régions froides, vraisemblablement grâce à
une meilleure activité enzymatique à basse température, pemettant aux mouche de mieux
transformer les alcools en sucre. L'allèle S a d'autre part une variabilité associée plus élevée
que l'allèle F et semble donc plus ancien (Kreitman 1983).
Diversité nucléotidique observée et attendue sous un modèle neutre dans la région du gène Adh
de la drosophile.
Sur cette figure, le pic de variabilité autour du site F/S semble bien être dû au polymorphisme
balancé. La diversité génétique diminue rapidement lorsque l'on s'éloigne du site sélectionné
à cause de la recombinaison. L'effet de la sélection balancée ne se fait donc sentir que pour
quelques centaines de paires de bases autour du site sélectionné et pas au delà.
On peut donc imaginer qu'un screening de la diversité moléculaire dans des régions codantes
pourrait mettre en évidence d'autres sites soumis à sélection balancée. Ceci n'a cependant pas
été étudié pour d'autres locus qu'Adh. Dommage.
3.4 Sélection d'arrière plan (background selection)

La sélection d'arrière plan est une mécanisme de sélection qui élimine des allèles (faiblement)
désavantageux pour leur porteur (Charlesworth et al. 1993).
Généalogie de gènes avec sélection

Généalogie de gènes neutres d'arrière plan (les lignages éliminés par la
sélection sont en pointillé)
On constate que la sélection d'arrière plan conduit à une diversité réduite par rapport à la
diversité attendue pour une gènealogie non soumise à sélection. Cependant, la forme de la
généalogie est très semblable à celle d'une généalogie neutre et il est très difficile de
distinguer l'action de la sélection d'arrière plan d'un taux de mutation réduit, ou encore d'un
mécanisme de sélection directionnelle avec balayage sélectif (selective sweep) à un locus
proche dont l'effet atténué se fait sentir par autostop (hitchhiking effect) au site étudié
(Charlesworth et al. 1993).
3.5 Sélection purificatrice (purifying selection)
Dans ce modèle de sélection, les mutations avantageuses se fixent rapidement et les allèles
nuisibles à leur porteur sont éliminés. On s'attend à observer une diversité moléculaire réduite
par rapport à un polymorphisme neutre.
Exemple: Diversité moléculaire du gène de la mélanine chez l'homme (Harding et al.

2000)
Une publication récent a comparé la diversité moléculaire du gène du récepteur 1 de la

mélanocortine MC1R (un gène qui explique une part importante de la variabilité de la
pigmentation chez l'homme) en Europe et en Asie. Contrairement à beaucoup d'autres
polymorphismes, on trouve beaucoup plus de diversité moléculaire en Europe qu'en'Afrique.
Phylogénies d'allèles du récepteur 1 de la mélanocortine en Europe (a) et en Afrique (b)

On remarque que toutes les mutations trouvées en Afrique sont synonymes, alors que nombre
de mutations observées en Europe ne le sont pas. Malgré cela, le polymorphisme Européen
est compatible avec un polymorphisme neutre, suggérant une relaxation des contraintes
fonctionnelles pour ce gène en Europe par rapport à l'Afrique.
4. Tests de neutralité sélective
4.1 Test de Ewens-Watterson
Watterson (1978, 1986) s'est basé sur la théorie d'échantillonnage de Ewens pour proposer un
test de neutralité sélective basé sur l'homozygotie attendue d'un échantillon. Cette
homozygotie attendue dépend uniquement des fréquence alléliques comme
Watterson a montré que cette statistique était une statistique suffisante pour rendre compte de
la diversité génétique de l'échantillon. En pratique, test consiste à comparer la valeur de la
statistique F à celles obtenues à partir d'échantillon simulés sous l'hypothèse de neutralité et
de stationarité de la population. On utilise le plus souvent un algorithme décrit par Stewart
(1977) pour générer des échantillons aléatoires de même taille et possédant le même nombre
d'allèles que l'échantillon observé. Pour chaque échantillon simulé, on calcule la statistique F,
et l'on obtient empiriquement la probabilité associée à F comme la fraction des échantillons
donnant une valeur de F inférieure ou égale à celle observée.
Variante de Slatkin (1994, 1996)

Slatkin a proposé d'utiliser directement la probabilité de l'échantillon observé au lieu d'utiliser
la statistique F pour batir un test exact de neutralité sur la base des fréquences alléliques. Le
principe en est le même et donne des résultats le plus souvent comparables à ceux du test de
Ewens-Watterson. On peut énumérer exhaustivement outes les configuration alléliques
possible et calculer la probabilité d'obsever un échantillon plus improbable que celui que l'on
observe, en sommant directement les probabilités associées aux configurations plus
improbables que celle observée. Alternativement, on peut simuler un grand nombre
d'échantillon et estimer cette probabilité par la fraction des échantillons simulés étant plus
improbables que l'échantillon observé.
Ces 2 procédures sont implémentées dans le logiciel Arlequin.
Un processus de sélection directionnelle, mais aussi une croissance récente de la

population vont conduire à un l'observation d'un allèle très fréquent et d'un grand
nombre d'allèles rares, et donc à un une valeur de F trop élevée par rapport à celle
attendue pour un gène neutre ou une population stationaire. Cette forme d'écart est par
exemple trouvée pour les fréquences alléliques de l'ADN mitochondrial (voir le cas de la
population de Sicile mentionné plus haut).
A l'inverse, une forme de sélection balancée devrait conduire à observer des fréquences
alléliques trop égales et donc à une valeur de F trop faible. C'est effectivement ce que l'on
trouve pour le système HLA.
4.2 Test de Tajima
Tajima (1983) a proposé un des premiers test de neutralité sélective basé sur la diversité
moléculaire des échantillons.le principe de ce test est de comparer l'estimation du paramètre
de mutation  = 4Nu obtenue à partir du nombre de sites polymorphes S S) à celle obtenue à
partir du nombre moyen de différences entre 2 gènes , qui est précisément une estimation de
 . Tajima a ainsi défini la statistique D comme
avec = et comme étant égale à
que nous avons déja vue. Le dénominateur est une expression compliquée que nous ne
développerons pas. Comme dans le cas du test de Ewens-Watterson, la valeur observée de D
est comparée à celles obtenues en simulant des échantillons tirés d'une population
stationnaire de paramètre de mutation S . Dans le logiciel Arlequin, on utilise des
simulations du processus de coalescence pour générer ces échantillons.

Ce test va dépendre de la différence de comportement de et Sdans différentes situations.
Sélection directionnelle et purificatrice: S est peu affecté par la forme de la génalogie mais
beaucoup par sa longueur totale. Par contre estaffecté par les 2 facteurs, et sa valeur
dépendra avant tout de la diversité des allèles les plus fréquents. Après un épisode de
balayage sélectif, on aura beaucoup d'alèles rares qui contribueront peu à mais beaucoup à
S, si bien que l'on s'attend à avoir des valeurs négatives de D.
Sélection balancée: Dans ce cas on aura un effet inverse, car des allèles de fréquences
intermédiaires auront beaucoup d'effet sur mais relativement peu sur S. D sera donc
positif.
Expansion de population: On s'attend à avoir des valeurs fortement négatives de D, car le

nombre de sites polymorphes croîtra relativement rapidement, alors qu'il y aura un excès
d'allèles de faibles fréquences qui auront peu d'influence sur .
Contraction de population: Après une contraction de population, le nombre de sites

polymorphes diminue d'autant d'autant plus vite que la taille de l'échantillon est grand
(Tajima, 1990). On s'attend donc à avoir des valeurs positives de D.
Bottleneck (contraction et réexpansion): Dans ce cas, S est initialement affecté plus

fortement pour de grandes taille d'échantillon, mais la valeur d'équilibre est retrouvée plus
rapidement qu'avec de petites tailles d'échantillon (n=2). est affecté plus fortement que S .
On s'attendra donc à observer initalement un D positif, puis ensuite un D négatif.
Evolution du D de Tajima pendant et après un bottleneck (Fay et Wu 1999)

Effet de l'hétérogénéité des taux de mutation sur D: Un taux hétérogène de mutation le
long d'une séquence d'ADN a pour conséquence l'accumulation de plusieurs mutations au
même site (un hot-spot de mutation). Cela a comme effet de produire une valeur de D
positive, car le nombre de sites polymorphe S sera considérablement réduit par rapport au
modèle des sites infinis, à cause de la présence de ces hot-spots. D'un autre côté, l'hétérogéité
aura relativement peu d'effet sur  car même si des mutations se produisent plusieurs fois au
même site, elles vont le plus souvent s'inscrire dans un contexte de séquence différent des
mutatins précédentes. On a aussi remarqué (Aris-Brosou et Excoffier, 1995) qu'en cas
d'hétérogénéité du taux de mutation et d'une expansion de population, il était très dificile de
pouvoir rejetter l'hypothèse neutraliste-stationarité du fait des effets antagonistes de ces 2
facteurs, qui conduit à de valeurs de D faiblement négatives.
Statistique D de Tajima dans des populations en expansion et avec présence de sites hot-
spots de mutation. La distribution de D se trouve alors entièrement à l'intérieur de
l'intervalle de confiance neutraliste.
4.3 Tests de Fu
Test basé sur la statistique FS (Fu 1997)
Ce test est un peu analogue au test de Tajima, mais au lieu de regarder si le nombre de
différence par paires ( ) est compatible avec le nombre de sites polymorphes, il se base sur
la relation attendue entre et le nombre d'allèles de l'échantillon (k). L'estimateur est

utilisé pour calculer la probabilité d'observer k ou plus allèles dans l'échantillon au moyen de
la formule de Ewens que nous avons vue plus haut. Fu défini ainsi la quantité
Dans un échantillon ayant un excès de nouvelles mutations,  estimé par devrait être plus
petit que  estimé par le nombre d'allèle, et donc S ' devrait être un bon indicateur de la
présence de mutation nouvelles. Pour éviter d'avoir des valeur critiques de S ' trop proches de
zéro, Fu prend comme statistique le logit de S ', soit
FS aura tendance a être négatif si il y a un excès de mutations récentes (d'allèles rares).
Fu (1997) a montré que ce test était paticulièrement sensible pour détecter des expansions
récentes (et donc aussi de la sélection directionnelle). La probabilité associée à la statistique F
est obtenue par une série de simulation de processus de coalescence en prenant comme
paramètre de mutation.
Test basé sur la statistique F (Fu et Li 1993)
Fu et Li (1993) ont développé plusieurs statistiques portant sur un autre aspect du

polymorphisme présent dans une généalogie de gènes. Ils ont fait la distinction entre les
mutations se produisant sur les branches externes et les branches internes d'une
généalogie. Sous le modèle des sites infinis, on peut donc décomposer le nombre total de
sites polymorphes entre ceux qui sont survenus dans les branches internes de la généalogies
(des mutations anciennes) et ceux survenus sur des branches externes de la généalogies (des
mutations récentes), comme
On note que e correspond aux nomre de mutations singletons de l'échantillon. Ils ont
ensuite démontré que l'espérance de e était égal à
Comme on a vu que

On en déduit que
Normalement, est beaucoup moins sensible que e à la présence de nouvelles mutations, et

Fu et Li ont donc proposé d'utiliser la statistique
pour mettre en évidence ces nouvelles mutations.
D'autre part, en cas de sélection d'arrière plan, les mutations sur les branches internes de la
généalogie seront certainement neutres alors que les mutation faiblement délétères seront
plutôt présentes sur les branches externes si elles ne sont pas éliminées par la sélection. Fu et
Li ont ainsi construit une autre statistique G pour mettre en évidence la présence de mutations
faiblement délétères,
Par simulation, Fu a montré que les statistiques F et G était les plus puissantes pour
détecter un phénomène de sélection d'arrière plan, car elle contrastaient les mutations
singletons et non-singletons.
Il est donc intéressant de comparer les résultats de différents test pour essayer de mettre
en évidence non seulement un écart à la neutralité, mais encore un modèle possible de
sélection.

Pourquoi Étudier La Génétique

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Pourquoi Étudier La Génétique

Încărcat de

Drepturi de autor:

Formate disponibile

 Pourquoi étudier la génétique (moléculaire) des populations ?

b. Génétique de la conservation - Gestion des stocks génétiques

i. Relation entre diversité génétique des hôtes et des parasites

d. Echanges génétiques entre espèces

Génétique des populations Page 1

g. Echanges génétiques entre individus

h. Evolution des gènes

ii. Gènes contrôlant des caractères quantitatifs

k. Compréhension des mécanismes d'adaptation

Génétique des populations Page 2

l. Démographie historique des espèces

i. Expansions démographiques, bottlenecks

 Types de données moléculaires

 Statistiques résumant l'information moléculaire

a. Nombre d'allèles (k)

a. Taille des échantillons

Evolution des fréquences alléliques - Dérive génétique

Génétique des populations Page 3

1. 1. Test de l'équilibre de Hardy-Weinberg

A3 n31 n32 n33 n3

Génétique des populations Page 4

On calculera donc la statistique

Génétique des populations Page 5

Dérivation de la formule de Levene

si bien que la probabilité conditionnelle devient

Génétique des populations Page 6

2. Ecarts à l'équilibre de Hardy-Weinberg

Un marriage entre frère et

Génétique des populations Page 7

Plus formellement, considérons un locus à deux allèles A et a, de fréquences p et 1-p dans

On a donc bien un déficit d'hétérozygotes en cas de consanguinité. On peut donc exprimer f

Génétique des populations Page 8

On peut consulter le cours d'évolution sur la consanguinité pour visualiser l'effet du

Consanguinité et corrélation des gamètes

Fréquences des différents génotypes dans la population

Génétique des populations Page 9

E(y) = p.1 + (1-p) .0 = p

De la même manière, E(y2) = p et la variance de y est obtenue facilement comme

cov(y1, y2) = E(y1y2) - E(y1) E( y2)

La simple consultation de la table précédante nous permet d'obtenir facilement cette

Génétique des populations Page 10

2. Dérive génétique dans des populations de taille finie

2.1 Modèle démographique de Wright-Fisher

Pour permettre un traitement mathématique pas trop compliqué, on modélise la transmission

Tansmission aléatoire avec répétition des gamètes entre générations séparées

Génétique des populations Page 11

 Un individu peut transmettre plusieurs copies du même gamète à la génération

2.2 Evolution des fréquences alléliques sous l'effet de la dérive génétique

Intéressons nous de nouveau à un locus à 2 allèle A et a, où la fréquence de l'allèle A est p

La constitution de la nouvelle génération consite donc à répéter 2N épreuves élémentaires où

Distribution de probabilité de la fréquence de l'allèle A si la fréquence

Génétique des populations Page 12

On peut facilement obtenir l'espérance et la variance de p(t+1) comme

Génétique des populations Page 13

Dans une population de 10 individus diploides, on va fixer rapidement un allèle ou un autre

Génétique des populations Page 14

Génétique des populations Page 15

Ces différentes courbes correspondent à des réplications indépendentes du processus

Génétique des populations Page 16

2.3 Consanguinité due à la taille finie des populations

La consanguinité de la population va ainsi augmenter au cours du temps du fait de la

en ignorant les modifications de fréquences alléliques dus à la dérive génétique.

Génétique des populations Page 17