Documente Academic
Documente Profesional
Documente Cultură
Phylogénie (phylogenèse) est une reconstruction de l’histoire évolutive des êtres vivants. Le
terme phylogenèse a été introduit par Haeckel en 1866. Les fondements de la systématique
phylogénétique ou cladistique ont été formulés par Willi Hennig, en 1950.
L’analyse phylogénétique a pour objectif de reconstruire des liens de parenté entre les
organismes et d'estimer leurs temps de divergence
Il existe plusieurs types d’arbres (dendrogrammes) selon les méthodes avec lesquelles ils ont
été construits :
• Histoire de l’évolution.
• Evolution des caractères (ex: le bec des pinsons de Darwin).
• Ecologie (déplacement des espèces, relation hôtes-parasites)
• Epidémiologie (Mais d’où qu’elle vient la grippe A?)
• Annoter les génomes (génomique fonctionnelle)
• Etudier les mécanismes de l’évolution moléculaire (génomique structurale)
• Comprendre la mise en place des plans d’organisation (EvoDevo : Evolutionary developmental
biology ).
• Caractériser les gènes de l’adaptation (amélioration des espèces domestiques)
• appréhender la biodiversité (gestion du patrimoine naturel)
• Reconstruire l’histoire des espèces (paléontologie)
• Caractériser la dynamique des interactions durables (épidémiologie, virologie, etc…)
• Bien choisir son jeu de données (bien connaître les séquences moléculaires) afin de
minimiser le nombre d’analogies.
• Bien aligner ses séquences moléculaires afin d’identifier quels caractères doivent être
comparés à tel autre identifier les caractères homologues.
• Déterminer un bon modèle d’évolution pour les caractères (à quel vitesse évoluent-ils, sont
ils indépendants?).
• Choisir une bonne méthode de reconstruction d’arbre (il existe différentes méthodes,
dépendant du jeu de données).
• Tester la Fiabilité de l’arbre phylogénétique.
• Evaluer ses résultats.
- universalité.
- structure conservée.
- absence de transfert génétique entre les espèces.
- taux d’évolution approprié.
Marqueurs moléculaires les plus utilisés dans les reconstructions phylogénétiques sont:
C’est une opération qui consiste à disposer les unes en dessous des autres des portions de
séquences similaires en minimisant leurs différences. Les séquences d’ADN se composent des
caractères discontinus qui peuvent avoir 5 états différents: soit une adénine, soit une guanine,
soit une cytosine, soit une thymine soit une insertion ou une délétion (indel). Les sites qui ont
les mêmes états dans chaque séquence s’appellent des sites conservés. Un changement d’état
dans un site s’appelle une substitution.
Les méthodes des distances se proposent de reconstruire des arbres en partant des
ressemblances observées entre chaque paire d'unités évolutives (séquences). On parle de la
ressemblance globale établie à partir du maximum d'observations disponibles.
Distance observée
La méthode la plus simple de comparer deux séquences est d’évaluer leur similitude et leur
différence. Similarité (S) entre deux séquences est égale au nombre de sites synonymes (M)
divisé par la longueur de la séquence (L). La distance observée (D) entre deux séquences est
donnée par
D=1–S où S = M/L
Distance évolutive
Distance évolutive entre 2 séquences est égal au nombre de substitutions qui se sont produites
sur les 2 lignées évolutives depuis l’ancêtre commun / nombre de sites. La distance évolutive
est égale à la distance observée uniquement si les séquences sont très proches et le nombre de
substitutions observées correspond au nombre de substitutions qui se sont réellement
produites. En effet, la distance observée est presque toujours une sous-estimation de la
distance évolutive. Plusieurs événements, qui ont pu éventuellement se produire, ne sont pas
pris en considération dans son calcul. Pour en tenir compte, plusieurs modèles ont été
développés afin de corriger les distances observées.
Plusieurs méthodes ont été développées pour construire un arbre phylogénétique à partir d'une
matrice de distance.
Avantages. Les méthodes de distance sont les seules disponibles pour analyser certain type de
données: distances immunologiques, distances d’hybridation d’acides nucléiques.
Elles sont rapides et permettent d’analyser de grandes bases de données et de tester un grand
nombre d’hypothèses alternatives. Elles permettent aussi d’intégrer des modèles de
changements évolutifs qui ne sont pas intégrables dans d’autres méthodes.
Un site est informatif uniquement s'il y a au moins deux types de nucléotides présents dans ce
site et si chacun d'eux est représenté dans au moins deux séquences comparées.
Avantages et inconvénients
La parcimonie est une méthode de caractères qui fournit l'information sur les séquences
ancestrales et qui permet l'évaluation des différents arbres. Cependant, seulement une partie
d'information (sites informatifs) est utilisée. En plus, la méthode ne corrige pas les
substitutions multiples et ne calcule pas les longueurs de branches
L = Pr (D|Η)
Avantages et inconvénients :
La méthode de ML est considérée comme la plus fiable de toutes les méthodes
phylogénétiques, celle qui conduit au résultat le plus proche de l'arbre évolutif réel. Comparée
à la parcimonie, elle est beaucoup plus consistante et moins sensible aux effets de l'attraction
de longues branches. En plus, elle permet d'appliquer les différents modèles d'évolution (p.ex.
le modèle de Kimura qui tient compte de différences entre transitions et transversions) et
d'estimer la longueur des branches en fonction de changement évolutif. Par contre, c'est la
méthode qui demande la plus grosse puissance de calcul et prend le plus de temps.
3.4. Fiabilité des arbres phylogénétiques
Bootstrap
C'est la méthode la plus souvent utilisée pour tester la fiabilité des branches internes. Le
bootstrap consiste à effectuer un tirage des sites au hasard avec remise, donc dans chaque
réplication de bootstrap certains sites peuvent être présents plusieurs fois, tandis que les autres
peuvent être absents. Chaque réplication produit un nouvel alignement "artificiel" qui est
utilisé pour construire un arbre "artificiel". Pour chaque branche interne, on calcule le
pourcentage des arbres "artificiels" contenant cette branche. On considère généralement que
les branches définis par une valeur de bootstrap de > 95% sont fiables.
Remarque : Une branche robuste n’est pas forcément une branche vraie (rappelez-vous que
les phylogénies ne sont que des hypothèses et ne peuvent jamais être qualifiées de vraies) !
Cela signifie simplement qu’une grande partie des données supportent cette branche.