Sunteți pe pagina 1din 101

Bioinformatique: annotation

fonctionnelle des génomes


Céline Brochier-Armanet
Université Claude Bernard, Lyon 1
Laboratoire de Biométrie et Biologie évolutive (UMR 5558)
Celine.brochier-armanet@univ-lyon1.fr
Fonctions biologiques
Niveaux d’organisation Niveaux fonctionnels
Intégration

Relations inter-espèces,
Populations Équilibres écologiques
Développement, reproduction,
Organismes vieillissement
Tissus, organes Régulations physiologiques

Migrations,
Cellules Communications
Réseau d’interactions Fonction cellulaire : voie,
entre molécules cascade, processus
Fonction biochimique
Molécule ou moléculaire
Annotation fonctionnelle ~expérimentale~

• Définir la liste des protéines d’un organisme

• Assigner des fonctions par des méthodes


expérimentales (biochimie, biologie moléculaire…)

1) Clonage de la protéine
2) Expression
3) Purification
4) Analyses/Tests
Annotation fonctionnelle ~bioinformatique~

• Définir la liste des protéines contenues dans un génome

• Assigner des fonctions PUTATIVES par des méthodes


de bioinformatique

 Basée sur l’analyse des séquences


ANNOTATION
 Véritable fonction
FONCTIONNELLE

Prédictions bioinformatiques

Annotations basées Annotations basées


sur l’analyse de la sur d’autres informations
séquence protéique

Localisation chromosomique,
Séquence primaire, secondaire, pattern de distribution entre espèces,
tertiaire, motifs, domaines, … voisinage génomique, usage du
code/codons…

Fonction putative
Annotations basées
sur l’analyse de la séquence protéique

Séquence primaire

• Rationnel: si deux séquences présentent des similarités au niveau de


leurs séquences primaires => séquences homologues => fonctions
similaires héritées de leur ancêtre commun
• Deux séquences sont dites
homologues si elles possèdent un
ancêtre commun

• L’existence d’un ancêtre commun


est inférée (dans la majorité des
cas) à partir de la similarité
partagée par les séquences
ATTENTION: Homologie  Similarité

• L’homologie n’est pas quantifiable


– Deux séquences ne sont pas à 50% ou à 75% homologue
– Elles sont homologues ou elles ne le sont pas
 Raisonnement binaire

• La similarité est quantifiable


– Deux séquences peuvent être similaires à 50% ou 75%
Annotations basées
sur l’analyse de la séquence protéique

Séquence primaire

 Recherches dans les banques de séquences (nr, ref_seq, SWISS-PROT,


etc.) similaires à la séquence d’intérêt

>Séquence protéique
inconnue
Similarité Bases de données
LNASINNIDAEFIASPVEKAPIIKAN
KIIVDPPRAGLTNKAIEYIEKINPDTI de séquences
VYVSCNPYTQKRDINKLKGYKIID
MQPLDMFPNTPHIENVILMKKSRT
TD Liste des séquences très
similaires à la séquence
inconnue

 Fonctions similaires?
Annotations basées
sur l’analyse de la séquence protéique

Séquence primaire
Homologie ou similarité ?

• Deux séquences sont dites homologues si elles


possèdent un ancêtre commun

• L’existence d’un ancêtre commun est inférée à partir de


la similarité

• Seuil pour les protéines :30 % d’identité sur une


longueur de 100 AA  homologie entre les séquences

©Guy Perrière
Similarité sans homologie (1)

• La similarité n’est pas toujours due à de l’homologie


– Convergence ou simple hasard pour de courtes séquences
(quelques résidus)

Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%)

Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60


[Bos taurus]
EI+ H +YTC CGK+ +++R + + CGSC
SprT family protein
[Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138

©Guy Perrière
Similarité sans homologie (2)
• Existence de régions de faible complexité (régions riches en quelques aa.,
cas de la fibroïne [GSGAGA]n) :
• Présentes dans 40 % des protéines.
• Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro,
Ser, Glu et Gln).

>gi|8572061|gb|AAF76983.1|AF226688_1 fibroin heavy chain Fib-H [Bombyx mori]


MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV
EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG
AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA
GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG
AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA
GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG
SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG
PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG
SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA
… 25 LIGNES
AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG
AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP
AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY
GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG
SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG
PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR
RNVRKNCGIPRRQLVVKFRALPCVNC

©Guy Perrière
Homologie sans similarité

• Globine alpha humaine vs myoglobine humaine

Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%)

Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54
M LS + V WGKV A +G E L R+F P T F F D S
Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60

Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114


+K HG V AL + + L+ HA K ++ + +S C++ L +
Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120

Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142


P +F +++ K L + S Y+
Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148
Banques de gènes homologues

Banque Basée sur Contenu


ProtoMap SWISS-PROT Tous organismes
ProClass PIR/PROSITE Tous organismes
CluSTr SWISS-PROT/TrEMBL Tous organismes
MetaFam Divers (10 banques) Tous organismes
SYSTERS SWISS-PROT/PIR Tous organismes
COGs Genome Génomes complets
HOBACGEN SWISS-PROT/TrEMBL Bactéries et archées
HOGENOME SWISS-PROT/TrEMBL Génomes complets
HOVERGEN SWISS-PROT/TrEMBL Vertébrés
RTKdb SWISS-PROT/TrEMBL Recepteurs à tyrosine
kinases
NuReBase GenPept Recepteurs nucléaires
de métazoaires
ABCkb SWISS-PROT/TrEMBL ABC transporteurs

©Guy Perrière
COGs Clusters of Orthologous Groups of
proteins
COGs Clusters of Orthologous Groups of
proteins
Annotations basées
sur la similarité de séquence (ou de structure)
Séquence primaire (1)
Motifs (2)
Recherche de similarité Domaines (3)
Structure secondaire
Structure tertiaire…
Résultat de la recherche Oui
Annotations basées
sur la similarité de séquence (ou de structure)
Séquence primaire
Motifs
Recherche de similarité Domaines
Structure secondaire
Structure tertiaire…
Résultat de la recherche Oui

Gène(s) de
fonction connue

Unique Multiple => qui choisir ?

Proximité évolutive
 Analyse phylogénétique
Homologie: Orthologie

• Définition «gènes présents


dans des organismes
différents, ayant évolué à partir
d’un même gène ancestral
suite à des événements de
spéciation»

=> La fonction est souvent


conservée au cours de
l’évolution des orthologues
Homologie : Paralogie

• Définition « gènes issus


d’événements de duplication
au sein d’un génome»

=> La fonction d’un ou des


paralogues peut changer au
cours de l’évolution
(spécialisation, nouvelle
fonction)
Homologie : Paralogie

Duplication de gènes

... ...
Temps
Pseudogène

Perte Changement de fonction


–neo-fonctionalisation
–sub-fonctionalisation
–e.g. Pattern d’expression, localisation
©Laurent Duret subcellulaire, activité biochimique…
Homologie : Paralogie

Opsines

Rhodopsines

Bâtonnets=intensité
lumineuse (Rhodopsine)
Cône=couleurs (Opsines
rouges, vertes, bleues)
Opsines bleues

Opsines rouges
Homologie : Paralogie
UvrA = Gène impliqué dans la réparation de l’ADN
=> présent en un exemplaire dans tous les génomes bactériens
complètement séquencés en 1999
Génome de Deinococcus radiodurans (1999) => deux copies

Résistance aux antibiotiques


Eisen & Hanawalt DNA repair 1999
Homologie : Xénologie

Taxon 1 A • Définition « gènes ayant été


acquis par transfert horizontal »

Taxon 2 A

Ancêtre de 1 Ancêtre de 2
A Transfert du gène A
d’un ancêtre de 2 vers un
ancêtre de A
Taxon 1 Taxon 2
A A
Cystéine ARNt
synthétase

Archaea
Eucarya Bacteria
pyrH (Uridine monophosphate kinase)
Buchnera sp.
P. multocida
H. influenzae
0.5 V. cholerae
P. aeruginosa
X. fastidiosa
R. prowazekii
C. crescentus
N. meningitidis
C. jejuni
H. pylori
A. thaliana
Synechocystis sp.
A. aeolicus
Cyanobactérie
B. halodurans
B. subtilis
S. aureus
L. lactis
S. pyogenes
M. tuberculosis
M. leprae
S. coelicolor
D. radiodurans
C. trachomatis
C. muridarum
C. pneumoniae Bactéries
M. pneumoniae Archées
M. genitalium
U. parvum Eucaryotes
T. maritima
A. fulgidus
P. abyssi
P. horikoshii
M. jannashii
Halobacterium sp.
M. thermoautotrophicum
S. solfataricus
A. pernix
T. acidophilum
T. pallidum
B. burgdorferi ©Guy Perrière
Limites des méthodes basées sur la
similarité
Les séquences les plus A
similaires ne sont pas
obligatoirement orthologues

La similarité de séquence est


sensible aux différences de
vitesse d’évolution entre les
différents homologues
B

A
+

B
+ +
Limites des méthodes basées sur la
similarité

Quelle est la fonction de la


protéine humaine? B

?
Limites des méthodes basées sur la
similarité = Paralogies cachées
Arbre du gène Arbre des espèces
Rat

Homme

Coq
Duplication Rat
de gène Spéciation

Homme Paralogue 1

Coq
Rat

Duplication Paralogue 2
Homme
de gène
Spéciation Coq
©Laurent Duret
Limites des méthodes basées sur la
similarité
• Le meilleur score réciproque ne correspond pas au plus proche
orthologue mais au plus proche homologue (Koski & Golding ;
JOURNAL OF MOLECULAR EVOLUTION 52(6) : 540-542 JUN
2001)

• Utilisation d’un critère phylogénétique pour identifier les orthologues


et les paralogues
Distinguer orthologues, paralogues et
xénologues
Il faut reconstruire une phylogénie et identifier les événements aux nœuds

Gène ancestral

Duplication Primates Rongeurs


Spéciation
INS1 INS2

INS INS1 INS1 INS2 INS2


Homme Rat Souris Rat Souris

©Guy Perrière
La Phylogénomique (Eisen 1998)

2A 4) Mapping des
2B fonctions connues
1) Identification des 1A 1B
homologues 3B 3A 1A 2B
2A
3A 1B 3B
Espèces: 1, 2, 3

2) Alignement des
séquences

1A 2A 1B 2B 5) Inférence de la fonction
3A 3B
putatives des gènes

3) Calcul de l’arbre 1A 2A
1B 2B
phylogénétique 3A 3B

Duplication de gène
Famille des récepteurs d’acides rétinoïques
RXRa Mus m
RXRa Rattu
RXRa Homo A Mauvaise assignation
RXRa Xenop
RXRA Tru
RXRg Danio
RXRa Danio
RXRg Tru
RXRg Xenop
RXRg Gallu G
RXRg Homo
RXRg Mus m
RXRe Danio
RXRe Tru
RXRd Danio
RXRd Tru
RXRb2 Xeno B
RXRb1 Xeno
RXRb Homo
RXRb Rattu
RXRb Mus m 0.05
RXRagb RXR Branch
RXR Polyan
RXR Cin
RXR1 Ambly
Recherche de domaines fonctionnels

Plasminogen Plasminoge
n
activator

Protein C
Factor IX
Urokinase
Factor X

Prothrombin
Création de nouvelles protéines par
duplications/réar-rangements de
domaines/exons
Recherche de domaines fonctionnels/Motifs

• Multiples

Banque Source Construction


PROSITE SWISS-PROT Expressions régulières (patterns)
eMOTIF BLOCKS/PRINTS Expression régulières floues
PRINTS UniProt Motifs alignés (fingerprints)
BLOCKS UniProt Motifs pondérés
Profile UniProt Matrices de pondération (profils)
Interpro Uniprot Manuelle
Interpro: protein sequence analysis & classification
Interpro: objectifs
Interpro: version 46.0
Interpro: version 46.0
Interpro: consortium
Interpro: construction

Prot BD Prot BD Prot BD


Interpro: contenu
Interpro: entrées
Interpro: informations annexes
Interpro: organisation hiérarchique des familles
Interpro: interrogation

Protéine déjà incluse dans interpro => réponse rapide


Protéine non incluse dans interpro => recherche de signatures avec interproscan
Interpro: exemple interrogation

Deux codes couleur:


- Lien entre les domaines
- Base de données d’où provient la signature
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
• STRUCTURE MODULAIRE DES PROTEINES

• Les protéines sont composées de domaines fonctionnels composés

 Ajout ou perte de domaines au cours de l’évolution

 Création de protéines chimères ayant plusieurs ancêtres non


apparentés

 Étude phylogénétique des domaines individuels


Annotations basées
sur la similarité de séquence (ou de structure)
Séquence primaire (1)
Motifs (2)
Recherche de similarité Domaines (3)
Structure secondaire
Structure tertiaire…
Résultat de la recherche Oui Non

Gène(s) de Gène de
fonction connue fonction
inconnue Modalité d’évolution (sélection
purificatrice vs diversifiante…)
Unique Multiple => qui choisir ? Ratio Ka/Ks
=> Ne donne pas d’information
sur la fonction, mais sur les
contraintes évolutives s’exerçant
Proximité évolutive sur le gène ou des groupes de
gènes
Recherche de domaines transmembranaires
# gi_129219_sp_P04000_OPSR_HUMAN Length: 364
# gi_129219_sp_P04000_OPSR_HUMAN Number of predicted TMHs: 7
# gi_129219_sp_P04000_OPSR_HUMAN Exp number of AAs in TMHs: 159.23504
# gi_129219_sp_P04000_OPSR_HUMAN Exp number, first 60 AAs: 5.55362
# gi_129219_sp_P04000_OPSR_HUMAN Total prob of N-in: 0.00695
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 1 54
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 55 77
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 78 89
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 90 112
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 113 126
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 127 149
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 150 168
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 169 191
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 192 220
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 221 243
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 244 269
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 270 292
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 293 301
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 302 324
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 325 364
Recherche de domaines transmembranaires

http://www.cbs.dtu.dk/services/TMHMM/
Détection de peptide signal

Eucaryotes
Bactéries gram positive
Bactéries gram négative

http://www.cbs.dtu.dk/services/SignalP/
Annotations basées
sur la similarité de séquence (ou de structure)
Séquence primaire (1)
Motifs (2)
Recherche de similarité Domaines (3)
Structure secondaire
Structure tertiaire…
Résultat de la recherche Oui Non

Gène(s) de Gène de
fonction connue fonction
inconnue
Modalité d’évolution (sélection
Unique Multiple => qui choisir ?
purificatrice vs diversifiante…)
Ratio Ka/Ks

Proximité évolutive Recherche de domaines


membranaires

Problème des similarités faibles

Séq. A CGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC


:: : ::: :: : :
Insuline CGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN
::: : : : :: : :
Séq. B YQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA

• Les comparaison par paires présentent des limitations dans le


cas de similarités limitées à quelques acides aminés :
– Séquence A / insuline : 25 % d’identité.
– Séquence B / insuline : 25 % d’identité.

©Guy Perrière
Recherche de motifs signatures

• Mot exact, e.g. site de restriction EcoRI : GAATTC


• Séquence consensus, e.g. TATA box : TATAWAWR
• Expression régulière, e.g. pattern PROSITE :
R-Y-x-[DT]-W-x-[LIVMF]-[ST]-T-P-[LIVM]
• Expression régulière floue :
– Tolère un certain nombre d’inexactitudes sur certaines positions.
• Matrice de pondération :
– Pondération des substitutions pour chaque position (PSI-
BLAST).
• Profils généralisés :
– Prise en compte des résidus avoisinants pour une position
donnée dans la matrice de pondération (par exemple en utilisant
les chaînes de Markov cachées ou HMM).

©Guy Perrière
Famille de l’insuline
B-chain A-chain

INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT


INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY
RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC
BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC
BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG
BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI
BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC
LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR
MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP
MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY
MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC
MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY
MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC
ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS
INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN
IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK
IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA
** .* ** *

Motif caractéristique
C-G-X(9)-[VLYIA]-C-X(20-150)-C-C-X(3)-C-X(4)-[SLF]-X(3)-C…

Motif réel C-C-{P}-{P}-x-C-[STDNEKPI]-x(3)-[LIVMFS]-x(3)-C


©Guy Perrière
Banques de motifs
• De nombreuses banques sont disponibles :
– Basées sur différentes sources.
– Construites en utilisant différentes approches.
– SWISS-PROT apparaît cependant comme la source de
données principale :

Banque Source Construction


PROSITE SWISS-PROT Expressions régulières (patterns)
eMOTIF BLOCKS/PRINTS Expression régulières floues
PRINTS UniProt Motifs alignés (fingerprints)
BLOCKS UniProt Motifs pondérés
Profile UniProt Matrices de pondération (profils)

©Guy Perrière
Recherche par profils (PSI-BLAST)

• Position-Specific Iterated BLAST :


– 1- Recherche BLASTP classique.
– 2- Calcul d’une matrice de pondération des substitutions au
moyen des hits significatifs.
– 3- Nouvelle recherche en utilisant la matrice.
 Calcul de score différent de la première itération
 Détection d’homologues lointains
– 4- Répétition des étapes 2-3 jusqu’à convergence.

©Guy Perrière
Exemple globines humaines
GRAINE = HBA2 humaine. Recherche dans le génome humain

Première itération 184 réponses Seconde itération 206 réponses

Détection d’un homologue lointain


Attention aux faux positifs la neuroglobine
ANNOTATION
 Véritable fonction
FONCTIONNELLE

Prédictions bioinformatiques

Annotations basées Annotations non basées


sur la similarité de séquence sur la similarité de séquence
(ou de structure)

Localisation chromosomique,
Motifs, domaines, séquence pattern de distribution entre espèces,
primaire, secondaire, tertiaire… voisinage génomique, usage du
code/codons…

Fonction putative
Autres banques

Données Systèmes

Expression des gènes GXD (Mouse Gene Expression Database)


The Stanford Microarray Database
Cartographie GDB (Genome Data Base)
EMG (Encyclopedia of Mouse Genome)
MGD (Mouse Genome Database)
INE (Integrated Rice Genome Explorer)
Quantification SWISS-2DPAGE
PDD (Protein Disease Database)
Sub2D (B. subtilis 2D Protein Index)
Structures 3D PDB (Protein Data Bank)
MMDB (Molecular Modelling Data Base)
NRL_3D (Non-Redundant Library of 3D Structures)
SCOP (Structural Classification of Proteins)
Polymorphisme ALFRED (Allele Frequency Database)
Interactions moléculaires DIP (Database of Interacting proteins)
BIND (Biomolecular Interaction Network Database)
PATHWAY KEGG
CO- STRING
Fonction de la protéine TM0659 chez
Thermotoga maritima
MKKYRCKLCGYIYDPEQGDPDSGIEPGTPFEDLPDDWVCPLCGASKEDFEPVE
Fonction de la protéine TM0754
chez Thermotoga maritima

MKKYRCKLCGYIYDPEQGDPDSGIEPGTPFEDLPDDWVCPLCGASKEDFEPVE

Analayses basées sur la similarité de séquence suggèrent qu’il s’agit


d’une rubredoxin

Rubredoxin; nonheme iron binding domains containing a [Fe(SCys)4]


center. Rubredoxins are small nonheme iron proteins. The iron atom
is coordinated by four cysteine residues (Fe(S-Cys)4), but iron can
also be replaced by cobalt, nickel or zinc.
Profils phylogénétiques
Les gènes qui fonctionnent ensemble dans le même processus cellulaire sont
fréquemment hérités / perdus ‘en bloc’ => pattern de distribution semblable entre les
Gènes
espècesregroupés en fonction de leur distribution taxonomique entre les espèces
Profil phylogénétique
Sc
P1 P2 P4 P3 P2
Ec Sc Bs Hi
P5 P7 P5 P6
Bs P1 P1 P1
P7
P2 P2 P2
P1P3 P1P2 P3 P3 P3
P6 P5 P3 P4 P4 P4
Hi P5 P6 P5 P5 P5 P5
P7 P6 P6 P6
Ec
P7 P7 P7
P2 et P7 probablement liés fonctionnellement
Pellegrini et al. 1999 P3 et P6 probablement liés fonctionnellement
Ex. Le cas de la protéine TM_0754
(Thermotoga maritima)
Profils
Profils phylogénétiques
phylogénétiques
Spécifiques Non spécifiques?

TM0659, TM0657
TM0755, TM0658
Les gènes qui fonctionnent
ensemble dans le même
processus cellulaire sont
souvent hérités / perdus
‘en bloc’
 pattern de distribution
semblable entre les
espèces

Gènes regroupés en
fonction de leur
distribution taxonomique
entre les espèces
Proximité chromosomique
Profils phylogénétiques
TM0659, TM0657
TM0755, TM0658

Proximité chromosomique
TM0659,TM0658
TM0657
TM0754, TM0755
Fusion de gènes
Profils phylogénétiques
TM0659, TM0657
TM0755, TM0658

Proximité chromosomique
TM0659,TM0658
TM0657
TM0754, TM0755

Fusion de gènes
TM0754, TM0755
TM0157,TM1128
Profils d’expression
Profils d’expression
Data mining
Partenaires fonctionnels
Halorhabdus utahensis DSM 12940 YP_003128986 Candidatus Korarchaeum cryptofilum OPF8 YP_001736640 CREN
1. Haloarcula marismortui ATCC 43049 YP_137748 EURY Thermotoga lettingae TMO YP_001471119
.65 Halorubrum lacusprofundi ATCC 49239 YP_002566595
Pelobacter carbinolicus DSM 2380 YP_357693
d
Thermotoga neapolitana DSM 4359 YP_002535370
1. 1. Clostridium thermocellum ATCC 27405 YP_001037907
Thermotoga sp. RQ2 YP_001738217
1.
1. CLOS
1. Thermotoga maritima MSB8 NP_228563 Alkaliphilus oremlandii OhILAs YP_001511702
1. Thermotoga petrophila RKU-1 YP_001243780 1.
1. Treponema denticola ATCC 35405 NP_971686 SPIR
Thermococcus sibiricus MM 739 YP_002995295
.99 Pelobacter propionicus DSM 2379 YP_902544
1. Thermococcus onnurineus NA1 YP_002307250
1. d
1. Pyrococcus furiosus DSM 3638 NP_578926 .83
Desulfobacterium autotrophicum HRM2 YP_002602866

.79 Thermococcus kodakarensis KOD1 YP_183241 Staphylothermus marinus F1 YP_001040077


.47
Heliobacterium modesticaldum Ice1 YP_001679061 .88
Thermofilum pendens Hrk 5 YP_919913
1. Carboxydothermus hydrogenoformans Z-2901 YP_361389
.99 Clostridium beijerinckii NCIMB 8052 YP_001310114 .89 Desulfurococcus kamchatkensis 1221n YP_002428295 CREN
.60 Clostridium acetobutylicum ATCC 824 NP_349062 CLOS .34 Ignicoccus hospitalis KIN4 I YP_001435770
.50 Caldicellulosiruptor saccharolyticus DSM 8903 YP_001180759 .65 Hyperthermus butylicus DSM 5456 YP_001013707
.92
Anaerococcus prevotii DSM 20548 YP_003153240 1. Thermotoga neapolitana DSM 4359 YP_002535368
Natranaerobius thermophilus JW NM-WN-LF YP_001916289
.80 Thermotoga sp. RQ2 YP_001738216
Desulfohalobium retbaense DSM 5692 YP_003198359 1.
.91 1. Desulfatibacillum alkenivorans AK-01 YP_002431515 d .69 Thermotoga petrophila RKU-1 YP_001243779
.57 Dictyoglomus thermophilum H-6-12 YP_002251681 .95 Thermotoga maritima MSB8 NP_228564
1. Dictyoglomus turgidum DSM 6724 YP_002352090
DICT 1.
Thermococcus sibiricus MM 739 YP_002995297
Desulfitobacterium hafniense DCB-2 YP_002459613
1. Desulfitobacterium hafniense Y51 YP_518224
CLOS Pyrococcus horikoshii OT3 NP_142992
1. 1.
Syntrophobacter fumaroxidans MPOB YP_846985 Pyrococcus abyssi GE5 NP_126571
.95 Geobacter sulfurreducens PCA NP_951963
d
.95 .84 Thermococcus onnurineus NA1 YP_002307248
.97 Moorella thermoacetica ATCC 39073 YP_429585
.76 1. Pyrococcus furiosus DSM 3638 NP_578480
Desulfotomaculum acetoxidans DSM 771 YP_003191765
Carboxydothermus hydrogenoformans Z-2901 YP_359591 1. Thermococcus gammatolerans EJ3 YP_002959589
.81
Desulfitobacterium hafniense Y51 YP_520674 .96 Thermococcus kodakarensis KOD1 YP_183227
.71 .95
1. Desulfitobacterium hafniense DCB-2 YP_002457382 Archaeoglobus fulgidus DSM 4304
Caldicellulosiruptor saccharolyticus DSM 8903 YP_001179232
CLOS .81
NP_069006
EURY
Thermococcus sibiricus MM 739 YP_002995140
Clostridium difficile 630 YP_001086646
1. 1.
Clostridium perfringens ATCC 13124 YP_696479 Pyrococcus furiosus DSM 3638 NP_578423
1. 1.
1. Clostridium perfringens str. 13 NP_562711 uncultured methanogenic archaeon RC-I YP_686702
.91 Clostridium perfringens SM101 YP_699080
Methanosarcina acetivorans C2A NP_618270
.91
Rhodopseudomonas palustris BisB5 YP_568651 a 1.
EURY
1. Methanosarcina mazei Go1 NP_635211
Aromatoleum aromaticum EbN1 YP_160091
1.
.63 Thauera sp. MZ1T YP_002889941
b .90 Methanosarcina barkeri str. Fusaro YP_305687
.82 Pyrococcus horikoshii OT3 NP_142817 1. Thermosipho africanus TCF52B YP_002335366
g
.99
.99 Azotobacter vinelandii DJ YP_002797679 1. Thermosipho melanesiensis BI429 YP_001306437
.98 Syntrophomonas wolfei subsp. wolfei str. Goettingen YP_754502 CLOS Methanosaeta thermophila PT YP_842755
Desulfovibrio salexigens DSM 2638 YP_002991233 1.
Geobacter sp. FRC-32 YP_002538721 Methanothermobacter thermautotrophicus str. Delta H NP_275300
.94
d
.97
1.
Geobacter uraniireducens Rf4 YP_001231243 Methanoculleus marisnigri JR1 YP_001047841
Geobacter metallireducens GS-15 YP_384710 1.
.54 Methanospirillum hungatei JF-1 YP_502266
1. Geobacter sulfurreducens PCA NP_952290 1.
.92 EURY
.67
Candidatus Methanoregula boonei 6A8 YP_001405243
Thermotoga neapolitana DSM 4359 YP_002533816
.88 Methanosphaerula palustris E1-9c YP_002465708
1.
Thermotoga maritima MSB8 NP_228205
1. .86
.98 Thermotoga sp. RQ2 YP_001738576 1.
Methanocorpusculum labreanum Z YP_001029617
.36 Thermotoga petrophila RKU-1 YP_001244123
Coprothermobacter proteolyticus DSM 5265 YP_002246535 CLOS
Moorella thermoacetica ATCC 39073 YP_430147 .94
Clostridium thermocellum ATCC 27405 YP_001036634 CLOS Dictyoglomus turgidum DSM 6724 YP_002353656

1. 1. Dictyoglomus thermophilum H-6-12 YP_002251472


DICT
1. uncultured Termite group 1 bacterium phylotype Rs-D17 YP_001956105
Thermoanaerobacter pseudethanolicus ATCC 33223 YP_001665635 Thermoanaerobacter tengcongensis MB4 NP_622651
.66 1. Thermoanaerobacter sp. X514 YP_001662205 CLOS .80

Dictyoglomus thermophilum H-6-12 YP_002250053


1. Thermoanaerobacter sp. X514 YP_001663038 CLOS
DICT 1. Thermoanaerobacter pseudethanolicus ATCC 33223 YP_001664963
1. 1. Anaerocellum thermophilum DSM 6725 YP_002574201
.99
1. Caldicellulosiruptor saccharolyticus DSM 8903 YP_001179370 CLOS Desulfatibacillum alkenivorans AK-01 YP_002432724
1. Caldicellulosiruptor saccharolyticus DSM 8903 YP_001179397 Desulfobacterium autotrophicum HRM2 YP_002601370
.93 .80
Archaeoglobus fulgidus DSM 4304 NP_069784 EURY
Dehalococcoides ethenogenes 195 YP_181846 1. Desulfovibrio magneticus RS-1 YP_002951889 d
1.
1. Desulfomicrobium baculatum DSM 4028 YP_003158426
1. Dehalococcoides sp. CBDB1 YP_308079 CLOS
1 1. Dehalococcoides sp. BAV1 YP_001214418 1 1. Desulfovibrio vulgaris str. Hildenborough YP_011230
Halothermothrix orenii H 168 YP_002509651 Alkaliphilus oremlandii OhILAs YP_001511798 Methanosaeta thermophila PT YP_842557 EURY
.99
Natranaerobius thermophilus JW NM-WN-LF YP_001918522 1.
.51 Alkaliphilus metalliredigens QYMF YP_001322382 Carboxydothermus hydrogenoformans Z-2901 YP_361388
.95 Finegoldia magna ATCC 29328 YP_001692535
Anaerococcus prevotii DSM 20548 YP_003153106
1. Thermoanaerobacter tengcongensis MB4 NP_623712
Alkaliphilus metalliredigens QYMF YP_001321920 1.
.99
1.
Finegoldia magna ATCC 29328 YP_001691354 CLOS
Alkaliphilus oremlandii OhILAs YP_001513860
Thermoanaerobacter tengcongensis MB4 NP_623775
.86 Thermoanaerobacter sp. X514 YP_001662610 CLOS
Anaerocellum thermophilum DSM 6725 YP_002572323
.77
.50 1. 1. Thermoanaerobacter pseudethanolicus ATCC 33223 Thermoanaerobacter pseudethanolicus ATCC 33223 YP_001664499
Caldicellulosiruptor saccharolyticus DSM 8903 YP_001179274
CLOS YP_001664432

Clostridium thermocellum ATCC 27405 1.


YP_001038185 Thermoanaerobacter sp. X514 YP_001662544 Halothermothrix orenii H 168 YP_002509989
.99 .79
Clostridium phytofermentans ISDg YP_001560216
Fervidobacterium nodosum Rt17-B1 YP_001409990 Archaeoglobus fulgidus DSM 4304 NP_069714
Clostridium tetani E88 NP_781818 .92 .56
.50 1. Petrotoga mobilis SJ95 YP_001568648 1.
EURY
Clostridium acetobutylicum ATCC 824 NP_349619 Archaeoglobus fulgidus DSM 4304 NP_070178
.97
.81 1. Kosmotoga olearia TBF 19.5.1 YP_002941820
Alkaliphilus metalliredigens QYMF YP_001322168
Pyrococcus furiosus DSM 3638 NP_579011
.99
1. Alkaliphilus oremlandii OhILAs YP_001513376 Coprothermobacter proteolyticus DSM 5265 YP_002247520 CLOS 1.

Staphylothermus marinus F1 YP_001040064 Pyrococcus abyssi GE5 NP_126575


1.
Desulfurococcus kamchatkensis 1221n YP_002428122

1. Candidatus Korarchaeum cryptofilum OPF8 YP_001736950 CREN Staphylothermus marinus F1 YP_001040067 .96 Thermococcus onnurineus NA1 YP_002307252
1.
.98 Thermofilum pendens Hrk 5 YP_921004
1. Ignicoccus hospitalis KIN4 I YP_001435931 CREN .95 Thermococcus sibiricus MM 739 YP_002995293
Ferroglobus placidus DSM 10642 YP_003436894 EURY
.62 .99 Thermofilum pendens Hrk 5 YP_921228 .40
Thermoanaerobacter tengcongensis MB4 NP_622163 Thermococcus kodakarensis KOD1 YP_182937
.93 1.
Thermoanaerobacter sp. X514 Hyperthermus butylicus DSM 5456 YP_001013342
1. YP_001662090 CLOS .70
Thermosipho melanesiensis BI429 YP_001306436
.99 Thermoanaerobacter pseudethanolicus ATCC 33223 YP_001665764 Thermotoga lettingae TMO YP_001471118 .97
1.
Thermococcus sibiricus MM 739 YP_002995294 .5 Thermosipho melanesiensis BI429 YP_001305667
Thermotoga neapolitana DSM 4359 YP_002535470

Archaeoglobus fulgidus DSM 4304 NP_070468 EURY .81


Thermosipho africanus TCF52B YP_002335365
.51 1. Thermotoga maritima MSB8 NP_228467
.91
Thermococcus onnurineus NA1 YP_002307251
1. .99 Thermotoga sp. RQ2 YP_001738313
Pyrococcus abyssi GE5 NP_126574 Anaerococcus prevotii DSM 20548 YP_003153215
.49 .33
.44
Thermococcus kodakarensis KOD1 YP_182936 .51 Thermotoga petrophila RKU-1 YP_001243878 1.
Anaerococcus prevotii DSM 20548 YP_003153214 CLOS
.77 Pyrococcus furiosus DSM 3638 NP_579012 Dictyoglomus thermophilum H-6-12 YP_002250197
.95 .54
Petrotoga mobilis SJ95 YP_001568649 1.
DICT Coprothermobacter proteolyticus DSM 5265 YP_002247180
Dictyoglomus turgidum DSM 6724 YP_002352345
.66 .36
Thermotoga lettingae TMO YP_001471231 Fervidobacterium nodosum Rt17-B1 YP_001410189
1. 1. Archaeoglobus fulgidus DSM 4304 NP_069180 EURY
Coprothermobacter proteolyticus DSM 5265 YP_002246835 CLOS
.64 Candidatus Korarchaeum cryptofilum OPF8 YP_001736993 Kosmotoga olearia TBF 19.5.1 YP_002941819
Fervidobacterium nodosum Rt17-B1 YP_001409989 CREN
1.
.86 Thermococcus sibiricus MM 739 YP_002995292
1. Thermosipho melanesiensis BI429 YP_001305880 1. Petrotoga mobilis SJ95 YP_001568647
.97
.96 .85
.58 Thermosipho africanus TCF52B YP_002334465 Pyrococcus furiosus DSM 3638 NP_579010
Thermotoga lettingae TMO YP_001471230
Dictyoglomus thermophilum H-6-12 YP_002251357 .98 Pyrococcus horikoshii OT3 NP_142991
.87 DICT
1. Dictyoglomus turgidum DSM 6724 .73 Thermotoga neapolitana DSM 4359 YP_002535469
YP_002353537
1. Pyrococcus abyssi GE5 NP_126576
1. Thermotoga neapolitana DSM 4359 YP_002535471
Thermotoga maritima MSB8 NP_228468
Thermococcus onnurineus NA1 YP_002307253
.82
.99
1. Thermotoga sp. RQ2 YP_001738314

.84 Thermococcus kodakarensis KOD1 YP_182938 .74 Thermotoga sp. RQ2 YP_001738312
.98 Thermotoga petrophila RKU-1 YP_001243879

1 .34 1 .90 1 .31


Thermotoga maritima MSB8 NP_228466 Thermococcus gammatolerans EJ3 YP_002959582 Thermotoga petrophila RKU-1 YP_001243877

TM0657 TM0658 TM0659


Analyse expérimentale

NADH H2O
- -
e e
NRO Rd FprA
NAD+ TM_0754 TM_0659 TM_0755 O2

- -
e e

Nlr Rbr
TM_0658 TM_0657

-
O2 H2O2 H2O2 2 H2O

(Le Fourn et al. Env Microbiol. 2011)


Application: le cas de DUF71
(de Crecy-Lagarde et al. Biology Direct 2012)
Identification d’un gène candidat par
comparaison de profils phylogénétiques
Identification d’un gène candidat par
comparaison de profils phylogénétiques

Un lien possible entre DUF71 et la


biosynthèse de la diphtamide est faiblement
suggéré par le voisinage génomique
La phylogénie et la composition en domaines
fonctionnels de DUF71 suggèrent d’autres
fonctions
Lien avec la récupération de la vitamine
B12?
Vocabulaire des annotations

• Comment relier des gènes ou des protéines aux processus


cellulaires (cycle cellulaire, mort cellulaire, embryogenèse,
métabolisme, maladie…)

• L’absence d’un système de classification communément accepté


 difficultés pour relier des gènes annotés par différents groupes de
recherche
Gene ontology

• Depuis 1999/2000 trois bases de données d’organismes modèles


(Saccharomyces Genome Database, FlyBase et la Mouse Genome
Database) ont formé un consortium pour créer GENE ONTOLOGY
– Système suffisamment large pour décrire l’ensemble des fonctions
biologiques de toutes les espèces
– Système suffisamment profond pour distinguer les spécificités d’une
protéine particulière des autres membres de la famille
Gene ontology
Gene ontology

• Vocabulaire standardisé pour décrire la fonction des gènes


eucaryotes
• Trois niveaux
– Fonction moléculaire
• Décrit la tache accomplie par les produits des gènes
individuels (ex. fonction enzymatique)
– Processus biologique
• Décrit le processus biologique dans lequel intervient le
produit du gène considéré (ex. méiose)
– Compartiment cellulaire
• Décrit les gènes en terme de localisation dans les structures
subcellulaires (ex. organelles, noyau…) ou bien au sein de
complexes macromoléculaires (ex. ribosome)
Gene ontology

• GO est organisé selon une hiérarchie de termes


– Enzyme
• Lyase
• Carbon-oxygen lyase
• Hydro lyase
• Threonine dehydratase
• => Une enzyme clairement orthologue à une
threonine dehydratase peut être annotée avec les
termes les plus précis
• Une enzyme clairement identifiée comme lyase mais
dont l’activité enzymatique n’a pas été confirmée
peut être décrite par des termes plus génériques
• Grande flexibilité qui permet une niveau d’annotation plus ou
moins spécifique
Gene ontology

• Le consortium GO s’agrandit sans cesse


– Arabidopsis thaliana Information Ressource
– WornBase (C. elegans database)
– PomBase (Fission yeast database)

– Annotation des gènes prédits ou confirmés dans ces différentes


bases de données selon des termes GO

– Permet des comparaisons rapides et l’établissement de


références croisées entre elles
Gene ontology
Gene ontology
Gene ontology
Gene ontology
Gene ontology
Gene ontology
Gene ontology

S-ar putea să vă placă și