Documente Academic
Documente Profesional
Documente Cultură
Relations inter-espèces,
Populations Équilibres écologiques
Développement, reproduction,
Organismes vieillissement
Tissus, organes Régulations physiologiques
Migrations,
Cellules Communications
Réseau d’interactions Fonction cellulaire : voie,
entre molécules cascade, processus
Fonction biochimique
Molécule ou moléculaire
Annotation fonctionnelle ~expérimentale~
1) Clonage de la protéine
2) Expression
3) Purification
4) Analyses/Tests
Annotation fonctionnelle ~bioinformatique~
Prédictions bioinformatiques
Localisation chromosomique,
Séquence primaire, secondaire, pattern de distribution entre espèces,
tertiaire, motifs, domaines, … voisinage génomique, usage du
code/codons…
Fonction putative
Annotations basées
sur l’analyse de la séquence protéique
Séquence primaire
Séquence primaire
>Séquence protéique
inconnue
Similarité Bases de données
LNASINNIDAEFIASPVEKAPIIKAN
KIIVDPPRAGLTNKAIEYIEKINPDTI de séquences
VYVSCNPYTQKRDINKLKGYKIID
MQPLDMFPNTPHIENVILMKKSRT
TD Liste des séquences très
similaires à la séquence
inconnue
Fonctions similaires?
Annotations basées
sur l’analyse de la séquence protéique
Séquence primaire
Homologie ou similarité ?
©Guy Perrière
Similarité sans homologie (1)
©Guy Perrière
Similarité sans homologie (2)
• Existence de régions de faible complexité (régions riches en quelques aa.,
cas de la fibroïne [GSGAGA]n) :
• Présentes dans 40 % des protéines.
• Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro,
Ser, Glu et Gln).
©Guy Perrière
Homologie sans similarité
Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54
M LS + V WGKV A +G E L R+F P T F F D S
Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60
©Guy Perrière
COGs Clusters of Orthologous Groups of
proteins
COGs Clusters of Orthologous Groups of
proteins
Annotations basées
sur la similarité de séquence (ou de structure)
Séquence primaire (1)
Motifs (2)
Recherche de similarité Domaines (3)
Structure secondaire
Structure tertiaire…
Résultat de la recherche Oui
Annotations basées
sur la similarité de séquence (ou de structure)
Séquence primaire
Motifs
Recherche de similarité Domaines
Structure secondaire
Structure tertiaire…
Résultat de la recherche Oui
Gène(s) de
fonction connue
Proximité évolutive
Analyse phylogénétique
Homologie: Orthologie
Duplication de gènes
... ...
Temps
Pseudogène
Opsines
Rhodopsines
Bâtonnets=intensité
lumineuse (Rhodopsine)
Cône=couleurs (Opsines
rouges, vertes, bleues)
Opsines bleues
Opsines rouges
Homologie : Paralogie
UvrA = Gène impliqué dans la réparation de l’ADN
=> présent en un exemplaire dans tous les génomes bactériens
complètement séquencés en 1999
Génome de Deinococcus radiodurans (1999) => deux copies
Taxon 2 A
Ancêtre de 1 Ancêtre de 2
A Transfert du gène A
d’un ancêtre de 2 vers un
ancêtre de A
Taxon 1 Taxon 2
A A
Cystéine ARNt
synthétase
Archaea
Eucarya Bacteria
pyrH (Uridine monophosphate kinase)
Buchnera sp.
P. multocida
H. influenzae
0.5 V. cholerae
P. aeruginosa
X. fastidiosa
R. prowazekii
C. crescentus
N. meningitidis
C. jejuni
H. pylori
A. thaliana
Synechocystis sp.
A. aeolicus
Cyanobactérie
B. halodurans
B. subtilis
S. aureus
L. lactis
S. pyogenes
M. tuberculosis
M. leprae
S. coelicolor
D. radiodurans
C. trachomatis
C. muridarum
C. pneumoniae Bactéries
M. pneumoniae Archées
M. genitalium
U. parvum Eucaryotes
T. maritima
A. fulgidus
P. abyssi
P. horikoshii
M. jannashii
Halobacterium sp.
M. thermoautotrophicum
S. solfataricus
A. pernix
T. acidophilum
T. pallidum
B. burgdorferi ©Guy Perrière
Limites des méthodes basées sur la
similarité
Les séquences les plus A
similaires ne sont pas
obligatoirement orthologues
A
+
B
+ +
Limites des méthodes basées sur la
similarité
?
Limites des méthodes basées sur la
similarité = Paralogies cachées
Arbre du gène Arbre des espèces
Rat
Homme
Coq
Duplication Rat
de gène Spéciation
Homme Paralogue 1
Coq
Rat
Duplication Paralogue 2
Homme
de gène
Spéciation Coq
©Laurent Duret
Limites des méthodes basées sur la
similarité
• Le meilleur score réciproque ne correspond pas au plus proche
orthologue mais au plus proche homologue (Koski & Golding ;
JOURNAL OF MOLECULAR EVOLUTION 52(6) : 540-542 JUN
2001)
Gène ancestral
©Guy Perrière
La Phylogénomique (Eisen 1998)
2A 4) Mapping des
2B fonctions connues
1) Identification des 1A 1B
homologues 3B 3A 1A 2B
2A
3A 1B 3B
Espèces: 1, 2, 3
2) Alignement des
séquences
1A 2A 1B 2B 5) Inférence de la fonction
3A 3B
putatives des gènes
3) Calcul de l’arbre 1A 2A
1B 2B
phylogénétique 3A 3B
Duplication de gène
Famille des récepteurs d’acides rétinoïques
RXRa Mus m
RXRa Rattu
RXRa Homo A Mauvaise assignation
RXRa Xenop
RXRA Tru
RXRg Danio
RXRa Danio
RXRg Tru
RXRg Xenop
RXRg Gallu G
RXRg Homo
RXRg Mus m
RXRe Danio
RXRe Tru
RXRd Danio
RXRd Tru
RXRb2 Xeno B
RXRb1 Xeno
RXRb Homo
RXRb Rattu
RXRb Mus m 0.05
RXRagb RXR Branch
RXR Polyan
RXR Cin
RXR1 Ambly
Recherche de domaines fonctionnels
Plasminogen Plasminoge
n
activator
Protein C
Factor IX
Urokinase
Factor X
Prothrombin
Création de nouvelles protéines par
duplications/réar-rangements de
domaines/exons
Recherche de domaines fonctionnels/Motifs
• Multiples
Gène(s) de Gène de
fonction connue fonction
inconnue Modalité d’évolution (sélection
purificatrice vs diversifiante…)
Unique Multiple => qui choisir ? Ratio Ka/Ks
=> Ne donne pas d’information
sur la fonction, mais sur les
contraintes évolutives s’exerçant
Proximité évolutive sur le gène ou des groupes de
gènes
Recherche de domaines transmembranaires
# gi_129219_sp_P04000_OPSR_HUMAN Length: 364
# gi_129219_sp_P04000_OPSR_HUMAN Number of predicted TMHs: 7
# gi_129219_sp_P04000_OPSR_HUMAN Exp number of AAs in TMHs: 159.23504
# gi_129219_sp_P04000_OPSR_HUMAN Exp number, first 60 AAs: 5.55362
# gi_129219_sp_P04000_OPSR_HUMAN Total prob of N-in: 0.00695
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 1 54
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 55 77
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 78 89
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 90 112
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 113 126
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 127 149
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 150 168
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 169 191
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 192 220
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 221 243
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 244 269
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 270 292
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 outside 293 301
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 TMhelix 302 324
gi_129219_sp_P04000_OPSR_HUMAN TMHMM2.0 inside 325 364
Recherche de domaines transmembranaires
http://www.cbs.dtu.dk/services/TMHMM/
Détection de peptide signal
Eucaryotes
Bactéries gram positive
Bactéries gram négative
http://www.cbs.dtu.dk/services/SignalP/
Annotations basées
sur la similarité de séquence (ou de structure)
Séquence primaire (1)
Motifs (2)
Recherche de similarité Domaines (3)
Structure secondaire
Structure tertiaire…
Résultat de la recherche Oui Non
Gène(s) de Gène de
fonction connue fonction
inconnue
Modalité d’évolution (sélection
Unique Multiple => qui choisir ?
purificatrice vs diversifiante…)
Ratio Ka/Ks
©Guy Perrière
Recherche de motifs signatures
©Guy Perrière
Famille de l’insuline
B-chain A-chain
Motif caractéristique
C-G-X(9)-[VLYIA]-C-X(20-150)-C-C-X(3)-C-X(4)-[SLF]-X(3)-C…
©Guy Perrière
Recherche par profils (PSI-BLAST)
©Guy Perrière
Exemple globines humaines
GRAINE = HBA2 humaine. Recherche dans le génome humain
Prédictions bioinformatiques
Localisation chromosomique,
Motifs, domaines, séquence pattern de distribution entre espèces,
primaire, secondaire, tertiaire… voisinage génomique, usage du
code/codons…
Fonction putative
Autres banques
Données Systèmes
MKKYRCKLCGYIYDPEQGDPDSGIEPGTPFEDLPDDWVCPLCGASKEDFEPVE
TM0659, TM0657
TM0755, TM0658
Les gènes qui fonctionnent
ensemble dans le même
processus cellulaire sont
souvent hérités / perdus
‘en bloc’
pattern de distribution
semblable entre les
espèces
Gènes regroupés en
fonction de leur
distribution taxonomique
entre les espèces
Proximité chromosomique
Profils phylogénétiques
TM0659, TM0657
TM0755, TM0658
Proximité chromosomique
TM0659,TM0658
TM0657
TM0754, TM0755
Fusion de gènes
Profils phylogénétiques
TM0659, TM0657
TM0755, TM0658
Proximité chromosomique
TM0659,TM0658
TM0657
TM0754, TM0755
Fusion de gènes
TM0754, TM0755
TM0157,TM1128
Profils d’expression
Profils d’expression
Data mining
Partenaires fonctionnels
Halorhabdus utahensis DSM 12940 YP_003128986 Candidatus Korarchaeum cryptofilum OPF8 YP_001736640 CREN
1. Haloarcula marismortui ATCC 43049 YP_137748 EURY Thermotoga lettingae TMO YP_001471119
.65 Halorubrum lacusprofundi ATCC 49239 YP_002566595
Pelobacter carbinolicus DSM 2380 YP_357693
d
Thermotoga neapolitana DSM 4359 YP_002535370
1. 1. Clostridium thermocellum ATCC 27405 YP_001037907
Thermotoga sp. RQ2 YP_001738217
1.
1. CLOS
1. Thermotoga maritima MSB8 NP_228563 Alkaliphilus oremlandii OhILAs YP_001511702
1. Thermotoga petrophila RKU-1 YP_001243780 1.
1. Treponema denticola ATCC 35405 NP_971686 SPIR
Thermococcus sibiricus MM 739 YP_002995295
.99 Pelobacter propionicus DSM 2379 YP_902544
1. Thermococcus onnurineus NA1 YP_002307250
1. d
1. Pyrococcus furiosus DSM 3638 NP_578926 .83
Desulfobacterium autotrophicum HRM2 YP_002602866
1. Candidatus Korarchaeum cryptofilum OPF8 YP_001736950 CREN Staphylothermus marinus F1 YP_001040067 .96 Thermococcus onnurineus NA1 YP_002307252
1.
.98 Thermofilum pendens Hrk 5 YP_921004
1. Ignicoccus hospitalis KIN4 I YP_001435931 CREN .95 Thermococcus sibiricus MM 739 YP_002995293
Ferroglobus placidus DSM 10642 YP_003436894 EURY
.62 .99 Thermofilum pendens Hrk 5 YP_921228 .40
Thermoanaerobacter tengcongensis MB4 NP_622163 Thermococcus kodakarensis KOD1 YP_182937
.93 1.
Thermoanaerobacter sp. X514 Hyperthermus butylicus DSM 5456 YP_001013342
1. YP_001662090 CLOS .70
Thermosipho melanesiensis BI429 YP_001306436
.99 Thermoanaerobacter pseudethanolicus ATCC 33223 YP_001665764 Thermotoga lettingae TMO YP_001471118 .97
1.
Thermococcus sibiricus MM 739 YP_002995294 .5 Thermosipho melanesiensis BI429 YP_001305667
Thermotoga neapolitana DSM 4359 YP_002535470
.84 Thermococcus kodakarensis KOD1 YP_182938 .74 Thermotoga sp. RQ2 YP_001738312
.98 Thermotoga petrophila RKU-1 YP_001243879
NADH H2O
- -
e e
NRO Rd FprA
NAD+ TM_0754 TM_0659 TM_0755 O2
- -
e e
Nlr Rbr
TM_0658 TM_0657
-
O2 H2O2 H2O2 2 H2O