Documente Academic
Documente Profesional
Documente Cultură
Connaissances
Dfinition de la bioinformatique
Un domaine de recherche qui analyse et interprte des donnes biologiques, au moyen de mthodes informatiques, afin de crer de nouvelles connaissances en biologie.
Source : article prsentant la bioinformatique, sur le site dInterstices Auteur(s) : Isabelle Quinkal (Journaliste) Franois Rechenmann (Chercheur)
3
Dfinition de la bioinformatique
anglais : distinction entre Bioinformatics et Computational Biology Bioinformatics
applique des algorithmes, modles statistiques dans lobjectif d'interprter, classer et comprendre des donnes biologiques.
Computational Biology
dvelopper des modles mathmatiques et outils associs pour rsoudre des problmes biologiques.
Acquisition et organisation des donnes biologiques Conception de logiciels pour lanalyse, la comparaison et la modlisation des donnes Analyse des rsultats produits par les logiciels
Quelques conseils
La qualit des rsultats est parfois diminue au profit de la rapidit Certains problmes admettent un ensemble infini de possibilits Ce nest pas toujours la solution la meilleure qui est trouve Beaucoup de logiciels ne font que de la prdiction Prdiction : dire ce quon prvoit, par raisonnement, devoir arriver. (wiktionnaire) Les donnes se sont pas toujours fiables La mise jour nest pas toujours rcente
En Europe : EBI
Organisation acadmique but non lucratif fonde en 92 Centre de recherche et services en bioinformatique qui gre des banques de donnes biologiques (ADN-ARN, protines, structures 3D) Met dans le domaine publique et rend accessible gratuitement les informations issues de la recherche en biologie molculaire et gnomique afin de promouvoir le progrs scientifique
Ressource nationale pour linformation en biologie molculaire fonde en 1988 Cration de banques publiques et recherche en bioinformatique Dveloppe des outils informatiques pour analyser les donnes de gnome et diffuser linformation mdicale pour mieux comprendre les processus molculaires touchant la sant humaine et la maladie
Sites gnralistes
Un dictionnaire : http://fr.wiktionary.org/ Une encyclopdie : http://fr.wikipedia.org/ Infobiogen (ferm maintenant) : http://www.infobiogen.fr/ Autoformation (Paris V) : http://www.dsi.univ-paris5.fr/bio2/autof2/ Interstices (culture scientifique) : http://interstices.info/ 2can (tutoriels de lEBI) : http://www.ebi.ac.uk/2can/tutorials/ Les aides fournis par les logiciels Les articles scientifiques Jean-Stphane Varre, Hlne Touzet, Maude Pupin
10
Autorit :
Source de linformation, auteurs, statut, Date de cration, de mise jour, Attention, ce qui est valid un jour peut tre dmenti par la suite ! Documentation disponible
Premption :
Transparence :
Rgles valables aussi bien pour une banque de donnes, que pour un logiciel, un site web,
11
GNOMIQUE ET BIOINFORMATIQUE
12
La gnomique
Plusieurs tapes :
13
1972
1975
Technique de F. Sanger et al. pour lADN
1977
1977
1er virus phi X174 par Sanger et al.
1987
1995
1996
1er eucaryote S. cerevisiae 12 Mb
1998
2001
Homo sapiens
2008
14
Squences produites par des laboratoires pour tudier un gne, un groupe de gnes, une squence intergnique,
Rgions dintrts dont le gnome complet nest (ntait) pas connu Etude des variations allliques, Gnomes complets (HTG, WGS) ou partiels (GSS) STS EST Mtagnomes
16
Intrt conomique
Mdecine Biotechnologies Environnement Evolution des espces Fonctionnement des cellules Etude des tres vivants Nutrition Propagation des maladies Environnement
17
Intrt scientifique
Utilit publique
Mthode Sanger (1975) Mthode MaxamGilbert (1977) Automatisation de Sanger (de ~1980 2005)
Commercialise en 1987 : premier squenceur Applied Biosystems 370A NGS : Next Generation Sequencing (dsormais largement utiliss) ou plutt HTS : High-Throughput Sequencing
18
Ide
Amorcer une polymrisation de lADN
3 5
Elongation
faite laide de 4 dsoxyribonuclotides (dATP, dCTP, dGTP, dTTP) majoritaires + faible concentration de l'un des quatre didsoxyribonuclotides (ddATP, ddCTP, ddGTP ou ddTTP) qui arrtent llongation.
Note : il y a 4 expriences
Source: wikipedia.org
19
Elongation statistique
Continue tant que des dNTP sont incorpors N ={A,C,G,T} Arrt si incorporation (par hasard ) dun ddGTP Le hasard dpend ici de la concentration respective des dNTP et de ddGTP
produits possibles
Source: wikipedia.org
20
Source: wikipedia.org
Ralis sur les quatre expriences en mme temps. Migration en fonction du poids des produits des 4 expriences
sens de lelectrophorse
En rsum :
Source: scq.ubc.ca
22
23
Mthode Sanger avec Dye terminator sequencing An alternative to the labelling of the primer is to label the terminators instead, commonly called 'dye terminator sequencing'. The major advantage of this approach is the complete sequencing set can be performed in a single reaction, rather than the four needed with the labeledprimer approach. This is accomplished by labelling each of the dideoxynucleotide chain-terminators with a separate fluorescent dye, which fluoresces at a different wavelength.
Source: wikipedia.org
24
Squenage : et automatisation
Electrophorse Capillaire Excitation laide dun laser, et lecture automatique des 4 longueurs donde possibles (associs au 4 ddNTP)
Source: wikipedia.org
25
Squenage : et automatisation
Source: wikipedia.org
26
28
29
30
Rcentes: 1ere commercialis en 2005 (actuellement Roche 454), depuis 2 autres ont suivi (Illumina Solexa, Applied Biosystems SOLiD) Rapides: ~ 3 jours au lieu de 3 mois Cot initial assez lev, cot en production en baisse rgulire ex: 1000 gnomes humains 1000$ Reads (Lectures) plus courts (pour le moment) : taux derreur actuellement plus lev => reads plus courts
Read = lecture de lordre de ~100 ~400 bases. Reads = comment sont-ils obtenus ?? principe gnral simplifi : chaque lecture dune lettre gnre un point de couleur une position donne sur une image une suite dimages lue donne une suite de couleurs, et (selon un code) une suite de nuclotides [voir exemple sur slide suivant]
Avantage :
Gnre des centaines de milliers millions de lectures en parallle (dpend de la densit en points colors)
38
viter ltape damplification (squenage dune seule molcule, ou dun seul fragment non amplifi de la molcule)
39
40
Et pourtant
41
rptition
Assemblage des squences lues en contigs Finition (remplissage des trous) scaffolds
http://www.ncbi.nlm.nih.gov/genbank/wgs
42
Lecture alatoire de fragments, un seul passage Squences des extrmits de cosmides, BAC ou YAC Capture dexons sur le gnome Squences dALU (squences rptes prsente chez lHomme) Squences de transposons
43
La squence est unique sur un gnome La localisation sur le gnome est connue Marqueur gntique Point de repre pour construire les cartes physiques ou pour assembler les squences gnomiques
Utilis comme
44
Court fragment de squence transcrite et pisse Une seule lecture (single-pass) des ADNc dun tissu,
Localisation des squences transcrites sur les gnomes Assemblage des EST pour reconstruire les ARN complets Information sur les conditions dexpression des transcrits
45
La mtagnomique
Extraites de diffrents environnements (ocan, terre, flore intestinale, ) Accs des organismes non cultivables et non connus Ensemble des fragments dADN issus dun chantillon
Metagenome Project Categories September 2009: 200 Projects SYNTHETIC
5%
Mtagnome
46
Et la bioinformatique ?
Programmes de bioinformatique : Utiliss diffrentes tapes du squenage des gnomes
Lecture des squences la sortie des squenceurs Assemblage des gnomes partir des fragments squencs Recherche des rptitions pour corriger les mauvais assemblages Regroupement des squences appartenant un mme gne Localisation des EST sur les gnomes Comparaison 2 2, multiple, une squence contre une banque
47
Ensemble de donnes relatives un domaine, organises par traitement informatique, accessibles en ligne et distance Souvent, les donnes sont stockes sous la forme dun fichier texte format (respectant une disposition particulire) Besoin de dvelopper des logiciels spcifiques pour interroger les donnes contenues dans ces banques
48
Squenage de molcules dADN ou dARN 1 squence + ses annotations = 1 entre Fragments de gnomes Un ou plusieurs gnes, un bout de gne, squence intergnique, Gnomes complets ARNm, ARNt, ARNr, (fragments ou entiers)
Note 1 : toutes les squences (ADN ou ARN) sont crites avec des T Note 2 : le brin donn dans la banque est appel brin + ou brin direct, pas de rapport avec le brin codant
49
Augmentation du nombre de squences 1 squence = 1 article Les banques extraient les squences des publications Fin de la publication systmatique
Gestion des donnes par des organismes spcialiss Squences et annotations sont soumises aux banques
50
http://www.ebi.ac.uk/embl/
http://www.ncbi.nlm.nih.gov/Genbank/
51
Date et numro de version (release) Donnes figes une date fixe (toutes les squences collectes jusque l) Mise jour quotidienne des donnes Toutes les nouvelles squences depuis la dernire version Pas besoin de tlcharger la banque entire tous les jours Possibilit de faire des calculs longs
52
Taille (lettres)
Nb Entres
53
3 parties : Description gnrale de la squence Features Description des objets biologiques prsents sur la squence La squence
ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag
60 120 180
54
Accession M71283
AC : numros daccession
Un nacc principal pour chaque entre, unique Une liste de nacc secondaires (historique de lentre)
DT : dates de cration et de dernire version DE : description du contenu de lentre KW : mots-cls ; peu renseign OS, OC : organisme contenant la sq. et sa taxonomie RN, RC, RX, RP, RA, RT, RL : rf. bibliographiques
DEFINITION = DE ACCESSION = AC VERSION ~ DT KEYWORDS = KW SOURCE, ORGANISM = OS, OC REFERENCE, AUTHORS, TITLE, JOURNAL, = R
56
Vocabulaire contrl, hirarchique gene : squence complte du gne (y compris les introns) CDS : squence codante (sans les introns, entre ATG et Stop)
Voir description du format plus loin Format : /qualifier=commentaires libres /gene="comQ" : nom du gne concern /note="competence regulation" : information concernant la fonction
57
Mot-cl le plus gnral : misc_feature Changements dans la squence : misc_difference, ... Rgions rptes : repeat_region, ... Rgions des Ig : immunoglobulin_related, ... Structures secondaires : misc_structure
stem_loop D-loop
58
misc_RNA prim_transcript precursor_RNA mRNA 5'clip 3'clip 5'UTR 3'UTR exon CDS intron polyA_site
467 : lannotation ne concerne quune seule base 109..1105 : entre les positions 109 et 1105 (incluse)
Toujours la position la plus petite en premier Commence avant le premier nt de l'entre Se termine aprs le dernier nt de lentre (taille seq = 1322)
<234..888 : dbut rel inconnu, mais avant 234 234..>888 : fin relle inconnue, mais aprs 888 complement(340..565) : squence complmentaire inverse celle de l'entre (brin -) join(12..78,134..202) : fragments indiqus mis bout bout (concatns) ; nombre de fragments illimit
60
Le vocabulaire dpend du Key au quel le Qualifier se rfre /gene= ou /name= /product= /translation= /evidence= /note=
61
Nom de gne
Origine de lannotation
Texte libre
degQ
Changements dans la squence, dans les annotations Ajout dune squence, dune annotation, dune publication
Les entres sont mises jour par leurs auteurs Limites de ce processus
Seuls les auteurs dune entre peuvent la corriger Seules les donnes issues de squenage sont admises TPA experimental : la squence et ses annotations doivent avoir t vrifies par des expriences en laboratoire humide TPA inferential : squence et/ou annotations proviennent de prdictions base sur des tudes de familles de gnes, par exemple
63
Version plus rcente dune squence ou dune annotation dans dautres banques (ex : banques ddies un gnome complet) Un mme fragment de squence prsent dans plusieurs entres Difficult de recherche dune information particulire Peu de descriptions sur les gnes et leurs produits
Forte redondance
64
The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, non-redundant set of sequences, including genomic DNA, transcript (RNA), and protein products, for major research organisms. Curated collections from a number of biologically significant organisms Avantages :
Non redondante Liens explicites entre les squences nucliques et protiques Mise jour rgulire par le personnel du NCBI avec indication du statut de lentre Validation des donnes et consistance des formats Synthse des informations issues de plusieurs entres nucliques ou protiques
65
Revu par un membre du NCBI qui a ajout des informations provenant de publications scientifiques et de diffrentes entres de squences Une premire rvision a t effectue par un membre du NCBI, mais lannotation est en cours Entre non lue par un annotateur, mais qui contient surement un vrai transcrit ou une vrai protine Transcrit ou protine issu dune prdiction laide dun programme informatique
66
Validated
Provisional
Predicted
67
Gene :
Banque centre sur les gnes Source : RefSeq ou centres reconnus dannotation des gnomes Localisation sur le gnome, variants dpissage, protines codes par le gne, bibliographie, gnes homologues, Regroupement de squences nucliques dict par les gnes Un groupe contient toutes les squences qui reprsentent un gne unique (ARNm et EST) Donnes mises jour rgulirement Problme : gestion des familles de gnes rpts
UniGene :
68
3 banques : Ensembl (EBI), UCSC Genome (USA), NCBI genome (USA) Les mme squences brutes 3 mthodes diffrentes pour annoter les squences
Principe de base : localiser sur la squence des informations provenant de diffrentes sources Gnes connus (annotations provenant dautres banques) ARNm et EST localiss sur le gnome (variants dpissage) Protines localises sur le gnome (traduction du gnome) Prdictions statistiques
69
Squences ADN/ARN : EMBL ; GenBank et DDBJ Squences protiques : SwissProt et TrEMBL ; PIR ; FASTA Squence brute ( raw sequence ) Lors de la consultation des banques Le programme ReadSeq (nimporte quel format en entre, choix du format de sortie)
Conversion de formats
70
Le format FASTA
Utilis par les logiciels danalyse de squence Une ligne de commentaires prcde de > La squence brute (pas despace, ni de nombre)
>Human Polycomb 2 homolog (hPc2) mRNA, partial cds ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg Gcggcagcggcacccaccacgacggcggagaagcct >hPc2 gene ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag tacgtgacggtg
71
La gnomique
Plusieurs tapes :
72
Le jeu complet et prcis des gnes ainsi que leur position sur le gnome, L'ensemble des transcrits d'un gnome, Le lieu et le moment de l'expression de chaque transcrit, La protine produite par chaque transcrit, Le lieu et le moment de l'expression de chaque protine, La structure complte de chaque protine, La fonction de chaque protine, Les mcanismes cellulaires auxquels participent les protines.
73
Prdiction des gnes ARN ou protine prsents sur la squence laide de programmes Localisation, fonction des produits, Permet dorienter les exprimentations Les techniques seront prsentes dans un prochain cours Annotation ralise entirement (ou presque) par des programmes informatiques Risque important derreurs
Gnomes complets
La gnomique
Plusieurs tapes :
75
Gnomique comparative
Objectifs :
Etudier lvolution entre espces lchelle du gnome Identifier des gnes spcifiques une espce (pathognicit, ) Retrouver des rgions de syntnie (conservation de l'ordre de gnes homologues dans le gnome d'espces diffrentes) tude du polymorphisme au sein dune mme espce Comparaison de cartes gntiques Alignement de gnomes Alignement de toutes les protines de plusieurs gnomes Etude de lordre des gnes
Mthodes
76
Phylognie
Mieux comprendre les mcanismes de l'volution et les mcanismes molculaires associs. Connatre l'arbre de la vie (taxonomie). Etudier la biodiversit, l'origine gographique des espces, Dtermination de l'arbre phylogntique d'un ensemble de squences Configuration la plus probable pour rendre compte du degr de parent existant entre des squences.
Phylognie molculaire :
Arbre phylogntique :
77