Sunteți pe pagina 1din 10

Plan

3 Annotation
3. A i des
d génomes
é
a) Localisation des éléments génétiques
 éléments répétés
 gènes des ARN stables (ARNr, ARNt)
 gènes protéiques
 Nb de gènes, taille du génome et complexité
 pseudogènes
 régions régulatrices
b) Annotation fonctionnelle
c) Intégration

Localisation des éléments génétiques

Nature Reviews Genetics 11, 559-571 (August 2010)

1
Les éléments répétés
Télomères (plusieurs Kb) :
ADN minisatellite contenant le motif (TTAGGG)n

Centromère (plusieurs Mb) :


ADN satellite (~170 bp)

Microsatellites (≤ 100pb) (Short Tandem Repeat) :


répétition en tandem d’un motif de 2 à 6 pb,
répartition
é uniforme
f sur le chromosome
Séquences répétées dispersées
dérivant d’éléments transposables
(réparties sur tout le chromosome)

Elts répétés simples (en tandem)


Elts répétés dispersés

Eléments transposables et leurs dérivés

1) DNA transposons
Pas d’intermédiaire ARN
 Transposase

 Eucaryotes
 Procaryotes (IS = Insertion sequence)

DNA transposons
Autonomous Short terminal
Transposase inverted repeats

Non autonomous
80 bp à 3 kb

2
Eléments transposables et leurs dérivés
2) Rétrotransposons (= rétroéléments = RNA transposons)
Un intermédiaire ARN
 reverse transcriptase

Présent chez les eucaryotes

On distingue les rétroéléments :


- à LTR (Long Terminal Repeats)
- sans LTR mais
i à polyA
l A

Exemple L1 :

Eléments transposables et leurs dérivés


Retrovirus-like
Retrovirus like elements
Autonomous LTR : Long terminal
à LTR Reverse Other repeats
transcriptase proteins
Non autonomous
1.5 à 10 kb

LINEs (Long Interspersed Nuclear Elements)


Autonomous AAAA
Promoter site Reverse Other
sans LTR (pol II) transcriptase proteins
6 à 8 kb
(avec polyA)
SINEs (Short Interspersed Nuclear Elements)
Non autonomous AAAA
Promoter site
(pol III) 100 à 400 bp
dérivent de tRNA, 7SL RNA (composant de la SRP, signal recognition particle)
et 5S rRNA

3
Exemple : SINE3

Kapitonov & Jurka, Mol Biol Evol, 2003

5S rRNA : séquence consensus de l’ARN5S eucaryote, XL : Xenopus laevis, DR : Danio rerio


SINE3 : séquence consensus de la région 5’ des éléments SINE3-1 et SINE3-2

Eléments transposables et leurs dérivés


Interspersed repeats in eukaryotic genomes

D. melanogaster C. elegans A. thaliana M. Musculus H. sapiens


LINEs / SINEs 0.7 % 0.4 % 0.5 % 27,4 33.4 %
LTR 1.5 % 0% 4.8 % 9,9 8.1 %
DNA transposons 0.7 % 5.3 % 5.1 % 0,9 2.8 %

TOTAL 3.1 % 6.5 % 10.5 % 38.6 44.4 %

Interspersed repeats in the human genome

Copy number Fraction


LINEs 850 000 21 %
SINEs 1 500 000 13 %
Retrovirus-like elts 450 000 8%
DNA transposons 300 000 3%
TOTAL 3 100 000 ~ 45 %

4
Homo sapiens, chr 18
78 Mb  115 378 repeats détectés

8 kb

Eléments transposables chez les plantes

en nb de copies

MITEs = Miniature Inverted repeat


Transposable Elements( DNA
transposons)

Jiang et al. Current opinion in Plant Biology. 2004

5
http://www.repeatmasker.org/

Low complexity regions


Séquence d’ADN (format Fasta) Simple repeats Séquence d’ADN filtrée
>Sequence1 >Sequence1
ACGTGCGCGATCGCCTGCTAGGCG ACGTGCGCGNNNNNNNNTAGGCG
TACGTCGCAGGCGATCGATGTGCT TACGTCGCAGGCGATCGATGTGCT
AGATCAGATGACA AGATCAGATGACA
Banque
d’interspersed
d’i t d Bilan
repeats (Alus,...) des repeats

Certains génomes sont déjà filtrés et peuvent être téléchargés.

Plan
3 Annotation
3. A i des
d génomes
é
a) Annotation structurale : localisation des éléments génétiques
 éléments répétés
 gènes des ARN stables (ARNr, ARNt...)
 gènes protéiques
 Nb de gènes, taille du génome et complexité
 pseudogènes
 régions régulatrices
b) Annotation fonctionnelle
c) Intégration

6
Gènes des ARN non codant
 Les ARN ribosomiques
ibosomiq es :
 Très forte conservation =>Recherche par similarité
 Beaucoup de séquences  banques spécialisées

http://bioinformatics.psb.ugent.be/webtools/rRNA/index.html

http://www.arb-silva.de/

Recherche des gènes d’ARNt

Structure
secondaire d’un 5’ 0 1 72 73 74 75 76 3’
ARNt 2
3
71
70
Bras accepteur
4 69
Bras T
5 68
6 67
Bras D
7 66 65 64 63 62 61 60 59 58
16 15 8 57
17 14 9
17A 13 12 11 10 49 50 51 52 53 56
54 55
18 48
19 22 23 24 25 47 46
20 21 26 44 e21 Boucle variable
20A 20B 27 43 45 e22
e11 e23
Nucléotides toujours présents 28 42 e12 e24
e13 e25
invariant ou semi-invariant 29 41 e14 e25
Bras anticocon 30 e15 e26
variable 40 e16 e27
31 39 e17 e5
38 e1 e4
Nucléotides parfois présents 32 e2 e3
intron
33 37
34 35 36
Promoteurs intragéniques anticodon

7
Algorithme de tRNAscan SG = 0
Signal caractéristique Non
(1)
du bras T
3 bases invariantes  SG = S G +1 Oui

1) Parcours de la séquence génomique (5‘ en 3’) (2) Possibilité de former le b ras T Non

5 appariements  SG = SG +1 Oui
5’ 3’
15 bases
Signal caractéristique Non
(3)
du bras D
+1 3 bases invariantes  SG = S G +1 Oui
2) Idem pour la séquence complémentaire
(4) Possibilité de former le b ras D Non

3 appariements  SG = SG +1 Oui

Possibilité de former le Non


5’ 0 1 72 73 74 75 76 3’ (5)
bras accepteur
2 71
3 70 7 apparie ments  SG = SG +1 Oui
Bras accepteur
4 69
Bras T Non
5 68 SG  4
6 67
Bras D
7 66 65 64 63 62 61 60 59 58 Oui
16 15 8 57
17 14 9
17A 13 12 11 10 56 Possibilité de former le Non
49 50 51 52 53 (6)
18 54 55 bras anticodon
48
19 22 23 24 25 47 46 Non
20 21 26 44 e21 Boucle var Oui Intron
20A 20B 27 43 45 e22
e11 e23
28 42 e12 e24 (7) Base située en 5’ de l’anticodon
e13 e25 Oui
29 41 e14 e25
Bras anticocon e15 e26
30 40 e16 e27 Base T  S G = SG +1 Oui
31 39 e17 e5
e1 e4 Non
32 38
intron e2 e3 SG  5
33 37
34 35 36 Oui

Prédiction d’un gène d’ARNt Fenêtre suivante


Fichant & Burks, 1991

Le programme tRNAscan-SE
Combinaison de 3 méthodes :
- tRNAscan
Excellente sensibilité (> 99%)
- algorithme de Pavesi nombreux faux positifs
recherche de signaux de transcription
seuls les gènes détectés
- Covels (modèles de covariance) par les méthodes
excellente spécificité mais très lent précédentes sont testés

TRNAscan-SE est le programme le plus utilisé pour recherche de gènes d’ARNt

Excellents résultats chez procaryotes et eucaryotes

Fournit position des éventuels introns

Prédiction de certains pseudogènes d’ARNt

8
snoRNA (small nucleolar RNA)
 maturation des ARNr, des snRNA (splicing) et des ARNt
 longueur : 6o à 300 nt
 gènes souvent localisés dans les introns
 présence chez Archaea et Eucaryotes

Box H/ACA snoRNAs


Box C/D snoRNAs
=>methylation conversion of uridines
to p
pseudouridine

d’après Kiss, Cell, 2002

m3Gppp : trimethylguanosine cap structure


snoscan snoGPS
(Lowe et al, Nature 1999) (Schattner et al, Nucleic Acids Res 2004)

micro ARN (miRNA)


pol II

20-24 nt
qq dizaines à plusieurs
centaines de bp

d’après Novina et al, Nature 2004

9
micro ARN (miRNA)

Localisation des cibles des micro ARN :


- complémentarité (forte chez plantes)
- localisation préférentielle dans 3’UTR chez animaux
ex: TargetScan, miRanda…
Zhang et al, Computational biology and chemistry, 2006

10

S-ar putea să vă placă și