Documente Academic
Documente Profesional
Documente Cultură
Hybridation
Expérimentation
Analyse Fouille de données
des données
Analyse d’image
Traitement
des données
Analyse de l’image
Les différents types d’images rencontrés
Echelle de couleur • Puces à ADNc/oligonucleotides - ENS
=
Echelle Quantitative
- 2 canaux
- Superposition
(= Ratio)
- 1 canal
- Intensité
(= quantité d’ARN)
Obtention de l’image
Image finale
Principes généraux de l’analyse d’image
• Convertir l’image en valeurs numériques pour quantifier l’expression
PM
MM
• “perfect match” PM
• “mismatch” MM
• Effets similaires sur plusieurs mesures • Effets qui se produisent de façon trop
• Les corrections peuvent se mesurer à aléatoire et qui du coup ne peuvent se
partir des données mesurer comme du bruit
• Recentrage de la distribution
• Rend symétrique les distribution
• Facilite l’utilisation des statistiques…
• Utilisation de l’intensité globale sur toute la Avantage : mesure efficace sur un grand
membrane, mesurée pour tous les spots nombre de spots
• La mesure de l’intensité globale doit Inconvénient : il est nécessaire que la
s’effectuer sur un nombre suffisant de spots et majorité des gènes analysés n’ait pas une
doit utiliser des valeurs homogènes expression modifiée
Les différentes méthodes de normalisation
Les différentes méthodes de normalisation
• Normalisation basée sur un ajustement global
Avant Après
Comment s’affranchir des effets spatiaux ?
“Outliers”
Median
Lower quartile
“Outliers”
Visualisation de l’effet aiguille par box-plots
Les différentes méthodes de normalisation
• Normalisation en prenant en
Avant normalisation
compte les pointes de spotting
Lame de verre
Lames de verre avec ADNc
4x4 blocs = 16 groupes de pointes
Les différentes méthodes de normalisation
Avantages Inconvénients
----- Régression linéaire -----
• En principe
• Les spots mauvais seront éliminés en faisant plusieurs réplicats
• Standardisation
Box plot des distributions des log2(ratios) pour 3 hybridations identiques (réplicats) :
• Gauche : sans aucune normalisation
• Centre : après une normalisation Loess par bloc (centrage)
• Droite : après une normalisation entre lames (réduction)
Pourquoi faire plusieurs expériences ?
• Comparer différentes conditions expérimentales
• Obtenir une liste fiable de gènes exprimés de façon
significative dans une comparaison deux à deux
= Comparaison de classes (analyse différentielle)
Delta Delta
Le t-test nécessite que la distribution des données testées soit normale. Contestable…
TEST NON-PARAMÉTRIQUE !
Analyse par ré-échantillonage
• On veut déterminer si les moyennes de deux groupes sont différentes
• Les analyses par « bootstrap » ne supposent pas que les données sont normalement
distribuées.
Groupe 1 Groupe 2
t-test classique
(2 échantillons)
Données combinées
t-test classique
(2 échantillons)
Bootstrap Groupe 1 Bootstrap Groupe 2
Le jeu de données mélangées ressemble aux données réelles puisque ce sont les
mêmes valeurs, mais sans aucun sens biologique.
Comment fixer le seuil (pour un gène) ?
• Que peut-on garantir ?
• Quand |Tg| est grand = on rejette l’hypothèse H0
Le gène est
Le gène n'est pas
différentiellement
différentiellement exprimé
exprimé
Le gène est déclaré
différentiellement Bonne décision Erreur de type I (FPos)
exprimé
Le gène est déclaré
Erreur de type II
non différentiellement Bonne décision
(FNeg)
exprimé
=> La mesure du taux de faux positifs, nécessité de prendre en compte le nombre de gènes
testés.
log2(Ratio) log2(Ratio)
Profil
moyen
Numéro de
l’expérience
Numéro de
l’expérience
Les gènes dont les profils d’expression sont similaires sont de bons candidats pour
être régulés par les mêmes facteurs ou intervenir dans le même processus biologique.
Analyse bioinformatique des puces à ADN
Profil 2 Profil 2
Représentation géométrique d’une série
• Exemple Expérience 2
Exp 1 Exp 2
Gène 1 Val(1,1) Val(1,2) Val(2,2)
Gène 2 Val(2,1) Val(2,2) Val(1,2)
Expérience 1
Val(1,1) Val(2,1)
• Généralisation
n gènes, 2 expériences n gènes, 3 expériences
Nuage de
point
Gène
Nuage de point
• Exemple
Espace à 2 dimensions Espace à 1 dimensions
Axe 2
Projection Axe 1
Axe 2
3° 2°
1° 1°
3° 2°
2° 3°
Exemple d’analyse en composante principale
Cinétique d’expression d’une
protéine chimère
Groupe 1 Groupe 2
d1 d2
• Le clustering ne doit pas être utilisé pour l’analyse différentielle ni pour la prédiction
fonctionnelle
• Le clustering est généralement la première étape (descriptive) d’une analyse plus
approfondie.
Le regroupement appliqué à une image
Mélange des pixels de façon aléatoire
Application de la classification hiérarchique
Classification hiérarchique et supervisée
Deux types de classification sont possibles
Série d’expérience
Exp 1 Exp 2 Exp 3
Gène 1 log2(1,1) log2(1,2) log2(1,3)
Gène 2 log2(2,1) log2(2,2) log2(2,3)
Gène 3 log2(3,1) log2(3,2) log2(3,3)
Gène 4 log2(4,1) log2(4,2) log2(4,3)
Exemple : Exemple :
Regroupement de gènes co-régulés Classification des tumeurs
Exemple : la cartographie des tumeurs
Le projet « Carte d’Identité des Tumeurs » (CIT)
Identification de gènes
impliqués dans la 2/ Identification de clusters de
tumorigénèse gènes exprimés différentiellement
dans les tumeurs
3/ Classification des
tumeurs à partir de ces
clusters intéressants =
caractérisation moléculaire
des tumeurs.
log2(Ratio) à conserver
Moyenne + δ
Profil variant
Valeur moyenne
des profils
Zone
Expérience d’invariance
Profil invariant
Moyenne - δ
à supprimer
Centrage et réduction des profils
• Centrer
• Centrer un profil d’expression consiste à soustraire la moyenne du profil à chacune des
valeurs d’expression. La moyenne d’un profil centré est ainsi de 0.
Le centrage élimine
l’influence de la valeur
de référence.
• Réduire
• Réduire un profile d’expression consiste à diviser chaque valeurs d’expression par la
déviation standard du profil. La déviation standard d’un profil réduit est alors de 1
http://www.geneontology.org/
GO : des recherches à l’aide de mots clefs
GO : des recherches à partir de listes de gènes
http://genereg.ornl.gov/webgestalt/
GO : trouver des catégories sur-représentées
http://genereg.ornl.gov/webgestalt/
Calculer des enrichissements
http://genereg.ornl.gov/webgestalt/
Localisation dans les voies biochimiques
• Le même principe peut être appliqué à tous
les informations descriptives connues (voies
métaboliques, localisation sub-cellulaire,
chromosomique).
• Le défaut principal vient que souvent ces
informations sont parcellaires et trop peu
nombreuses pour être exploitable facilement.
http://genereg.ornl.gov/webgestalt/
Effectuer des recoupements dans la littérature
• Représentation du nombre de journaux, de
résumés (Medline) et de résumé sur le cycle
cellulaire et Cdc28 paru entre 1950 et 2005.
• Le nombre croissant de résumé sur des
sujets précis rend maintenant impossible la
lecture de tous les papiers publiés.
• Même si certaine protéines à la mode à un
moment donné voit le nombre de résumé
diminuer comme Cdc28.
Internet
Intranet
Serveur
Images obtenues
avec le scanner
de Fichiers Données Données
normalisées publiées
Images
Données Données
Données brutes normalisées
brutes
Analyse d’images Normalisation Interface Web
Les systèmes de stockage des données
• Il y a trois niveaux différents de gestion des données
• Les dépôts de données publics
Construits sur un schéma le plus flexible
possible pour assurer le stockage de données
hétérogènes comme les données provenant
de différents organismes ou obtenues avec
différents processus d’analyse
http://www.ncbi.nlm.nih.gov/geo/
Être attentif à la qualité des données
- Dessin des oligos
- Collections Mise au point
du dessin expérimental
- Production des lames
- Qualité des ARN
- Marquage
Hybridation
Expérimentation
Analyse Fouille de données
des données
Analyse d’images
Traitement
des données
• La conversion automatique
• La conversion automatique par défaut des
dates introduit des erreurs. Par exemple, le
gène suppresseur de tumeurs DEC1 est
converti en « 1-DEC » (premier décembre).
• La conversion par défaut des nombres
affecte les identifiants de clones de la forme
nnnnnnnEnn, où n indique un chiffre. Par
exemple, le clone RIKEN « 2310009E13 »
est converti en nombre à virgule flottante
« 2.31E+13 ». Une recherche a identifié plus
de 2000 identifiants de ce type sur un total
de 60770 clones RIKEN.
• Ces conversions sont irréversible, le nom
de gène original ne peut plus être retrouvé.