Title: Analyse des donnes des puces ADN
1Analyse des données des puces ADN
- On a deux images de la puce à partir des quelles
il faut réussir à évaluer lexpression dun gène.
On procède par rapport à un échantillon de
référence. Pour cela, on utilise deux marqueurs
Cy3 et Cy5 sur deux échantillon distincts (dont
un est constitué de cellules normales et servira
de référence). On mesure la quantité de signal
dans la longueur d'onde démission du
fluorochrome vert et la quantité de signal dans
la longueur d'onde démission du fluorochrome
rouge. Puis on normalise ces quantités en
fonction de divers paramètres (quantité de
matériel biologique de départ dans chaque
condition, puissance démission de chaque
fluorochrome, ...). - On suppose alors que la quantité d'ADN
fluorescent fixée est proportionnelle à la
quantité d'ARNm correspondant dans la cellule de
départ et on calcule le ratio fluorescence rouge
/ fluorescence verte. Si ce ratio est supérieur à
1 (rouge sur l'image en fausses couleurs), le
gène est plus exprimé dans la seconde culture, si
ce ratio est inférieur à 1 (vert sur l'image en
fausses couleurs), le gène est moins exprimé dans
la seconde culture.
2Acquisition des données
- Scanner la puce
- Évaluer quantitativement chaque spot
- Soustraire le signal de bruit
- Normaliser
- Transformer en tables dintensités de
fluorescence (organisme ? gènes)
3Défauts courants
4Variabilité des données de transcriptome
- Les données de puces à ADN sont très variables
(mesures de niveaux de mARN) - Toute mesure de milliers de valeurs trouvera des
différences importantes dues aux fluctuations
aléatoires (distribution normale) - Il faut utiliser des méthodes statistiques et de
réplication pour vérifier que les différences
sont réelles - Il faut utiliser des réplications réelles
(patients différents, expériences différentes) - Sources potentielles de problèmes
- Analyse dimage
- identifier et quantifier les spots
- Scannerisation
- Laser et détecteurs
- Chimie des marqueurs fluorescents
- Hybridisation
- Température, durée, mélange,
- Étiquetage des sondes
- Extraction dARN
- Variabilité de nature biologique
5Comparer la moyenne de deux groupes
signal
difference between group means
noise
variability of groups
_
_
XT - XC
_
_
SE(XT - XC)
low variability
6Etude des radiations
- Danger indiscutable dans certains cas. En
particulier pour les fortes doses dirradiation. - Quel impact des faibles doses ?
-
- Biologiquement aucun détecté
- Y a-t-il dautres effets ?
7Protocole expérimental
- S. Cerevisiae en croissance exponentielle
(séquencée complètement et eucaryote avec peu de
gènes). - Six cultures (Irradiées I) exposées pendant 20
heures entre 15 et 30 mGy/h - Douze cultures non exposées (Non Irradiées NI)
- Mesure effectuées sur puce Corning où
lhybridation a été faite avec double marquage
fluorescent (Cy3 pour les cADN contrôles et Cy5
pour les cADN étudiés).
8Normalisation des données
- La normalisation a été réalisée par LOWESS (
LOcally WEighted Scatterplot Smoothing ), Julie
PEYRE Anestis ANTONIADIS (IMAG)
Où R et G sont les niveaux dintensité de Rouge
et de Vert.
9Analyse du transcriptome sur la levure
- Lirradiation à de faibles doses est-elle
détectable ? - Nombre de gènes impliqués dans la réponse à une
irradiation à faible dose ? - Groupes de gènes impliqués dans la réponse à
lirradiation et de quelle manière ? - Est-il possible de deviner le traitement subi par
une levure en regardant lexpression de son
génome ? - Peut-on généraliser cette approche à dautres
types de traitements (pollutions, cancer, ...)
10Les sources de problèmes
- Présence de bruit dans les données à deux
niveaux - Imprécision de la mesure bruit classique
- supposé gaussien, bruit qui est très élevé
pour certains gènes (cf doubles mesures) - Présence de valeurs aberrantes dues
- à un problème lors de l'hybridation
- Données déjà normalisées
- Nombreux attributs 6157 gènes
- Très faible nombre dinstances 12 cultures
non-traitées, 6 irradiées - Classes déséquilibrées (elles ne contiennent pas
le même nombre d'éléments) - Absence d'indépendance conditionnelle
probabiliste entre les gènes
11Démarche
- Méthode directe de discrimination illusoire
mais essayée - On conserve les gène dont le log ratio a dépassé
3 fois la valeur 1 (par exemple) - Trop de solutions
- Aucune garantie sur chacune delles
- Prétraitement
- Sélection dattributs
- Approche directe
- Approche wrapper
- Approche par filtrage
- Réduction de dimensionnalité
- Groupement de gènes a priori (réseaux de
régularisation)
12Sélection (estimation) dattributs
- Hypothèse de linéarité
- Chaque attribut pertinent a une corrélation
directe (mesurable) avec la classe - Quelle garantie sur chaque attribut sélectionné ?
- Sélection
- Chaque attribut passe un test
- Estimation
- On ordonne les attributs en fonction dun critère
de performance - Quel seuil (choisi globalement) ?
- Quelle confiance ?
13Sélection
- Techniques classiques (FOCUS, RELIEF, Wrappers,
Embeded techniques) - Trop peu de garantie sur chaque corrélation
détectée (attribut) - Comparaison à hypothèse nulle globale
- Interprétation / confirmation par les
biologistes
14Utilisation dANOVA
- Deux classes (Irradiée / Non Irradiée)
- N(m1,s) et N (m2,s)
- Comparaison
- Variance intra-classe
- Variance inter-classes
- Hypothèse nulle H0 m1 m2
- Rejet si
significativement trop grand par rapport aux
quantiles de la foi F (k-1,n-k)
15Utilisation dANOVA (suite)
- On peut aussi calculer la p-value pour chaque
gène et ordonner les gènes - probabilité que le test rejette lhypothèse H0 à
tort
16SAM (Significance Analysis of Microarrays)
Constante gt 0
- Gènes potentiellement significatifs gènes dont
le score d(g) est supérieur au score moyen du
gène obtenu après permutations des classes, de
plus dun certain seuil D -
- Calcul du nombre de gènes faussement
significatifs nombre moyen de gènes faussement
significatifs pour chaque permutation - Taux de fausse découverte (FDR)
17RELIEF
- Une lame L est vue comme un point dans un espace
à p 6157 dimensions - On cherche ses k plus proches voisins dans la
même classe et on les note Hi (nearest Hit) - On calcule ses k plus proches voisins dans
lautre classe et on les note Mi (nearest Miss). - où est la projection selon gène du point x,
et m est le nombre total de lames. -
- Le poids calculé pour chaque gène gène est ainsi
une approximation de la différence de deux
probabilités comme suit - Poids(gène) P (gène a une valeur différente /
k plus proches voisins dans une classe
différente) - P
(gène a une valeur différente / k plus proches
voisins dans la même classe) -
- Algorithme polynomial Q(pm2)
- Rôle de k prise en compte du bruit
- Pas de supposition dindépendance des gènes
18RELIEF
19Sélection des attributs
- Y a-t-il vraiment de linformation dans les
données ? - Quels gènes retenir ?
- Avec quelle confiance ?
20Comparaison à lHypothèse nulle
Nombre de gènes dont le poids dépasse la valeur
repérée en abscisse rouge Avec les classes
réelles bleu Courbe moyenne obtenue avec
des classes aléatoires
21Précision ou rappel
- Il faut choisir entre
- Une liste contenant presque tous les gènes
impliqués mais comportant des faux-positifs - Une liste de gènes impliqués de manière
quasi-certaine dans la réponse à lirradiation
(quitte à ne pas avoir tous les gènes impliqués)
22Répartition des meilleurs gènes
23Tâche de classification
- Plusieurs techniques ont été utilisées
- Vote dexperts
- Technique du maximum de vraisemblance
- K plus proches voisins
- Essai de classification en aveugle sur six
nouvelles lames
24Interprétation biologique
25Résultats
- Les données reflètent-elles la présence de
lirradiation ? oui - Combien de gènes sont-ils impliqués ? Plus de
100 - Y a-t-il des groupes de gènes impliqués et
lesquels ? - Oui ATP synthesis, oxidative phosphorylation
et oxidative stress response - Est-il possible de déterminer si une levure est
irradiée en regardant son transcriptome ? - Oui et il suffit de ne regarder quun petit
nombre de gènes
26Le gène 1575