Title: Exploration des donnes SAGE humaines
1Exploration des données SAGE humaines
- AD Dico Challenge 3/11/2003
- Sylvain Blachon(Doctorant EDIIS CGMC/LIRIS)
- Sous la co tutelle de
- J.F. Boulicaut (LIRIS)
- O. Gandrillon (CGMC)
- Thèse financée par la Ligue contre le cancer.
2Question biologique
- Etude des cancers
- Objectif comprendre pourquoi certains groupes
de gènes sont exprimés par certaines tumeurs - Etude de lexpression des gènes par la technique
SAGE
3La technique SAGE
- Méthode pour explorer le transcriptome
- Avantages données quantitatives
gtcomparaison entre expériences possibles (à
linverse des puces)
Ensemble des ARNm
?
?
ADN
?
?
?
?
ARNm
Protéines
2 1 1 1 1
Ensemble des tags Librairie SAGE
Situation biologique
4Données SAGE humaines
- Données issues du Cancer Genome Anatomy Project
aujourdhui 260 librairies disponibles
gratuitement sur Sage Genie (majoritairement Hs) - Données de décembre 2002 180 librairies
humaines. - Données hétérogènes (cellules de tissus ou en
culture, beaucoup de tissus différents, cellules
tumorales ou normales) - Beaucoup dinfos manquantes
5Exploration de ces données
- A la main travail de titan
- Méthode différentielle limitée
- Méthode globale
- gt Matrice dexpression
6Notre objectif
- Extraction de règles biologiquement stimulantes
7Exploration des données techniques inductives
- Grandes quantités de données gt besoin doutils
permettant dextraire des connaissances de ces
données - Schéma classique
8Prétraitement des données (1/3)
- Données SAGE humaines sélection des librairies
de plus de 20 000 tags séquencés (Becquet et al) - 90 librairies
9Prétraitement des données (2/3)
- Sélection des tags
- Non ambigus (1 seul identifiant Unigene)
- Dont la quantité est dau moins 2 dans une
librairie - 2 matrices dexpression humaines
- 74x822 données de Juin 2001, sélection du
transcriptome minimal (Velculescu) - 90x27679 données décembre 2002
10Prétraitement des données (3/3)
- Les biologistes décident de coder des propriétés
dexpression gt matrices booléennes - Nous nous intéressons aux gènes surexprimés gt
discrétisation de la matrice dexpression - on considère la valeur d expression de chaque
gène dans toutes les situations biologiques - on affecte 1 chaque fois que le gène est
surexprimé - A ce jour, 3 techniques pour coder la
surexpression d un gène - La discrétisation est une étape OUVERTE.
11Exploration des données techniques inductives
- Schéma classique
- 2 types de motifs extraits
- Règles dassociation logiques
- Concepts
12Extraction de règles dassociation (1/6)
- Règles dassociation X gt Y
- Si Gene A et Gene B surexprimés gt Gene C et Gene
D surexprimés aussi - Support(ABgtCD) Supp(ABCD)
- Confiance (ABgtCD) Supp(ABCD)/Supp(AB)
- Règles logiques confiance 1
- Cas concret
- Si support minimal 50
- 7 ensembles fréquents
- A, B, D, AB, AD, BD, ADB
- 3 règles logiques et fréquentes
- BgtA
- DgtA
- BDgtA
13Extraction de règles dassociation (2/6)
- Extraction sur la matrice 74x822 (Becquet et al,
2002) - Utilisation de lalgorithme Min-Ex
- basé sur lextraction des ensembles libres
- à partir libres, on extrait des règles dont le
membre gauche est minimal
14Extraction de règles dassociation (3/6)
- Deux grands traits sont présents
- gènes ribosomaux
- gènes mitochondriaux
- A lintérieur dun jeu de règles homogène
- Ré-identification dun gène mal identifié
- Proposition de la fonction dune EST
- Possibilité dassocier des cellules
15Extraction de règles dassociation (4/6)
- Extraction de règles biologiquement stimulantes
16Extraction de règles dassociation (5/6)
- Extraction sur la matrice 90x27679 lalgorithme
atteint ses limites
17Extraction de règles dassociation (6/6)
- Solution envisagée (GREYC)
- Transposition de la matrice
- Extraction sur les situations biologiques
- Passage par la connexion de Galois pour extraire
des concepts - Le contexte permet lextraction des concepts à
laide de nos extracteurs (Ac-miner Mv-miner)
18La notion de concept (1/4)
- Un concept est un groupe reliant deux ensembles
- un ensemble de gènes
- un ensemble de librairies
- Exemple 4 gènes surexprimés dans 4 librairies.
19La notion de concept (2/4)
- Connexion de Galois
- Formalisme mathématique qui rend compte des
relations décrites par la matrice binaire - Soit L ensemble des librairies , T ensemble
des tags - 2 fonctions
- f L ? T
- g T ? L
20La notion de concept (3/4)
- Ensemble fermé
- Soit l un ensemble de librairies et t un ensemble
de tags. - l est fermé ssi gof(l) g(f(l)) l.
- t est fermé ssi fog(t) f(g(t)) t.
- Concept paire (l,t) tel que
- f(l)t et g(t) l
- Où l et t sont des fermés t.q. gof (l) l.
21La notion de concept (4/4)
- Concrètement
- f et g
- f(L1) B,C,E
- f(L1,L3,L4) B,C
- g(A) L4
- g(B,C) L1,L3,L4
- Fermés
- g(f(L1)) g(B,C,E) L1
- g(f(L1,L3) g(B,C) L1,L3,L4
Concepts de cette matrice (L1, B,C,E)
(L3, B,C,D) (L4, A,B,C)
(L2,L3, D) (L1,L3,L4, B,C)
22Extraction de concepts (1/2)
- A partir des ensembles libres on peut calculer
lensemble des fermés. - Notre stratégie
- pour calculer lensemble des concepts, on calcule
tous les libres sur la matrice transposée - on calcule alors leur fermeture
- on en déduit les concepts
23Extraction de concepts (2/2)
Conclusion On règle un verrou technologique
et on obtient une nouvelle information
biologiquement intéressante le lien entre des
groupes de gènes et des situations biologiques
qui les surexpriment (Rioult et al, KDID03)
24Exploration des données techniques inductives
- Schéma classique
- 2 post traitements
- Sélection des concepts dintérêt
- Outil de visualisation
25PostTraitement (1/3)
- Nécessité dinterroger une collection de concepts
- 1er outil sélection de concepts dintérêt
- 4 critères
- Homogénéité des librairies (ex carcinoma)
- Présence dun ensemble de gènes dintérêt
- Nombre de librairies dans le concept
- Nombre de tags dans le concept
- Possibilité de les combiner (conjonction)
26PostTraitement (2/3)
- Loutil de sélection permet de diminuer
drastiquement le nombre de concepts à analyser
27PostTraitement (3/3)
- 2ème outil outil de visualisation des concepts
(Ruggero Pensa et Céline Robardet) - Classification hiérarchique des concepts
- Piste extrêmement prometteuse car classification
dinteractions entre les objets que lon étudie
28Interprétation biologique (1/3)
- Faire du sens Gene Ontology (GO)
- vocabulaire décrivant les gènes
- termes GO classés dans 3 catégories
- Processus biologique
- Localisation subcellulaire
- Fonction moléculaire
- Ontologie structurée graphe diacyclique
29Interprétation biologique (2/3)
- outil web Fatigo
- En entrée une liste de gènes
- En sortie la proportion de gènes pour chaque
terme de GO de notre liste qui le partage - gt vision globale des processus biologiques à
partir dun ensemble de gènes dintérêt
30Interprétation biologique (3/3)
31Perspectives (1/2)
- Prétraitement
- Evaluation de la discrétisation sur les motifs
extraits - Utilisation de nouvelles discrétisations sur
données SAGE - Utilisation dIdentitag pour identifier les tags
- Utilisation des concepts
- Développer des méthodes de post-traitement
- Affiner celles existantes (disjonction, )
32Perspectives (2/2)
- Et les règles ?
- A partir de concepts dintérêt, extraire les
règles sur une matrice réduite - Extraction de règles d-fortes
- Utilisation des mesures dintérêt
- Coupler notre méthode dextraction avec dautres
méthodes (clustering, analyse statistiques, etc.) - Test dun scénario complet dextraction de
concepts intéressants - Utiliser ces outils sur des données SAGE de poulet
33Remerciements
- CGMC
- BECQUET Céline
- BRESSON Corinne
- DERRINGTON Edmund
- DAMIOLA Francesca
- DAZY Sébastien
- FAURE Claudine
- GANDRILLON Olivier
- GIRAUD Sandrine
- KEIME Céline
- ROBARDET Céline
- LIRIS
- BESSON Jérémy
- BOULICAUT Jean-François
- JEUDY Baptiste
- PENSA Ruggero
- Prisma
- ROBARDET Céline
- GREYC
- CREMILLIEUX Bruno
- RIOULT François
34- Merci de votre attention ?
35Prétraitement des données (4/4)
2
2
max moins x
Max
25
Max
Max
25
Max
Max
25
Max
Librairie 1
1
1
0
0
10
20
30
40
50
60
70
10
20
30
40
50
60
70
Niveau dexpression du gène
2
Milieu
Données Continues
Librairie 1
1
0
10
20
30
40
50
60
70
10
20
30
40
50
60
70
Niveau dexpression du gène
2
2
2
x des valeurs les plus hautes
5 les plus exprim
é
s
5 les plus exprim
é
s
5 les plus exprim
é
s
Librairie 1
1
1
1
0
0
0
10
20
30
40
50
60
70
10
20
30
40
50
60
70
10
20
30
40
50
60
70
10
20
30
40
50
60
70
Niveau dexpression du gène
36Gènes particuliers (1/2)
37Gènes particuliers (2/2)