Exploration des donnes SAGE humaines - PowerPoint PPT Presentation

1 / 37
About This Presentation
Title:

Exploration des donnes SAGE humaines

Description:

Objectif : comprendre pourquoi certains groupes de g nes sont exprim s par ... Donn es binaires. 0 1. 0 1. 0 1. G nes particuliers... ( 1/2) G nes Growth factor. G nes ... – PowerPoint PPT presentation

Number of Views:60
Avg rating:3.0/5.0
Slides: 38
Provided by: use4201
Category:

less

Transcript and Presenter's Notes

Title: Exploration des donnes SAGE humaines


1
Exploration des données SAGE humaines
  • AD Dico Challenge 3/11/2003
  • Sylvain Blachon(Doctorant EDIIS CGMC/LIRIS)
  • Sous la co tutelle de
  • J.F. Boulicaut (LIRIS)
  • O. Gandrillon (CGMC)
  • Thèse financée par la Ligue contre le cancer.

2
Question biologique
  • Etude des cancers
  • Objectif comprendre pourquoi certains groupes
    de gènes sont exprimés par certaines tumeurs
  • Etude de lexpression des gènes par la technique
    SAGE

3
La technique SAGE
  • Méthode pour explorer le transcriptome
  • Avantages données quantitatives
    gtcomparaison entre expériences possibles (à
    linverse des puces)

Ensemble des ARNm
?
?
ADN
?
?
?
?
ARNm
Protéines
2 1 1 1 1
Ensemble des tags Librairie SAGE
Situation biologique
4
Données SAGE humaines
  • Données issues du Cancer Genome Anatomy Project
    aujourdhui 260 librairies disponibles
    gratuitement sur Sage Genie (majoritairement Hs)
  • Données de décembre 2002 180 librairies
    humaines.
  • Données hétérogènes (cellules de tissus ou en
    culture, beaucoup de tissus différents, cellules
    tumorales ou normales)
  • Beaucoup dinfos manquantes

5
Exploration de ces données
  • A la main travail de titan
  • Méthode différentielle limitée
  • Méthode globale
  • gt Matrice dexpression

6
Notre objectif
  • Extraction de règles biologiquement stimulantes

7
Exploration des données techniques inductives
  • Grandes quantités de données gt besoin doutils
    permettant dextraire des connaissances de ces
    données
  • Schéma classique

8
Prétraitement des données (1/3)
  • Données SAGE humaines sélection des librairies
    de plus de 20 000 tags séquencés (Becquet et al)
  • 90 librairies

9
Prétraitement des données (2/3)
  • Sélection des tags
  • Non ambigus (1 seul identifiant Unigene)
  • Dont la quantité est dau moins 2 dans une
    librairie
  • 2 matrices dexpression humaines
  • 74x822 données de Juin 2001, sélection du
    transcriptome minimal (Velculescu)
  • 90x27679 données décembre 2002

10
Prétraitement des données (3/3)
  • Les biologistes décident de coder des propriétés
    dexpression gt matrices booléennes
  • Nous nous intéressons aux gènes surexprimés gt
    discrétisation de la matrice dexpression
  • on considère la valeur d expression de chaque
    gène dans toutes les situations biologiques
  • on affecte 1 chaque fois que le gène est
    surexprimé
  • A ce jour, 3 techniques pour coder la
    surexpression d un gène
  • La discrétisation est une étape OUVERTE.

11
Exploration des données techniques inductives
  • Schéma classique
  • 2 types de motifs extraits
  • Règles dassociation logiques
  • Concepts

12
Extraction de règles dassociation (1/6)
  • Règles dassociation X gt Y
  • Si Gene A et Gene B surexprimés gt Gene C et Gene
    D surexprimés aussi
  • Support(ABgtCD) Supp(ABCD)
  • Confiance (ABgtCD) Supp(ABCD)/Supp(AB)
  • Règles logiques confiance 1
  • Cas concret
  • Si support minimal 50
  • 7 ensembles fréquents
  • A, B, D, AB, AD, BD, ADB
  • 3 règles logiques et fréquentes
  • BgtA
  • DgtA
  • BDgtA

13
Extraction de règles dassociation (2/6)
  • Extraction sur la matrice 74x822 (Becquet et al,
    2002)
  • Utilisation de lalgorithme Min-Ex
  • basé sur lextraction des ensembles libres
  • à partir libres, on extrait des règles dont le
    membre gauche est minimal

14
Extraction de règles dassociation (3/6)
  • Deux grands traits sont présents
  • gènes ribosomaux
  • gènes mitochondriaux
  • A lintérieur dun jeu de règles homogène
  • Ré-identification dun gène mal identifié
  • Proposition de la fonction dune EST
  • Possibilité dassocier des cellules

15
Extraction de règles dassociation (4/6)
  • Extraction de règles biologiquement stimulantes

16
Extraction de règles dassociation (5/6)
  • Extraction sur la matrice 90x27679 lalgorithme
    atteint ses limites

17
Extraction de règles dassociation (6/6)
  • Solution envisagée (GREYC)
  • Transposition de la matrice
  • Extraction sur les situations biologiques
  • Passage par la connexion de Galois pour extraire
    des concepts
  • Le contexte permet lextraction des concepts à
    laide de nos extracteurs (Ac-miner Mv-miner)

18
La notion de concept (1/4)
  • Un concept est un groupe reliant deux ensembles
  • un ensemble de gènes
  • un ensemble de librairies
  • Exemple 4 gènes surexprimés dans 4 librairies.

19
La notion de concept (2/4)
  • Connexion de Galois
  • Formalisme mathématique qui rend compte des
    relations décrites par la matrice binaire
  • Soit L ensemble des librairies , T ensemble
    des tags
  • 2 fonctions
  • f L ? T
  • g T ? L

20
La notion de concept (3/4)
  • Ensemble fermé
  • Soit l un ensemble de librairies et t un ensemble
    de tags.
  • l est fermé ssi gof(l) g(f(l)) l.
  • t est fermé ssi fog(t) f(g(t)) t.
  • Concept paire (l,t) tel que
  • f(l)t et g(t) l
  • Où l et t sont des fermés t.q. gof (l) l.

21
La notion de concept (4/4)
  • Concrètement
  • f et g
  • f(L1) B,C,E
  • f(L1,L3,L4) B,C
  • g(A) L4
  • g(B,C) L1,L3,L4
  • Fermés
  • g(f(L1)) g(B,C,E) L1
  • g(f(L1,L3) g(B,C) L1,L3,L4

Concepts de cette matrice (L1, B,C,E)
(L3, B,C,D) (L4, A,B,C)
(L2,L3, D) (L1,L3,L4, B,C)
22
Extraction de concepts (1/2)
  • A partir des ensembles libres on peut calculer
    lensemble des fermés.
  • Notre stratégie
  • pour calculer lensemble des concepts, on calcule
    tous les libres sur la matrice transposée
  • on calcule alors leur fermeture
  • on en déduit les concepts

23
Extraction de concepts (2/2)
Conclusion On règle un verrou technologique
et on obtient une nouvelle information
biologiquement intéressante le lien entre des
groupes de gènes et des situations biologiques
qui les surexpriment (Rioult et al, KDID03)
24
Exploration des données techniques inductives
  • Schéma classique
  • 2 post traitements
  • Sélection des concepts dintérêt
  • Outil de visualisation

25
PostTraitement (1/3)
  • Nécessité dinterroger une collection de concepts
  • 1er outil sélection de concepts dintérêt
  • 4 critères
  • Homogénéité des librairies (ex carcinoma)
  • Présence dun ensemble de gènes dintérêt
  • Nombre de librairies dans le concept
  • Nombre de tags dans le concept
  • Possibilité de les combiner (conjonction)

26
PostTraitement (2/3)
  • Loutil de sélection permet de diminuer
    drastiquement le nombre de concepts à analyser

27
PostTraitement (3/3)
  • 2ème outil outil de visualisation des concepts
    (Ruggero Pensa et Céline Robardet)
  • Classification hiérarchique des concepts
  • Piste extrêmement prometteuse car classification
    dinteractions entre les objets que lon étudie

28
Interprétation biologique (1/3)
  • Faire du sens Gene Ontology (GO)
  • vocabulaire décrivant les gènes
  • termes GO classés dans 3 catégories
  • Processus biologique
  • Localisation subcellulaire
  • Fonction moléculaire
  • Ontologie structurée graphe diacyclique

29
Interprétation biologique (2/3)
  • outil web Fatigo
  • En entrée une liste de gènes
  • En sortie la proportion de gènes pour chaque
    terme de GO de notre liste qui le partage
  • gt vision globale des processus biologiques à
    partir dun ensemble de gènes dintérêt

30
Interprétation biologique (3/3)
31
Perspectives (1/2)
  • Prétraitement
  • Evaluation de la discrétisation sur les motifs
    extraits
  • Utilisation de nouvelles discrétisations sur
    données SAGE
  • Utilisation dIdentitag pour identifier les tags
  • Utilisation des concepts
  • Développer des méthodes de post-traitement
  • Affiner celles existantes (disjonction, )

32
Perspectives (2/2)
  • Et les règles ?
  • A partir de concepts dintérêt, extraire les
    règles sur une matrice réduite
  • Extraction de règles d-fortes
  • Utilisation des mesures dintérêt
  • Coupler notre méthode dextraction avec dautres
    méthodes (clustering, analyse statistiques, etc.)
  • Test dun scénario complet dextraction de
    concepts intéressants
  • Utiliser ces outils sur des données SAGE de poulet

33
Remerciements
  • CGMC
  • BECQUET Céline
  • BRESSON Corinne
  • DERRINGTON Edmund
  • DAMIOLA Francesca
  • DAZY Sébastien
  • FAURE Claudine
  • GANDRILLON Olivier
  • GIRAUD Sandrine
  • KEIME Céline
  • ROBARDET Céline
  • LIRIS
  • BESSON Jérémy
  • BOULICAUT Jean-François
  • JEUDY Baptiste
  • PENSA Ruggero
  • Prisma
  • ROBARDET Céline
  • GREYC
  • CREMILLIEUX Bruno
  • RIOULT François

34
  • Merci de votre attention ?

35
Prétraitement des données (4/4)
2
2
max moins x
Max

25
Max
Max

25
Max
Max

25
Max
Librairie 1
1
1
0
0
10
20
30
40
50
60
70
10
20
30
40
50
60
70
Niveau dexpression du gène
2
Milieu
Données Continues
Librairie 1
1
0
10
20
30
40
50
60
70
10
20
30
40
50
60
70
Niveau dexpression du gène
2
2
2
x des valeurs les plus hautes
5 les plus exprim
é
s
5 les plus exprim
é
s
5 les plus exprim
é
s
Librairie 1
1
1
1
0
0
0
10
20
30
40
50
60
70
10
20
30
40
50
60
70
10
20
30
40
50
60
70
10
20
30
40
50
60
70
Niveau dexpression du gène
36
Gènes particuliers (1/2)
  • Gènes Growth factor

37
Gènes particuliers (2/2)
  • Gènes liés au cerveau
Write a Comment
User Comments (0)
About PowerShow.com