La fouille de cohortes en biologie - PowerPoint PPT Presentation

1 / 26
About This Presentation
Title:

La fouille de cohortes en biologie

Description:

tude de Cohorte suivi d'une population donn e pendant une p riode de temps et ... Sujets exempts de maladies aigu s et/ ou chroniques l'inclusion ... – PowerPoint PPT presentation

Number of Views:94
Avg rating:3.0/5.0
Slides: 27
Provided by: mau66
Category:

less

Transcript and Presenter's Notes

Title: La fouille de cohortes en biologie


1
La fouille de cohortes en biologie
  • Sandy Maumus
  • Équipe 4 INSERM U525
  • Équipe Orpailleur LORIA

2
Introduction
  • Étude de Cohorte ? suivi dune population donnée
    pendant une période de temps et collection de
    différentes données concernant cette population
  • Données ? valeurs complexes
  • Problématique de notre travail fouille de
    cohortes
  • extraire des unités de connaissance
    réutilisables à partir de données issues détudes
    de cohortes
  • ? fouille de données symbolique
  • Extraction de motifs fréquents et de règles
    dassociation

3
Les données expérimentales La cohorte
STANISLAS(1)
  • Cohorte familiale recrutée au Centre de Médecine
    Préventive de Vandoeuvre-lès-Nancy
  • Individus suivis tous les 5 ans sur une période
    de 10 ans (trois visites)
  • Première visite (1993-1995)
  • 1006 familles (4295 sujets) supposées saines,
    origine française
  • Chaque famille 2 parents (? 2 enfants ?? 6
    ans)
  • Sujets exempts de maladies aiguës et/ ou
    chroniques à linclusion

4
La cohorte STANISLAS(2)
  • Données cliniques et environnementales
  • Histoire personnelle du patient, antécédents
    médicaux, prise de médicaments, de tabac et
    dalcool ? questionnaire standardisé
  • Indice de masse corporelle (BMI), prise de
    tension,
  • Dosages biologiques
  • Concentrations en glucose, cholestérol total,
    LDL-C, HDL-C, triglycérides,
  • Données génétiques
  • Polymorphismes génétiques déterminés grâce à la
    technologie PCR Multiplex développée en
    collaboration avec Roche Molecular Systems.

5
La méthodologie globale de fouille proposée (1)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

Un processus en 5 étapes
6
La méthodologie globale de fouille proposée (2)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

7
La méthodologie globale de fouille proposée (3)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

8
La méthodologie globale de fouille proposée (4)
2- Préparation et nettoyage des données
  • Nettoyage des données détection possibilité
    de suppression de valeurs incomplètes et/ou
    extrêmes.
  • Conversion des données
  • Addition/création de nouveaux attributs,
  • Suppression des attributs non pertinents dans le
    cadre détude choisi,
  • Discrétisation transformation des données
    continues en données booléennes

9
La méthodologie globale de fouille proposée (5)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

10
La méthodologie globale de fouille proposée (6)
3- Étape itérative 3.1- Filtrage des données
  • Application de projections
  • Sur les lignes sélection des individus
    possédant un ou plusieurs attributs spécifiés par
    lexpert,
  • Sur les colonnes sélection (ou suppression)
    de certains attributs.
  • Considération du complémentaire dun ensemble
    dindividus satisfaisant une règle

11
La méthodologie globale de fouille proposée (7)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

12
La méthodologie globale de fouille proposée (8)
3- Étape itérative 3.2- Application des
procédures de fouille de données
  • Recherche de motifs fréquents et extraction de
    règles dassociation
  • La plate-forme CORON
  • Mise au point des paramètres de contrôle de la
    fouille (support des motifs, support et confiance
    des règles).
  • Retour éventuel sur les projections et sur le
    choix des seuils.

13
La méthodologie globale de fouille proposée (9)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

14
La méthodologie globale de fouille proposée (10)
3- Étape itérative 3.3- Post-traitement 3.3.1-
Fouille de règles
  • Fouille filtrage des règles
  • Repérage des règles présentant les attributs les
    plus intéressants pour lexpert
  • ? Choix des règles possédant une forme
    particulière, choix des règles possédant un
    attribut intéressant pour lexpert dans
    lantécédent ou dans le conséquent

15
La méthodologie globale de fouille proposée (11)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

16
La méthodologie globale de fouille proposée (12)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

17
La méthodologie globale de fouille proposée (13)
  • 1- Définition du cadre détude
  • 2- Préparation et nettoyage des données
  • 3- Étape itérative
  • 3.1-Filtrage des données
  • 3.2- Application des procédures de fouille de
    données
  • 3.3- Post-traitement
  • 3.3.1- Fouille de règles
  • 3.3.2- Visualisation des résultats
  • 4- Validation des résultats
  • 5- Génération de nouvelles hypothèses de recherche

18
La méthodologie globale de fouille proposée (14)
  • Tout le processus de fouille décrit dans cette
    méthodologie est guidé par lexpert
  • Sélection des données
  • Mise au point des paramètres de contrôle de la
    fouille (support des motifs, support et confiance
    des règles).
  • Retour éventuel sur les projections et sur le
    choix des seuils.
  • Filtrage des règles extraites
  • Interprétation des résultats

Modèles extraits
Unités de connaissance
19
Application de la méthodologieaux données de la
cohorte STANISLAS
Le cadre détude le syndrome métabolique (SM)
  • Ensemble de facteurs de risque cardiovasculaire
    qui prédispose au diabète de type 2 et aux
    maladies cardiovasculaires
  • Définition du NCEP-ATPIII
  • Prévalence 20-25 aux Etats-Unis
  • Prévalence croissante en France
  • ? Un enjeu majeur de Santé Publique

20
Application de la méthodologieaux données de la
cohorte STANISLAS
La préparation des données (1)
Objectif principal de létude extraction de
motifs associant des facteurs biologiques du
risque cardiovasculaire avec des polymorphismes
génétiques.
  • Préparation des données biologiques
  • discrétisation des variables selon seuil du
    NCEP-ATPIII ou grâce aux seuils obtenus par le
    calcul des quartiles)
  • Ajout de variables la variable SM définie par
    les critères du NCEP, la variable non SM dont
    la valeur est égale à 1 si lindividu ne présente
    pas le syndrome métabolique, les variables
    glucose normal, HDL normal, pression
    sanguine normale, triglycérides normaux, tour
    de taille normal".

21
Application de la méthodologieaux données de la
cohorte STANISLAS
La préparation des données (2)
  • Préparation des données génétiques
  • Données génétiques de la cohorte STANISLAS sont
    recueillies sous un format booléen dans une base
    de données Microsoft Access.
  • Un polymorphisme génétique A/a
  • A allèle fréquent a allèle rare
  • Deux modes de conversion testés
  • (1) présentation des polymorphismes par génotypes
    AA, Aa et aa
  • (2) présentation des polymorphismes par allèles
    AA et a, où a représente le regroupement des
    génotypes Aa et aa.

22
Le détail dune expérimentation (1)
? Au départ, base de donnée de 308 individus ?
235 attributs (sexe, les 5 paramètres
biologiques de la définition NCEP ATP-III du SM
et 101 polymorphismes génétiques)
  • Polymorphismes codés par leurs génotypes (AA, Aa
    et aa )
  • caractérisation du profil génétique associé au SM
    dans la cohorte STANISLAS.
  • Projection horizontale sur lattribut SM qui
    retient 9 individus. Lensemble des 9 individus
    vérifie la règle informative exacte suivante 

? SM et APOAI_121GG et APOAIV_347ThrThr et
APOAIV_360GluGlu et ADRB3_64TrpTrp et NOS3-948AA
et ANP_7ValVal et ENaCa_493TrpTrp et FII_20210GG
et IL4R_478SerSer et ADRB2_164ThrThr et
CCR3_39ProPro et APOB_71ThrIle et LPL_291AsnAsn
et FV_506ArgArg et SELE_554LeuLeu (sup9 ou
100  conf1). (9 individus testés)
  • Une interprétation possible

23
Le détail dune expérimentation (2)
  • Projection verticale sur APOB 71Thr/Ile et sur
    hyperglycémie, hypertriglycéridémie, hypoHDLémie,
    hypertension, obésité, SM et homme et femme.
  • Un seuil minimal de support bas est fixé (les
    individus présentant le SM sont nécessairement
    peu nombreux).
  • Lanalyste cherche les règles contenant  SM 
    en partie gauche ou en partie droite. 28 règles
    sont retenues, dont la règle intéressante
    suivante 

SM?APOB_71ThrIle (sup9  conf1). (308 individus
testés)
  • Cette règle sinterprète par  présenter le SM
    implique davoir le génotype APOB Thr71Ile.
    Soulignons que cette interprétation est faite sur
    la base de 9 sujets et que la règle engendrée a
    une confiance de 100.

24
Le détail dune expérimentation (3)
  • Interaction avec le statisticien
  • test sur un autre échantillon de la cohorte
    STANISLAS de 740 individus
  • répartition des génotypes du polymorphisme de
    lAPOB 71Thr/Ile contenant lallèle Ile en
    fonction de présenter le SM
  • ?Conclusion la répartition des génotypes
    contenant lallèle Ile est significativement
    différente selon que lindividu présente le SM ou
    non (test ?2, p0,03).
  • Une personne possédant lallèle rare pour le
    polymorphisme APOB71Thr/Ile serait plus
    fréquemment atteinte par le SM.
  • Résultat original en biologie ?nouvelle étude
    dépidémiologie génétique ? résultats
    intéressants soumis pour publication.

25
Conclusions
  • CORON permet de mettre en uvre la méthodologie
    pour la fouille de cohortes
  • ? énoncer de nouvelles hypothèses de recherche
  • ? obtention résultats originaux en biologie
  • Rôle central de lanalyste dans le processus de
    fouille

26
Cycle de vie de la méthodologie de fouille de
données symbolique
Write a Comment
User Comments (0)
About PowerShow.com