Title: La fouille de cohortes en biologie
1La fouille de cohortes en biologie
- Sandy Maumus
- Équipe 4 INSERM U525
- Équipe Orpailleur LORIA
2Introduction
- Étude de Cohorte ? suivi dune population donnée
pendant une période de temps et collection de
différentes données concernant cette population - Données ? valeurs complexes
- Problématique de notre travail fouille de
cohortes - extraire des unités de connaissance
réutilisables à partir de données issues détudes
de cohortes
- ? fouille de données symbolique
- Extraction de motifs fréquents et de règles
dassociation
3Les données expérimentales La cohorte
STANISLAS(1)
- Cohorte familiale recrutée au Centre de Médecine
Préventive de Vandoeuvre-lès-Nancy - Individus suivis tous les 5 ans sur une période
de 10 ans (trois visites) - Première visite (1993-1995)
- 1006 familles (4295 sujets) supposées saines,
origine française - Chaque famille 2 parents (? 2 enfants ?? 6
ans) - Sujets exempts de maladies aiguës et/ ou
chroniques à linclusion
4La cohorte STANISLAS(2)
- Données cliniques et environnementales
- Histoire personnelle du patient, antécédents
médicaux, prise de médicaments, de tabac et
dalcool ? questionnaire standardisé - Indice de masse corporelle (BMI), prise de
tension, - Dosages biologiques
- Concentrations en glucose, cholestérol total,
LDL-C, HDL-C, triglycérides, - Données génétiques
- Polymorphismes génétiques déterminés grâce à la
technologie PCR Multiplex développée en
collaboration avec Roche Molecular Systems.
5La méthodologie globale de fouille proposée (1)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
Un processus en 5 étapes
6La méthodologie globale de fouille proposée (2)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
7La méthodologie globale de fouille proposée (3)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
8La méthodologie globale de fouille proposée (4)
2- Préparation et nettoyage des données
- Nettoyage des données détection possibilité
de suppression de valeurs incomplètes et/ou
extrêmes. - Conversion des données
- Addition/création de nouveaux attributs,
- Suppression des attributs non pertinents dans le
cadre détude choisi, - Discrétisation transformation des données
continues en données booléennes
9La méthodologie globale de fouille proposée (5)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
10La méthodologie globale de fouille proposée (6)
3- Étape itérative 3.1- Filtrage des données
- Application de projections
- Sur les lignes sélection des individus
possédant un ou plusieurs attributs spécifiés par
lexpert, - Sur les colonnes sélection (ou suppression)
de certains attributs. - Considération du complémentaire dun ensemble
dindividus satisfaisant une règle
11La méthodologie globale de fouille proposée (7)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
12La méthodologie globale de fouille proposée (8)
3- Étape itérative 3.2- Application des
procédures de fouille de données
- Recherche de motifs fréquents et extraction de
règles dassociation - La plate-forme CORON
- Mise au point des paramètres de contrôle de la
fouille (support des motifs, support et confiance
des règles). - Retour éventuel sur les projections et sur le
choix des seuils.
13La méthodologie globale de fouille proposée (9)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
14La méthodologie globale de fouille proposée (10)
3- Étape itérative 3.3- Post-traitement 3.3.1-
Fouille de règles
- Fouille filtrage des règles
- Repérage des règles présentant les attributs les
plus intéressants pour lexpert -
- ? Choix des règles possédant une forme
particulière, choix des règles possédant un
attribut intéressant pour lexpert dans
lantécédent ou dans le conséquent
15La méthodologie globale de fouille proposée (11)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
16La méthodologie globale de fouille proposée (12)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
17La méthodologie globale de fouille proposée (13)
- 1- Définition du cadre détude
- 2- Préparation et nettoyage des données
- 3- Étape itérative
- 3.1-Filtrage des données
- 3.2- Application des procédures de fouille de
données - 3.3- Post-traitement
- 3.3.1- Fouille de règles
- 3.3.2- Visualisation des résultats
- 4- Validation des résultats
- 5- Génération de nouvelles hypothèses de recherche
18La méthodologie globale de fouille proposée (14)
- Tout le processus de fouille décrit dans cette
méthodologie est guidé par lexpert - Sélection des données
- Mise au point des paramètres de contrôle de la
fouille (support des motifs, support et confiance
des règles). - Retour éventuel sur les projections et sur le
choix des seuils. - Filtrage des règles extraites
- Interprétation des résultats
Modèles extraits
Unités de connaissance
19Application de la méthodologieaux données de la
cohorte STANISLAS
Le cadre détude le syndrome métabolique (SM)
- Ensemble de facteurs de risque cardiovasculaire
qui prédispose au diabète de type 2 et aux
maladies cardiovasculaires - Définition du NCEP-ATPIII
- Prévalence 20-25 aux Etats-Unis
- Prévalence croissante en France
- ? Un enjeu majeur de Santé Publique
20Application de la méthodologieaux données de la
cohorte STANISLAS
La préparation des données (1)
Objectif principal de létude extraction de
motifs associant des facteurs biologiques du
risque cardiovasculaire avec des polymorphismes
génétiques.
- Préparation des données biologiques
- discrétisation des variables selon seuil du
NCEP-ATPIII ou grâce aux seuils obtenus par le
calcul des quartiles) - Ajout de variables la variable SM définie par
les critères du NCEP, la variable non SM dont
la valeur est égale à 1 si lindividu ne présente
pas le syndrome métabolique, les variables
glucose normal, HDL normal, pression
sanguine normale, triglycérides normaux, tour
de taille normal".
21Application de la méthodologieaux données de la
cohorte STANISLAS
La préparation des données (2)
- Préparation des données génétiques
- Données génétiques de la cohorte STANISLAS sont
recueillies sous un format booléen dans une base
de données Microsoft Access. - Un polymorphisme génétique A/a
- A allèle fréquent a allèle rare
- Deux modes de conversion testés
- (1) présentation des polymorphismes par génotypes
AA, Aa et aa - (2) présentation des polymorphismes par allèles
AA et a, où a représente le regroupement des
génotypes Aa et aa.
22Le détail dune expérimentation (1)
? Au départ, base de donnée de 308 individus ?
235 attributs (sexe, les 5 paramètres
biologiques de la définition NCEP ATP-III du SM
et 101 polymorphismes génétiques)
- Polymorphismes codés par leurs génotypes (AA, Aa
et aa ) - caractérisation du profil génétique associé au SM
dans la cohorte STANISLAS. - Projection horizontale sur lattribut SM qui
retient 9 individus. Lensemble des 9 individus
vérifie la règle informative exacte suivanteÂ
? SM et APOAI_121GG et APOAIV_347ThrThr et
APOAIV_360GluGlu et ADRB3_64TrpTrp et NOS3-948AA
et ANP_7ValVal et ENaCa_493TrpTrp et FII_20210GG
et IL4R_478SerSer et ADRB2_164ThrThr et
CCR3_39ProPro et APOB_71ThrIle et LPL_291AsnAsn
et FV_506ArgArg et SELE_554LeuLeu (sup9 ou
100 conf1). (9 individus testés)
- Une interprétation possible
23Le détail dune expérimentation (2)
- Projection verticale sur APOB 71Thr/Ile et sur
hyperglycémie, hypertriglycéridémie, hypoHDLémie,
hypertension, obésité, SM et homme et femme. - Un seuil minimal de support bas est fixé (les
individus présentant le SM sont nécessairement
peu nombreux). - Lanalyste cherche les règles contenant  SMÂ
en partie gauche ou en partie droite. 28 règles
sont retenues, dont la règle intéressante
suivanteÂ
SM?APOB_71ThrIle (sup9Â conf1). (308 individus
testés)
- Cette règle sinterprète par présenter le SM
implique davoir le génotype APOB Thr71Ile.
Soulignons que cette interprétation est faite sur
la base de 9 sujets et que la règle engendrée a
une confiance de 100.
24Le détail dune expérimentation (3)
- Interaction avec le statisticien
- test sur un autre échantillon de la cohorte
STANISLAS de 740 individus - répartition des génotypes du polymorphisme de
lAPOB 71Thr/Ile contenant lallèle Ile en
fonction de présenter le SM - ?Conclusion la répartition des génotypes
contenant lallèle Ile est significativement
différente selon que lindividu présente le SM ou
non (test ?2, p0,03). - Une personne possédant lallèle rare pour le
polymorphisme APOB71Thr/Ile serait plus
fréquemment atteinte par le SM. - Résultat original en biologie ?nouvelle étude
dépidémiologie génétique ? résultats
intéressants soumis pour publication.
25Conclusions
- CORON permet de mettre en uvre la méthodologie
pour la fouille de cohortes - ? énoncer de nouvelles hypothèses de recherche
- ? obtention résultats originaux en biologie
- Rôle central de lanalyste dans le processus de
fouille
26Cycle de vie de la méthodologie de fouille de
données symbolique