Retour dexprience Challenge PKDD 20012003 - PowerPoint PPT Presentation

1 / 25
About This Presentation
Title:

Retour dexprience Challenge PKDD 20012003

Description:

2 bases issues d'un h pital, d'un centre de consultation et 1 banque d'examens biologiques. Objectifs ... 2 bases issues d'une tude de cohorte, l'une mesurant divers ... – PowerPoint PPT presentation

Number of Views:34
Avg rating:3.0/5.0
Slides: 26
Provided by: dsa86
Category:

less

Transcript and Presenter's Notes

Title: Retour dexprience Challenge PKDD 20012003


1
Retour dexpérience Challenge PKDD 2001-2003
2
Plan
  • Types de données fournies lors des challenges
  • Démarche suivie lors des 3 challenges

3
Données fournies
4
2001
  • Données
  • 2 bases issues dun hôpital, dun centre de
    consultation et 1 banque dexamens biologiques
  • Objectifs
  • Découvrir des facteurs favorisant les
    thromboses dans les collagénoses.

5
2002-2003
  • Données
  • 2 bases issues dune étude de cohorte, lune
    mesurant divers paramètres à lentrée des
    patients dans létude, la deuxième indiquant le
    suivi des patients durant les 20 ans qua duré
    létude.
  • Objectifs
  • Découvrir les facteurs favorisants et
    protecteurs de lathérosclérose ainsi que leurs
    éventuelles interactions.

6
Types de données
  • Pour les 3 années, il sagit de bases
    relationnelles entité-relation simples avec une
    clef primaire reliant les tables (numéro de
    patient).
  • Selon toute vraisemblance, il ny a pas eu de
    coopération entre les concepteurs des bases et
    les informaticiens.
  •  stockage Excel 

7
Démarche commune pour les 3 ans
  • A Nettoyage et normalisation
  • B Comprendre les données avec lexpert
  • Définir les objectifs
  • Reformulation des données en fonction des
    objectifs
  • C Test et vérification du modèle choisi
  • Essai erreur modification du modèle
  • D Validation classique

8
A Nettoyage et normalisation
9
2001
  • Exemples (individus) dans 1,2 ou les 3 tables
  • Utiles pour corriger des erreurs de saisie
    car infos
  • redondantes
  • - Pas de recette pour éliminer les doubles,
    corriger
  • Expert ici peu ou pas utile (se renseigner sur
    Internet peut suffire !)

10
2002 / 2003
  • Aucun nettoyage nécessaire tables fournies avec
    explications claires et précises.

11
Conclusion
  • Quand cette phase est nécessaire
  • Pas de recette miracle long, fastidieux, peu
    automatisable.
  • Problèmes aisément prévisibles (et évitables)
    lors de la conception au départ de la base de
    données !

12
B Compréhension des données
13
B 1 Définir des objectifs
14
Comprendre les données2001
  • Sujet de létude collagénoses. Maladies
    compliquées, mal comprises y compris par les
    experts.
  • Il en découle un manque de recul sur ce qui est
    découvert
  • Lexpert ne sait pas et na ni recul ni
    connaissances ni moyens pour vérifier la validité
    et la légitimité de la pépite

15
Comprendre les données2002 - 2003
  • Sujet détude lathérosclérose. Domaine connu
    et bien balisé par la science médicale.
  • Facilité pour lexpert pour trancher entre des
    résultats sans intérêt ou très intéressants.

16
Comprendre les données2002 - 2003
  • Exemple
  • 2002 160 attributs familiaux
  • Peu de contenu mais très précieux, lexpert le
    sait
  • 2003 remplacé par un indicateur de risque
  • Données plus facilement utilisables quen 2002
    mais moins précises. Concrètement, plus facile
    pour linformaticien mais moins dintérêt pour le
    médecin.

17
Conclusion B1
  • Des objectifs doivent être donnés au projet,
    avant même denvisager de répondre à une question
    sur le domaine ciblé.
  • Ces objectifs dépendent par exemple de la
    disponibilité ou non dun expert.
  • Exemple donner de nouvelles pistes
    révolutionnaires au domaine ? Préciser un point ?
    Prouver la validité de nouveaux outils ?

18
Conclusion B1
  • Problème posé
  • Si le domaine fouillé est déjà bien connu,
    javance
  • dans la lumière mais le risque est la
    ré-invention de
  • la roue La présence dun expert semble
    inévitable.
  • Si le domaine fouillé est largement incompris, je
    peux certes découvrir linespéré (et seul)
  • mais ne pas le savoir !
  • ne pas être validé, les savoirs issus de
    linformatique nétant pas validés par
    lépidémiologie actuelle !

19
B 2 Reformulation des données en fonction des
objectifs
20
Sélection des attributsRedescription des données
  • En fonction des objectifs
  • Création dattributs par combinaison, etc.
  • Suppression dattributs inutiles ou peu
    informatifs.
  • Reformulation des données
  • Définition dun modèle par lexpert

21
C Test et vérification du modèle choisi
22
Test du modèle et modifications
  • Confrontation du modèle avec lexpert
  • 2001 utilisation de C4.5 pour filtrer les
    attributs inutiles
  • 2002 a priori sur lactivité physique
  • Mauvaise modélisation
  • Reformulation on ne conserve que le sport
  • Modèle plus fiable et validé par lexpert

23
D Validation croisée classique
  • 2001 protocole 5 CV
  • 2002 -2003
  • Utilisation dune partie des données de Entry
    pour valider lestimateur de risque
  • Utilisation des données de Control pour confirmer
    lestimateur de risque et isoler des individus
    mal étiquetés dans Entry

24
Retour sur la démarche
  • Originalité car présence permanente de lexpert
  • Coopération efficace entre lexpert des données
    et le chercheur informatique il faut rester
    dans les clous des deux domaines pour espérer des
    résultats reconnus ET intéressants.

25
Retour dexpérience
  • Conception / manipulation des bases en commun
    indispensable.
  • Le but du travail doit être connu
  • Permettre une avancée dans le domaine de
    recherche (ici médecine) ou en informatique ?
  • Mettre en avant lefficacité de nouvelles
    méthodes ? Prouver leur validité et donner une
    légitimité ?
Write a Comment
User Comments (0)
About PowerShow.com