Title: Retour dexprience Challenge PKDD 20012003
1Retour dexpérience Challenge PKDD 2001-2003
2Plan
- Types de données fournies lors des challenges
- Démarche suivie lors des 3 challenges
3Données fournies
42001
- Données
- 2 bases issues dun hôpital, dun centre de
consultation et 1 banque dexamens biologiques - Objectifs
- Découvrir des facteurs favorisant les
thromboses dans les collagénoses.
52002-2003
- Données
- 2 bases issues dune étude de cohorte, lune
mesurant divers paramètres à lentrée des
patients dans létude, la deuxième indiquant le
suivi des patients durant les 20 ans qua duré
létude. - Objectifs
- Découvrir les facteurs favorisants et
protecteurs de lathérosclérose ainsi que leurs
éventuelles interactions.
6Types de données
- Pour les 3 années, il sagit de bases
relationnelles entité-relation simples avec une
clef primaire reliant les tables (numéro de
patient). - Selon toute vraisemblance, il ny a pas eu de
coopération entre les concepteurs des bases et
les informaticiens. - stockage Excel
7Démarche commune pour les 3 ans
- A Nettoyage et normalisation
- B Comprendre les données avec lexpert
- Définir les objectifs
- Reformulation des données en fonction des
objectifs - C Test et vérification du modèle choisi
- Essai erreur modification du modèle
- D Validation classique
8A Nettoyage et normalisation
92001
- Exemples (individus) dans 1,2 ou les 3 tables
- Utiles pour corriger des erreurs de saisie
car infos - redondantes
- - Pas de recette pour éliminer les doubles,
corriger - Expert ici peu ou pas utile (se renseigner sur
Internet peut suffire !)
102002 / 2003
- Aucun nettoyage nécessaire tables fournies avec
explications claires et précises.
11Conclusion
- Quand cette phase est nécessaire
- Pas de recette miracle long, fastidieux, peu
automatisable. - Problèmes aisément prévisibles (et évitables)
lors de la conception au départ de la base de
données !
12B Compréhension des données
13B 1 Définir des objectifs
14Comprendre les données2001
- Sujet de létude collagénoses. Maladies
compliquées, mal comprises y compris par les
experts. - Il en découle un manque de recul sur ce qui est
découvert - Lexpert ne sait pas et na ni recul ni
connaissances ni moyens pour vérifier la validité
et la légitimité de la pépite
15Comprendre les données2002 - 2003
- Sujet détude lathérosclérose. Domaine connu
et bien balisé par la science médicale. - Facilité pour lexpert pour trancher entre des
résultats sans intérêt ou très intéressants.
16Comprendre les données2002 - 2003
- Exemple
- 2002 160 attributs familiaux
- Peu de contenu mais très précieux, lexpert le
sait - 2003 remplacé par un indicateur de risque
- Données plus facilement utilisables quen 2002
mais moins précises. Concrètement, plus facile
pour linformaticien mais moins dintérêt pour le
médecin.
17Conclusion B1
- Des objectifs doivent être donnés au projet,
avant même denvisager de répondre à une question
sur le domaine ciblé. - Ces objectifs dépendent par exemple de la
disponibilité ou non dun expert. - Exemple donner de nouvelles pistes
révolutionnaires au domaine ? Préciser un point ?
Prouver la validité de nouveaux outils ?
18Conclusion B1
- Problème posé
- Si le domaine fouillé est déjà bien connu,
javance - dans la lumière mais le risque est la
ré-invention de - la roue La présence dun expert semble
inévitable. - Si le domaine fouillé est largement incompris, je
peux certes découvrir linespéré (et seul) - mais ne pas le savoir !
- ne pas être validé, les savoirs issus de
linformatique nétant pas validés par
lépidémiologie actuelle !
19B 2 Reformulation des données en fonction des
objectifs
20Sélection des attributsRedescription des données
- En fonction des objectifs
- Création dattributs par combinaison, etc.
- Suppression dattributs inutiles ou peu
informatifs. - Reformulation des données
- Définition dun modèle par lexpert
21C Test et vérification du modèle choisi
22Test du modèle et modifications
- Confrontation du modèle avec lexpert
- 2001 utilisation de C4.5 pour filtrer les
attributs inutiles - 2002 a priori sur lactivité physique
- Mauvaise modélisation
- Reformulation on ne conserve que le sport
- Modèle plus fiable et validé par lexpert
23D Validation croisée classique
- 2001 protocole 5 CV
- 2002 -2003
- Utilisation dune partie des données de Entry
pour valider lestimateur de risque - Utilisation des données de Control pour confirmer
lestimateur de risque et isoler des individus
mal étiquetés dans Entry
24Retour sur la démarche
- Originalité car présence permanente de lexpert
- Coopération efficace entre lexpert des données
et le chercheur informatique il faut rester
dans les clous des deux domaines pour espérer des
résultats reconnus ET intéressants.
25Retour dexpérience
- Conception / manipulation des bases en commun
indispensable. - Le but du travail doit être connu
- Permettre une avancée dans le domaine de
recherche (ici médecine) ou en informatique ? - Mettre en avant lefficacité de nouvelles
méthodes ? Prouver leur validité et donner une
légitimité ?