Title: Automatisation des t
1Automatisation des tâches documentaires dans un
catalogue de santé en ligne
- Aurélie Névéol encadrée par SJ. Darmoni et A.
Rogozan. - Equipe GCSIS, Laboratoire PSI FRE CNRS 2645
INSA Université de Rouen - Equipe CISMeF, CHU de Rouen.
2Plan
- Introduction
- Tâches documentaires
- Présentation
- Veille et description documentaires
- Indexation automatique MeSH
- Description du système MAIF
- Approche TAL
- Approche k-PPV
- Fusion des approches
- Indexation dun texte avec MAIF
- Evaluation du système MAIF (vs. systèmes
francophones, MTI) - Conclusion et perspectives
3Introduction
- Objectifs
- Vers la compréhension des documents de Santé
par la machine - Automatisation des tâches documentaires
- Contexte le Catalogue et Index des Sites
Médicaux Francophones - Projet initié in 1995 (http//www. cismef.org)
- 14,000 ressources ? professionnels de santé,
étudiants, patients - Mise à jour manuelle 55 nouvelles ressources par
semaine - 1.500 ressources en attente
- Automatisation des tâches documentaires
nécessaire, en particulier pour l indexation. - Démarche expérimentale Bottom-up
modélisation des problèmes, expérimentation,
analyse des résultats, itération
4Tâches documentaires présentation
5Tâches documentaires présentation
- Veille documentaire
- Identifier les ressources susceptibles dêtre
intégrées au catalogue - Sélectionner les ressources à intégrer
- Description des ressources à intégrer notice
CISMeF - Classification en spécialités médicales
- Indexation de textes à laide de descripteurs
MeSH - Indexation bimodale texte/image (FF 2ème année
de thèse) - Recherche dinformation
- Outil de recherche (LS thèse soutenue en 2004)
- Dialogue avec lutilisateur (AL 2ème année de
thèse)
6Tâches documentaires veille
- Conception du Veilleur Automatique CISMeF (CVA)
formalisation de la veille manuelle. - Fréquence de la veille
- Profondeur dexploration
- Création de listes de liens connus ou à
éviter - Validation manuelle mise à jour de la liste des
URLs à indexer .
7 Tâches documentaires description des
ressources dans une notice
8Tâches documentaires création dune notice
semi-automatique
- Extraction automatique (à partir dune URL) des
éléments suivants - Indexation MeSH ( titre et format de la
ressource) - Catégorisation en spécialités médicales ou
métatermes (notices longues) - Les autres éléments restent extraits manuellement
(Résumé, nom dauteur, date de publication, etc.
)
9Tâches documentaires catégorisation en
spécialités médicales
- Avant lindexation optique de désambigüisation.
- En cardiologie lacronyme IVG dénote une
ltinsuffisance ventriculaire gauche gt tandis quen
chirurgie il dénote une ltinterruption volontaire
de grossessegt. - Modèles de Compression AIME 2003
- Après lindexation utilisation de lindexation
MeSH - On peut déduire quune ressource indexée par le
mot clé ltdiarrhée du nourrissongt relève de
pédiatrie. - Liens Sémantiques IJMI 2004
- La seconde méthode est utilisée en pratique
10Indexation Automatique MeSH
- Objectifs définis par léquipe après des tests
infructueux de logiciels dindexation existants - Augmenter la couverture du catalogue
- Permettre un gain de temps
- Maintenir une indexation respectant les principes
de lindexation manuelle - Descripteurs obligatoires (check tags)
- Associations mot clé / qualificatif
- Taille variable de lindex
11Indexation Automatique MeSH le système MAIF
- Lindexation comme traduction conceptuelle
approche Traitement Automatique du Langage
Naturel IPM 2005 - Dictionnaires électroniques MeSH
- Bibliothèque de transducteurs
- Formalisation de règles dindexation
- Lindexation comme une catégorisation fine
approche k Plus Proches Voisins - Extraction automatique de Titres
- Fusion des approches et sélection de lindex
final TALN 2005
12Le système MAIF approche TAL
- Lalgorithme suit la méthode manuelle Lancaster,
1991 - 1. Analyse de la ressource pour en extraire des
concepts - Repérage des éléments textuels (analyse de
surface) - 2. Traduction dans le vocabulaire contrôlé
- Mapping vers les termes MeSH
- 3. Correction en fonction des règles dindexation
- Utilisation des propriétés de la terminologie
- Sélection (quasi) systématique des check tags
- Application de règles dindexation
13MAIF TAL dictionnaires électroniques MeSH
- Format DELA (Dictionnaire Electronique du LADL,
le Laboratoire d'Automatique Documentaire et
Linguistique créé par M. Gross) - Versions contenant les formes fléchies DELAF
pour les mots simples et DELACF pour les mots
composés. -
- FormeFléchie,FormeCanonique.InfoFlexionnelle
14MAIF TAL dictionnaires électroniques MeSH -
Principe
- Format DELA FormeMeSH,TermeMeSH.InfoFlexionnell
e - ex grippe,grippe.Nfs (DELA)
- acariose,acarioses.Nfs (DELA)
- Définition de classes de termes
- ex MALADIE (C et F03)
- ACTION ( D27.505)
- SUBSTANCE (D sauf D05, D12, D13, D25, D27.505)
- Introduction des étiquettes MeSH pour les
mots-clés, QMeSH pour les qualificatifs, MALADIE,
etc. - ex grippe,grippe.NMeSHMALADIEfs diagnostic,di
agnostic.NQMeSHms
15MAIF TAL dictionnaires électroniques MeSH -
Source
- Dictionnaires DELA existants
- ex grippe,grippe.NMeSHMALADIEz1ms
- Ressources UMLF
- Flexions et dérivations pour les mots simples
- Validation manuelle
- spironolactoner,spironolactone.VMeSH ? entrée
rejetée - diagnostiquer,diagnostic.VMeSH ? entrée
conservée - Synonymes MeSH et CISMeF
- ex sorroche,mal des montagnes.NMeSHMALADIEms
- Génération puis validation des pluriels
-
16MAIF TAL dictionnaires électroniques MeSH
Traduction automatique de synonymes
- Collaboration avec S. Ozdowska (ERSS, Toulouse)
méthode dappariement par propagation syntaxique - Le couple amorce (protective/protecteur) permet
dapparier les termes (clothing/vêtements) par
propagation de la relation ADJ-N - Traduction directe et compositionelle EGC 2005,
TIA 2005 - Corpus CISMeF, RCP, Hansard
17MAIF TAL dictionnaires électroniques
MeSHBilan INTEX04
- Couverture de 83 du MeSH (soit 2,23
entrées/terme) - Extrait du dictionnaire
- Entrée triviale
- diabete de type i,diabete de type i.NMeSHms
- Variante orthographique
- diabete de type 1, diabete de type i.NMeSHms
- Synonymes
- diabete juvenile, diabete de type i.NMeSHms
- diabete insulinodependant, diabete de type
i.NMeSHms - Flexions
- diabetes de type i, diabete de type i.NMeSHmp
- diabetes juveniles, diabete de type i.NMeSHmp
(synonyme) - Dérivations
- diabetique de type 1, diabete de type i.NMeSHms
(variante) - diabetiques de type i, diabete de type
i.NMeSHmp
18MAIF TAL transducteurs MeSH
- Description des termes complexes à laide de
grammaires locales -
19MAIF TAL Formalisation des règles dusage
des qualificatifs
- Règles implémentées pour lextraction de paires
mot clé / qualificatif ex - Identification de déclencheurs tels que lutter
contre la MALADIE ou vaccin anti-MALADIE ?
La paire lt MALADIE/PCgt doit être utilisée pour
lindexation.
20MAIF TAL Formalisation des règles dusage
des qualificatifs
- Règles non implémentées
- Identification de déclencheurs tels que
traitement de la MALADIE ou traiter la
MALADIE ? - Si ACTION ET SUBSTANCE
- ltMALADIE/DTgt
- ET ltACTION/TUgt
- ET lt SUBSTANCE /TUgt
- Si ACTION ET NON SUBSTANCE
- ltMALADIE/DTgt
- ET ltACTION/TUgt
- Si NON ACTION ET NON MALADIE
- ltMALADIE/THgt (défaut)
- OU ltMALADIE/SUgt (intervention E04)
- OUlt MALADIE/RTgt (traitement par rayons)
21MAIF TAL (1) Analyse de la ressource(2)
traduction MeSH des concepts
- INTEX/NooJ Silberztein, 93 Outils
linguistiques danalyse de corpus utilisables en
ligne de commande - Implémentent des fonctions pour automates et
transducteurs - temps de traitement indépendant de la taille des
dictionnaires (23.000 mots clés MeSH) - Application des dictionnaires et transducteurs
- Mots clés MeSH
- Qualificatifs MeSH
- Paires mot clé / qualificatif MeSH
22MAIF TAL (3) Correction de lindexation
- Hiérarchie indexation au plus précis
- diabète
- diabète de type II
- diabète gestationnel
- diabète de type I
-
- report des occurrences de ltdiabètegt vers ses
fils - Associations MC / Q validation et appariement
- à lintérieur dune même phrase
- avec les MC les fréquents sinon
- Calcul de score tfidf
- Check Tags promus au rang 1 si fréquence gt 2
23MAIF TAL Bilan
- Extraction précise des termes apparaissant
explicitement en corpus - Mais silence sur les termes à portée globale
- ex ltétude comparativegt
- Nécessité dune autre approche
- Méthode de classification
- La norme indexation NF Z 47-102, 1978
souligne limportance des titres
24Le système MAIF k-PPV, approche des k Plus
Proches Voisins
- Une ressource est représentée par son titre les
mots grammaticaux et non significatifs étant
filtrés, un sac de mots est constitué. - eg Le diabète de type 1 -gtdiabète, type, 1
- Similarité avec une autre ressource nombre de
mots du titre en commun (vs. distance dédition) - Candidats à lindexation les mots clés (ou
paires) utilisés pour indexer les k-PPV, avec un
score compris entre 1 (le MC appartient à lindex
dun voisin) et k (le MC appartient à lindex des
k voisins)
25MAIF k-PPV bilan
- Extraction des termes à portée globale
- Mais fiabilité aléatoire
- Significativité du titre
- Disponibilité de voisins réellement proches
- Nécessité de fusionner les approches TAL et k-PPV
26Le système MAIF fusion des approches TAL et
k-PPV
- Score fusionné
- Importance égale pour les deux approches
- Rang vs. score relatif résultats équivalents
- Application de Règles dindexation après fusion
- Substitution (MeSH) MC1/Q1 ? MC2
- ex ltcœur/TRgt ?lttransplantation cardiaquegt
- Adjonction (CISMeF) MC1/Q1 ? MC1/Q1 MC2
/Q2 - ex ltappendicectomiegt ? ltappendicectomiegt
ltappendicite/SUgt
27Le système MAIF fusion des approches TAL et
k-PPV fonction de rupture
- Soit une liste de N candidats à lindexation
ordonnée en fonction des scores Si décroissants. - Le seuil T est
-
- Ainsi, seuls les T candidats de rang i1, , T
sont retenus pour lindex final.
28Indexation dun texte avec MAIF pré-traitement
29Indexation dun texte avec MAIFanalyse de
surface, traduction MeSH
30Indexation dun texte avec MAIF analyse de
surface, traduction MeSH
31Indexation dun texte avec MAIFappariement des
qualificatifs isolés
- A lintérieur des phrases
- Avec les mots clés les plus fréquents
32Indexation dun texte avec MAIFscores et
post-traitement
33Indexation dun texte avec MAIFrecherche des
Plus Proches Voisins
- Réduction du risque de diabète de type 2 chez les
enfants autochtones du Canada - Diabète de type 2 ou diabète non
insulino-dépendant - Allergies et hypersensibilités de type 1 chez
l'enfant et chez l'adulte
34Indexation dun texte avec MAIFFusion,
sélection de lindex
Indexation Manuelle ltdiabète de type
2gt ltenfantgt ltEtats-Unis d'Amériquegt ltFrancegt ltGran
de Bretagnegt
35Évaluation de MAIF
- Corpus de 83 ressources couverture MeSH de
MAIF-TAL 35 - Indexation à laide de paires mot clé /
qualificatif - Evaluation de la correction (précision) et de
lexhaustivité (rappel) du système - Une autre évaluation a mis en évidence un
silence de lindexation manuelle auquel le
système automatique peut pallier
36Evaluation des sytèmes dindexation MeSH
Francophones AIME 2005
-
- Corpus de 83 ressources couverture MeSH de
MAIF-TAL 35 - Indexation à laide de mots clés isolés
- Pour MeSHMap, les performances sont inférieures
à celles observées sur des abstracts en anglais
(vs. Textes intégraux en Français ici)
37Résultats F-measure / rang(couverture MeSH de
MAIF 35)
38Résultats F-measure / rang(Couverture MeSH de
MAIF 35)
39Résultats F-measure / rang (Couverture MeSH de
MAIF 60)
40Evaluation de MTI et MAIFsur un corpus parallèle
(50 ressources) AMIA 2005
- MTI offre de meilleures performances
- Lévaluation a permis une comparaison des
méthodes dindexation - Pour MAIF, lapproche k-PPV est limitée par la
taille de la base dapprentissage (N14 000 vs.
10,6 millions pour MTI)
41Le système MAIF Bilan
- Le développement de MAIF a permis denrichir les
ressources terminologiques et de formaliser les
règles dindexation - Le système MAIF
- Respecte les critères de lindexation manuelle
(indexation par paires MC/Q, index de taille
variable, ) - Peut contribuer à combler le silence de
lindexation manuelle - Evaluation
- MAIF offre des performances équivalentes ou
supérieures aux systèmes Francophones existants - MTI offre de meilleures performances sur
langlais, mais MAIF peut apporter des
améliorations (indexation par paires, fonction de
rupture)
42Conclusion Automatisation des tâches
documentaires
43Conclusion
- Terminologie Médicale
- Mise à disposition de la communauté dun
dictionnaire et dune bibliothèque de
transducteurs MeSH - Indexation MeSH
- Le système MAIF prouve la faisabilité dune
indexation automatique MC/Q - Evaluation
- Mise en place dune campagne dévaluation des
systèmes dindexation MeSH francophones gt
réflexion sur les outils dévaluation
44Perspectives
- Finalisation de lintégration de MAIF dans le
processus CISMeF - Evaluation opérationnelle de lutilisation
semi-automatique de MAIF par les indexeurs CISMeF
- évaluation qualitative (précision, impact sur le
silence de lindexation manuelle) - évaluation quantitative (réduction des délais
dindexation) - Amélioration des approches TAL et k-PPV, de la
fusion - Post-Doc NLM
- Adaptation de lextraction de paires MC/Q MeSH
dans MTI - Application de la fonction de rupture
45Généralisation des travaux
- Indexation avec dautres terminologies médicales
(SP 1ére année de thèse) - Intégration de MAIF
- Application des approches TAL et k-PPV sur
CIM-10, CCAM et SNOMED (UMLS) - Formalisation de règles à laide de transducteurs
- Application à lanalyse des RCP avec un thésaurus
du VIDAL - Application à lindexation par triplets MC/Q\TR
- Classification
- Création dun outil bibliométrique BMC Medical
Informatics 2006 - Application documents proches , et
illustration cartographique
46Quelques publications détaillant ces travaux
- Revues
- Névéol A., Rogozan A., Darmoni SJ. Automatic
indexing of health resources in French with a
controlled vocabulary for the CISMeF catalogue
IPM 2006 - Névéol A., Soualmia LF., Douyère M., Rogozan A.,
Thirion B., Darmoni SJ. Using CISMeF MeSH
Encapsulated Terminology and a Rule-based
Algorithm for Health Resources Categorization
IJMI 2004 - Darmoni SJ, Névéol A., Renard, JM., Gehano JF.,
Soualmia LF., Dahamna B., et al. A MEDLINE
categorization algorithm BMC 2006 - Conférences internationales
- Névéol A., Mork JG., Aronson AR., Darmoni SJ.
Evaluation of French and English MeSH Indexing
systems with a parallel corpus AMIA 2005 - Névéol A., Mary, V., Gaudinat, A., Boyer, C.,
Rogozan, A., Darmoni, SJ. A Benchmark Evaluation
of the French MeSH Indexing Systems. AIME 2005 - Conférences Nationales
- Névéol A., Ozdowska S. Extraction bilingue de
termes médicaux dans un corpus parallèle
anglais/français. EGC 2005 - Névéol A., Douyère M., Rogozan A., Darmoni SJ.
Construction de ressources terminologiques en
santé pour un système dindexation automatique
Journées INTEX/NOOJ 2004
47Discussion MAIF
- Les deux méthodes
- Respectent les critères de lindexation manuelle
(indexation par paires MC/Q, index de taille
variable, ) - Tiennent compte dans une certaine mesure des
méthodes dindexation manuelle - Méthode k-NN
- Fondée sur les titres (?superficiel?)
- Non productif (perpétue le silence)
- Méthode TALN
- Traite la ressource complète (?trop de détail?)
- Peut combler les silences de lindexation
manuelle - Fusion lefficacité dépend des résultats k-NN
48Catégorisation après lindexation
MéthodeNévéol et al. 04, IJMI Grâce aux liens
sémantiques de la terminologie CISMeF les
spécialités Médicales ( métatermes ) sont
inférées de la description dune ressource (MeSH
types de ressource).
Structure de la terminologie CISMeF
49Résultats sur 125 ressources
- Précision de 80 , rappel 93
- Cette méthode est actuellement utilisée pour la
catégorisation des ressources CISMeF. - Pas d'apprentissage préalable
- Lanalyse des résultats a permis denrichir la
terminologie (création de nouveaux liens et de
nouveaux métatermes) - Développement dun outil bibliométrique fondé sur
une méthode similaire Darmoni et al. 05, à
paraître dans BMC
50Analyse des résultats dune évaluation
préliminaire (TALN)
- Check tags
- Silence de lindexation manuelle -gt valeur
ajoutée du système - Sélection de mots clefs non représentatifs
- Utilisation de probabilités de sélection pour
pondérer les scores des candidats. - Pour chaque terme t, on a
avec R une ressource du catalogue, et IR
lindexation de cette ressource.
51Extraction Automatique du titre et du format
52Résultats sur 339 URLs
- 68 d extractions pertinentes
53Traduction compositionelle
- They may care for immunocompromised patients
(including premature infants) - Ils peuvent s'occuper de patients immunodéprimés
(y compris de bébés prématurés) - premature ? prématuré
- The infant can be vaccinated at birth
- L'enfant pourra être vacciné après sa naissance
- birth ? naissance
- premature birth ? naissance prématurée