Title: Construction d
1Construction dontologies à partir de textes
- Nathalie Aussenac-Gilles
- IRIT CSC
- ingénierie des connaissances
- aussenac_at_irit.fr
2Thème et objectifs
- Thème
- Méthode et outils pour la construction de modèles
conceptuels à partir de textes - Objectifs
- Montrer les enjeux pour les recherches sur la
modélisation conceptuelle de la problématique des
ontologies - Clarifier les caractéristiques des différents
paradigmes - Placer le débat au niveau des modèles et de leurs
contenus - Importance de lusage et des applications
- Présenter un panorama doutils et une méthode
3Plan
- Ontologies et textes à BDA motivations
- Différentes facettes de la modélisation
conceptuelle - Ressources terminologiques et ontologiques
définitions - Construire des modèles conceptuels à partir de
textes
4Motivations Convergence des objets de recherche
- Domaines concernés Bases de données,
modélisation objet, ingénierie des connaissances - Langages, méthodes, plates-formes, vérification
par la logique de modèles conceptuels - Ateliers de génie logiciel étendus pour
représenter des ontologies - ER ou UML pour représenter des ontologies
- ex ICOM http//www.cs.man.ac.uk/franconi/icom/
- atelier basé sur ER, intègre un moteur de logique
de description, sauvegarde des ontologies en XML.
5MotivationsCroisements du côté des applications
- Frontières moins nettes entre types
dapplications - Ex PICSEL ontologie pour accéder à des
serveurs de BD - BD semi-structurées pour la mémoire dentreprise
- Mise en forme de business rules au sein dun SI
- Utilisation des ontologies pour organiser,
structurer des données - Ex faut-il une ontologie ou une BD pour
organiser une bibliographie ? - Ontologie désigne une hiérarchie de termes,
une base de données lexicales ou
6MotivationsPoser les bases pour un débat
- Confusion ou perplexité au niveau des
applications - Face à un besoin dentreprise ontologie ou
schéma E/R ou UML ? - Confusion entre la question des langages et la
question de la nature de chacun de ces modèles - Situer le débat au niveau de la modélisation
conceptuelle - Statut des modèles
- Ancrage et fondements des connaissances
7MotivationsLinvasion des ontologies
- Tout est-il ontologie ?
- Retour sur la définition
- Retour sur les prétentions affichées
- Panorama sur les ressources terminologiques et
ontologiques - Des ontologies à tout faire
- Des prétentions aux usages
- Ce que permet la formalisation (cf. BD déductive
?) - Formaliser pour affiner le sens
- Formaliser pour vérifier
- Formaliser pour raisonner
- Ce que permet une dimension lexicale
- Des termes pour communiquer
- Des termes pour localiser des concepts ou des
connaissances
8Plan
- Ontologies et textes à BDA motivations
- La modélisation conceptuelle en question
- Réponses possibles en matière de modélisation
- Différentes facettes de la modélisation
conceptuelle - Ressources terminologiques et ontologiques
définitions - Construire des modèles conceptuels à partir de
textes
92. Modélisation conceptuelle en question
- Modéliser, cest répondre à des besoins
- Modèles comme support au dialogue
- Modèles comme spécification de code
- Eventail de contraintes sur les modèles
- Modéliser, cest représenter
- Primitives conceptuelles (méta-modèle)
- Langage de représentation
- Modéliser, cest sélectionner les
bonnes connaissances - Méthodes pour analyser, identifier, décrire
- Outils daide
102. a. Réponses possibles Schémas
Entité-Association
- Entités, association, règles de normalisation
n .. n
112. a. Réponses possiblesSchéma entité-association
- (Id-chercheur, Nom, Grade, Téléphone, organisme)
- Un chercheur a un identifiant unique
Id-chercheur, sappelle dun certain Nom, a un
certain Grade, a une certain numéro de Téléphone
et est rattaché à un Organisme, où chaque
attribut est pris dans un certain domaine. - Tuple vérifiant la relation
- (12660, Nathalie Aussenac , CR1, 05 61 55 82
93 , CNRS) - Est-rattaché-à (Id-chercheur, Id-laboratoire)
- Association fonctionnelle entre (ID-chercheur,
Id-laboratoire) (id-chercheur, Grade) etc. - Le nom de la relation reste implicite, na pas
dimpact sur les traitements - Logique du premier ordre
122. a. Réponses possiblesDiagramme de classes UML
- Classes, slots, relations entre classes
- Héritage, comportement à travers les méthodes
Publications Titre TitreVolume Date Pages Edition
Personnel recherche Nom Téléphone Affiliation
Laboratoire Nom Adresse Affiliation
Est-auteur-de
Est-rattaché-à
Chercheur Grade
Thésard Sujet thèse
Encadre
132. a. Réponses possiblesDiagramme de classes UML
- Gestion de lhéritage suppose des logiques plus
complexes exprimer des propriétés sur les
attributs, modalités, - Sémantique des relations peu exploitée
142. a. Réponses possiblesOntologies formelles
- Concepts, instances
- Relations sémantiques, axiomes
152. a. Réponses possiblesOntologies formelles
- Ontologies formelles
- Sémantique des relations signature (typage des
concepts reliés) - Frame logic simplification des capacités
dexpression pour assurer la calculabilité de
raisonnements. Ex CARIN-ALN - Instances
- chercheur (NAussenac), thésard(Mbaziz),
encadre(Naussenac, Mbaziz)
16Facettes de la modélisationObjectifs et enjeux
- Ontologies
- Représenter un domaine, associer des
connaissances à des objets métier - Formaliser pour raisonner
- Enjeux
- identifier les concepts, les décrire
- Gérer un grand nombre de concepts, relativement
peu dinstances - Traitements mal définis a priori
- Schémas E-A
- Spécifier les objets manipulés par un système
dinformation - Normaliser pour optimiser les traitements
- Enjeux
- Caractériser des classes connues a priori
- Peu de classes, très grande quantité dinstances,
- Traitements bien connus a priori (requêtes
identifiées)
17Facettes de la modélisationUtilisations
- Ontologies
- Utilisées pour des traitements variés et
complexes - Analyse du langage
- Indexation, annotation documentaire
- Recherche dinformation
- Interrogation directe
- Lisibilité, accessibilité par les utilisateurs
(validité cognitive), des organisations
(pertinence sociale) - Besoins en formalisation très différents
- Schémas E-A
- Traitements massifs, à grande échelle, liés au
stockage dinstances - Choix de structuration visant loptimisation des
traitements - Lisibilité par les analystes, sert de base à la
conception informatique - Besoins en formalisation toujours identiques
18Facettes de la modélisationContraintes
- Ontologies
- Exhaustivité, couverture du domaine en fonction
de lapplication - Consensus, réutilisabilité
- Interopérabilité langage standard
- Proche de représentations humaines
- Coût élevé, contenu très riche
- Schémas E-A
- Précision, compacité, entités nécessaires et
suffisantes pour lapplication - anticiper des traitements massifs, à grande
échelle, liés au stockage dinstances - Plus darbitraire
- Plus rapide, plus simple à élaborer
19Facettes de la modélisationFondements des modèles
- Fonder des modèles sur lintrospection, lanalyse
dorganigrammes et des normes (formes
normalisées) - Lapproche BD
- Fonder des modèles sur des principes ontologiques
caractérisant classes et propriétés des objets,
des états - Approche ontologique formelle et philosophique
- Fonder des modèles sur lanalyse de lactivité et
des savoir-faire individuels ou collectifs mis en
œuvre - Lapproche IC (ergonomie et sociologie)
- Fonder des modèles sur lusage des connaissances
tel quil est révélé par le langage, avec le
consensus minimal que cela suppose - Approche développée dans ce tutoriel
20Plan
- Ontologies et textes à BDA motivations
- Différentes facettes de la modélisation
conceptuelle - Ressources terminologiques et ontologiques
- Définitions
- Enjeux de la formalisation
- Construire des modèles conceptuels à partir de
textes
213.a. Ressources terminologiques et ontologiques
définitions
- Une gamme de produits construits pour accéder aux
connaissances via la langage - Thésaurus (recherche documentaire et RI)
- Terminologies (aide à la rédaction, traduction)
- Base de connaissances terminologiques (formation,
modélisation dun corpus) - Ontologies (systèmes à base de connaissances,
agents sur le web, )
22Thesaurus
Thésaurus SRLF et de la SFAR
hémopéritoine
23Ontologie définition
Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble
des objets reconnus comme existant dans le
domaine. Construire une ontologie, cest aussi
décider dune manière dêtre et dexister des
objets.
- Modèles des connaissances dun domaine
ontologie du domaine - pertinentes pour une application, une tâche
donnée ontologie régionale - Application de principes de normalisation, de
bonne construction - Conceptualisation sous forme de réseau sémantique
(concepts, relations) axiomes
24Ontologie
hémopéritoine
épanchement hématique localisé au niveau du
péritoine
ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL
LESION adénopathie
épanchement épanchement gazeux
épanchement liquidien
épanchement de pus
épanchement hématique
ANATOMIE ANA_TISSU_ENVEL
capsule duremère mésentère
peau péritoine
LOCALISATION à_côté_de
à_l'extérieur_de au_dessus_de
au_niveau_de
LESION
(LOCALISATION) ANATOMIE
épanchement hématique
(au_niveau_de)
péritoine
25Ontologie
fracture à la base du crâne
Hiérarchie de relations
Hiérarchie de concepts
LESION épanchement fracture
LOCALISATION à_côté_de
à_l'extérieur_de au_dessus_de
au_niv_de
SITUATION angle base bord
OBJET DE
ANATOMIE_OBJET OS crâne
Liens
LESION (LOCALISATION) SITUATION
SITUATION (OBJET) ANATOMIE_OBJET
Concept défini
fracture (au_niveau_de) base
(DE) crâne
26Thesaurus vs. Ontologie
- Thesaurus
- Contenu
- Descripteurs, mots-clés
- Relations is_a, synonyme (terme
préférentiel), voir_aussi - Utilisé par un agent humain (documentaliste,
spécialiste) - pour indexer des documents
- Ontologie
- Contenu
- Une taxinomie des concepts, une taxinomie de
relation - Des rôles
- Décrite dans un langage de représentation des
connaissances et exploitée par un système
informatique - Possibilité de comparer et de classer des
concepts - Capacité générative
- Inférences
27Le modèle des données dune BCT
Fragments de Textes
DOCUMENT2 Service YYY ------------
Top
Concepts
Unité1.2 Service XXX ------------
Document définition --- --- attributs ----
Unité 1.1 DOCUMENT1 Service XXX
relation conceptuelle
dossier de spécification
Termes
document de projet.
contextes de validité
document de spécification détaillée informations
linguistiques
28Solutions apportées par ce modèle
- Aspects linguistiques
- termes équivalents
- synonymie
- polysémie
- points de vue
- prise en compte du locuteur
- patrons syntactico-sémantiques
- Aspects conceptuels
- relations conceptuelles spécifiques
- sémantique des relations
- points de vue
- héritage des attributs et relations conceptuelles
- Lisibilité des descriptions
293.b. Ontologies enjeux de la formalisationCapac
ité dexpression
- Exemple projet PICSEL, LRI
- Partie terminologique
- Concepts organisés en hiérarchie, définis par
leurs relations (cns ou père prop.spécifiques) - (DEF-CONCEPT chercheur
- (and personnel-recherche
- (ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade
Grade) - (ALL encadre Thésard)))
- Contraintes
- Relations dexclusion entre concepts de base
- EquipementCulturel ? equipementSportif ? ?
- Typage des rôles (ALL encadre Thésard) dans
définition Chercheur
303.b. Ontologies enjeux de la formalisationCapac
ité dexpression
- Partie déductive
- Relations autres que unaires et binaires
- R1 VolAR(villeDépart, dateDépart1,
villeArrivée, dateDépart2) lt Vol(v1),
lieuDepart(v1, villeDépart), lieuArrivée (v1,
villeArrivée), Vol(v2), lieuDepart(v2,
villeArrivée), lieuArrivée (v2, villeDépart),
dateDépart(v1,dateDépart1), dateDépart(v2,dateDépa
rt2), antérieure (dateDépart, dateDépart2) - Relations disjonctives autant de règles que
dalternatives - ProduitJeune(x) lt produit(x), (ATMOST 1
produitServiceAssocié) - ProduitJeune(x) lt produit(x), produitServiceAssoc
ié(x,y), bonMarché(y) - Relations inverses
- Raccourci denchaînement de rôles
313.b. Ontologies enjeux de la formalisationCapac
ité dexpression
- Expression de requêtes
- SéjourAuSoleil(s,p) lt CombinéSéjour(s),
LogementAssocié(s,l), lieuDeRésidence(r),
SituéDans(r,p), LieuAuSoleil(p) - Calcul de plans de requête
- Vérifier la satisfiabilité
- Substituer chaque terme de la requête par sa
définition logique, cest-à-dire par toutes ses
spécialisations possibles -gt plusieurs requêtes
disjonctives - Réécriture de chaque requête conjonctive (même
principe) à partir de la réécriture de chacun des
atomes -gt identification des faits correspondants - Affinement de requêtes
- Repérage de conflits
- Exploitation de la hiérarchie pour généraliser
- Calcul de requête satisfiable à partir de
requêtes insatisfiables par généralisation de
concepts
32Plan
- Ontologies et textes à BDA motivations
- Différentes facettes de la modélisation
conceptuelle - Ressources terminologiques et ontologiques
- Construire des modèles conceptuels à partir de
textes - Justification
- Panorama doutils pour lanalyse de textes
- Une méthode à travers une étude de cas le
projet verre
334 - Construire des modèles à partir de
textesJustification
- Pourquoi recourir aux textes ?
- Sources de connaissances (partagées et
stabilisées à lécrit) - Améliorent la lisibilité et la maintenance des
modèles - Complémentaires de lexpertise humaine
- Gain de temps, réduction des coûts
- Quels textes ? Nature et contenu des corpus
- Ensemble de textes choisis en fonction de
lapplication et de leurs caractéristiques
(contenu, genre textuel, date, auteurs, format,
etc.) - Documents techniques, documents didactiques,
retranscriptions dentretiens, informations
échangées par réseaux
34Quels outils danalyse de textes pour la
construction de modèles conceptuels ?
Textes
tal1
Modèle
Système dinformation Traitant des textes
tal2
Logiciels de traitement automatique des langues
TAL Partir des textes pour mieux y revenir
35Problématique du traitement de linformation
textuelle
CONCEPT
hémopéritoine
terme
texte
L'échographie abdominale retrouve une contusion
splénique et un hémopéritoine. Traumatisme
abdominal avec une fracture de rate et un
hémopéritoine abondant, ayant nécessité une
splénectomie en urgence. Un nouvel état de choc
apparaît associé à syndrome compartimentaire
abdominal (hémopéritoine hématome
rétropéritonéal)) justifiant la laparotomie
exploratrice. L'évacuation de l'hémopéritoine ne
permet pas de mettre en évidence une cause nette
au saignement Instabilité hémodynamique
initiale, avec TA 80 / 60 et fréquence cardiaque
à 120 / min en relation avec des pertes sanguines
sur les foyers de fractures (échographie
abdominale normale, absence d hémopéritoine ou
de lésion viscérale intrapéritonéale
évidente)).deux échographies abdominales
successives un hémopéritoine évolutif, sans
pneumopéritoine, ainsi qu'un décollement
péricardique postérieur.un traumatisme
thoraco-abdominal avec fracture des arcs
postérieurs des 7e, 8e et 9e côtes droites,
contusion hépatique au niveau des segments
VI-VII, hémopéritoine de moyenne abondance,
contusion splénique,Instabilité hémodynamique
nécessitant remplissage, transfusion de culots
globulaires, PFC et plaquettes dans le cadre d'un
hémopéritoine sur fracture du bassin.
36Traitement de linformation textuelle
RTO
CONCEPT
sevrage
(OBJET)
Noradrénaline
sevrage_Noradrénaline
sevrage en noradrénaline
sevrage de la noradrénaline
termes
sevrage Adj? deen la? noradrénaline
sevré de noradrénaline
patrons
noradrénaline être Adv? sevré
texte
sevrage en noradrénaline le 23 / 10. Stabilité
cardiorespiratoire, le sevrage de la
Noradrénaline est fait à J5 de la réintervention
et l'extubation est réalisée à J6. Evolution
favorable avec sevrage rapide en Noradrénaline le
20 / 06 / 99. Stabilité hémodynamique initiale
correcte avec sevrage progressif en Noradrénaline
obtenu à J3. Les suites du choc hypovolémique
hémorragique sont simples, avec sevrage de
noradrénaline à J3 et extubation à J2.
L'évolution est alors favorable avec Instauration
d'une corticothérapie ayant permis un sevrage
rapide de la Noradrénaline, La patiente est
sevrée de noradrénaline le 16 / 06 / 00. Le
patient est sevré de Noradrénaline le 13 / 05 /
00. La Noradrénaline est sevrée dans la nuit du
20 au 21 / 01. Après remplissage vasculaire par
1000 cc de Plasmion et 1000 cc d'Elohes, la
Noradrénaline est rapidement sevrée
37Panorama de logiciels pour extraire et structurer
- Une typologie fonctionnelle
- Extraction de concordances YAKWA, SATO
- Extraire des candidats termes. ex Syntex,
NOMINO, ANA - Extraire des relations candidates. Ex Prométhée,
Caméléon - Extraire des constructions prédicats / arguments
ASIUM, SVETLAN - Autres typologies
- Méthodes linguistique / méthodes statistiques
- Construction de RTO / mise à jour de RTO
- Phase damorçage / phase denrichissement
- Rappel il ne sagit pas de construction
automatique
381 . Extraction de concordances
- Fonction pour un patron donné, présenter toutes
les occurrences rassemblées - Niveau dannotation du corpus
- corpus nu uniquement forme (suite de mots)
- corpus étiqueté patrons morpho-syntaxique.
Exemples - nomverbe être indicatifarticle
indéfini - pronom personnel 1ère pers.verbe
indicatif dans déterminant
démonstratifNom
activité de construction d' un modèle de
connaissances , ou modélisation des solution
verticale comporte un modèle à la KADS , une
bibliothèque de composants A un stade
ultime , le modèle formel est , la plupart du
temps , connaissances en distinguant le modèle
conceptuel du modèle opérationnel du
monde ( on parle de modèle de produit ) et
objet de modélisation de le projet européen
KADS , le modèle conceptuel joue le rôle de
modèle originale , de créer un modèle
cognitif du futur système
39Exemple de logiciel dexploration de corpus
Yakwa
- Principes
- Requêtes basées sur la syntaxe et la sémantique
- Nécessite une corpus étiqueté (Tree Tagger
analyseur syntaxique) - Utilisation pour la recherche de relations entre
concepts - Aller chercher des indices lexicaux (marqueurs)
de relations sémantiques pour organiser les
concepts - Lien avec Caméléon utilisation de marqueurs
génériques pour relations EST-UN et PARTIE-DE
40Création de requêtes
41Interprétation des résultats
422 . Extraction de termes
- Fonction extraction et tri automatiques de
candidats termes - CT séquence susceptible dêtre retenue comme
étiquette de concept - Méthodes dextraction
- statistiques
- segments répétés
- information mutuelle
- morpho-syntaxiques
- repérage de patrons
- analyse syntaxique partielle
- Critères de tris numériques
- fréquence doccurrences dans le corpus
- productivité nombre de CT plus complexes dont
le CT est constituant
43Syntex analyse syntaxique et construction dun
réseau de syntagmes
- En entrée un corpus étiqueté
- Dans chaque phrase, à chaque mot est associée une
étiquette morphosyntaxique (Cordial, TreeTager) - En sortie 1) un corpus analysé syntaxiquement
- Dans chaque phrase, identification des relations
de dépendance syntaxique (sujet, complément
dobjet, épithète, ) entre les mots - En sortie 2) un réseau de syntagmes
- 1) De chaque phrase, extraction de syntagmes
verbaux, nominaux, adjectivaux - 2) Pour lensemble du corpus, construction dun
réseau de syntagmes structuré par les relations
Tête et Expansion
44Analyse syntaxique
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
Analyse syntaxique
OBJ
SUJ
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
452) Construction dun réseau de syntagmes
SUJ
OBJ
L érosion attaque un plan de faille
Extraction de syntagmes
faille
plan
T
E
plan de faille
attaquer
T tête E expansion
E
attaquer un plan de faille
plan nom ? plan de faille syntagme
nominal attaquer verbe ? attaquer un plan de
faille syntagme verbal
462) Construction dun réseau de syntagmes
attaquer pénéplaine pente raide
plan de faille roche sédimentaire
section anticlinale table karstique
plan de cisaillement de diaclase
de faille de glissement de
schistosité de stratification
T
T
faille escarpement
de ligne de plan de
E
47Données de lanalyse distributionnelle
Termes
Contextes
agent de létat agent de létat agent de létat agent agent agent formation professionnelle formation professionnelle formation professionnelle formation formation formation état professionnel ( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ ) ( bénéficier , SUJ ) ( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ ) ( bénéficier , SUJ ) ( agent de létat bénéficier , DE ) ( agent bénéficier , DE ) ( bénéficier , DE ) ( agent de létat bénéficier , DE ) ( agent bénéficier , DE ) ( bénéficier , DE ) ( agent , DE ) ( formation , ADJ )
48Mesures de similarité
- Productivité dun terme, dun contexte
Contextes pour le terme murmure vésiculaire Termes pour le contexte ( patient présenter , OBJ )
( abolir , OBJ ) ( abolir à gauche , OBJ ) ( abolition , DE ) ( diminuer , OBJ ) ( diminuer à gauche , OBJ ) ( diminution , DE ) ( percevoir , OBJ ) amyotrophie détresse douleur douleur thoracique dyspnée fièvre fracture hématome Syndrome
productivité 7 productivité 9
493 . Extraction de relations Caméleon
- La notion de marqueur
- Eléments lexico-syntaxiques permettant de repérer
une relation conceptuelle - Hypothèses
- Une même relation peut sexprimer par différents
marqueurs - Les relations peuvent dépendre du corpus
- Les marqueurs peuvent dépendre du corpus
- Corpus étiqueté en entrée, hypothèses de
relations en sortie - Modèle conceptuel enrichi de relations
conceptuelles
50Ajuster les marqueurs
- Sélectionner des relations et des marqueurs
génériques - ex hypéronymie (est-un)
- Det N1 est Det N2 (qui, adj, p.passé, p.présent)
- Tous les N2 sauf det N1
- Det N1 comme det N2
- Les évaluer en corpus
- Les adapter au corpus pour réduire le bruit et le
silence - Identifier patrons et relations spécifiques au
corpus - Par projection de couples de termes
- Par observation de contextes
- Par observation des résultats de Syntex
- ? On construit une base de marqueurs adaptés au
corpus
51Répérer des relations lexicales
Formule qui définit le marqueur
Phrases qui contiennent la forme et qui peuvent
contenir une relation (hypothèses)
Termes en relation que peuvent indiquer des
concepts reliés
52Repérage de relations avec Caméléon
Des hypothèses de relations aux Relations
conceptuelles
53Plan
- Ontologies et textes à BDA motivations
- Différentes facettes de la modélisation
conceptuelle - Ressources terminologiques et ontologiques
- Construire des modèles conceptuels à partir de
textes - Justification
- Panorama doutils pour lanalyse de textes
- Une méthode appliquée à une étude de cas le
projet verre
54Construire des modèles à partir de texte
Principes
- Exploiter les textes
- Partir des textes comme sources et supports de
connaissances - Utiliser des techniques et outils danalyse de
corpus basés sur des principes linguistes et
statistiques - Plonger le modèle conceptuel dans son contexte
linguistique conserver un lien du modèle vers
les textes - Poids de lapplication
- Lontologie est construite pour une application.
- Lapplication sinscrit dans une pratique
(domaine) - Lingénieur de la connaissance est un médiateur.
55Lontologue au centre
Ressources existantes
Domaine
Ressource Termino- Ontologique
Textes
tal
Application
56Une autre vue sur la méthode
Documents Techniques
Outils dAnalyse de Textes
2. Appliquer des outils danalyse de textes
Modèle
571. Constitution du corpus
- Choisir des documents
- Compromis entre représentativité (sujet, genre
textuel) ET taille - Trouver les documents les plus pertinents pour
lapplication - Mettre les documents au bon format
- Evaluer leur pertinence
- Décider de la manière de les traiter
- Identifier les groupes homogènes type de
document, sujet - Rendre compte de connaissances communes ou
différenciées - Opportunisme découpage en sous-corpus
58Constitution du corpus
Livre Vocabulaire technique procédés du verre
textile 10 chapitres 104132 mots
Brevets Vocabulaire technique des dépôts de
brevets 13 brevets 61272 mots
Veille Vocabulaire de la finance et économie 7
mois articles AFP 91658 mots
Vocabulaire générique du verre
563 noms et 59 SN
Entre 93 et 98 des SV et SN et plus de la moitié
des mots simples sont propres à chaque
sous-corpus.
- caractérisation rapide de la nature de ces
vocabulaires
592 . Etude terminologique
Documents techniques
- Extraction de termes mis en relation par Syntex
- Recherche de relations à laide de patrons avec
Yakwa - Fiches terminologiques dans Terminae et fiches
Concept-terminologique dans Excel - Liée à la normalisation
Outils danalyse de textes
Yakwa
Eléments dontologie
Terminae
60Représentation dans Terminae
613 . Normalisation
- Interprétation sémantique du contenu des textes
guidée par lexpertise et les besoins de
lapplication - Il est utopique (et coûteux) de vouloir TOUT
tirer des textes et seulement des textes. - Structurer gt Fixer un point de vue lié à
lapplication - 3 types dactivités
- Regroupements, généralisations, spécialisations
- Mêmes données, exploitées selon trois points de
vue.
62Recommandations pour la normalisation
- Des principes danalyse des textes
- Une démarche générale pour définir et organiser
des concepts (en 5 points) - Des principes de normalisation
63A - Principes danalyse des textes
- Deux axes pour caractériser les tâches effectuées
- Axe texte/modèle
- Data-driven du texte au modèle (dépouillement)
- Model-driven (fouille, recherche ciblée)
- Axe parcours au sein du modèle
- Ascendant regroupement, abstraction
- Descendant spécialisation, raffinement de
concepts - Centrifuge rayonnement autour de concepts
centraux - Des principes empiriques
64B - Démarche générale pour définir et organiser
des concepts
- Repérage de concepts centraux. Etude des termes
synonymes associés (démarche centrifuge) - Organisation hiérarchique concepts spécifiques
(fils) et génériques (pères) des concepts
centraux, relation EST_UN (démarche descendante
et ascendante). - Étude des autres types de relations associés à ce
concept - à partir de séquences de Syntex (démarche des
textes vers le modèle) - Mise en forme des marqueurs correspondants et
recherche avec Yakwa de couples de concepts
reliés par cette relation (du modèle vers les
textes) - Organisation des résultats dans TERMINAE
- Validation partielle par lexpertise
65C - Principes de normalisation
- Justifier la place dun concept dans lontologie
par les relations quil entretient avec les
autres concepts - Concept ou instance
- Différenciation des concepts
- Unicité de définition
- Homogénéité de point de vue
- Cohérence des descriptions
- Critères de normalisation
- Point commun entre 1 concept et son père
- Différence entre 1 concept et son père
- Points communs entre 1 concept et ses frères
- Différences entre un concept et ses frères
- Représentation à laide des relations et de
lhéritage
662 - Spécialisation et généralisation dun concept
- Exploitation des relations tête/expansion (on
cherche les mots dont process est en tête) - fiberizing process, manufacturing process,
industrial process, etc - Exploitation des verbes et formes nominales
- Gérondifs coating, drawings, moulding,
Manufacturing, fiberizing, washing, bushings - Étude des voisins dans Syntex et observation des
contextes quils partagent. - Process et processing
- Repérage de marqueurs spécifiques au corpus de la
relation générique/spécifique, comme EST-UN,
TYPE-DE - Process of manufacturing Nom complément
- process of manufacturing the glass yarns
- process for manufacturing thin profiles
- process for manufacturing the granules
672 et 3 - Etude des relations autour dun concept
- Des relations lexicales aux relations sémantiques
- Déterminer les concepts reliés et le type des
relations - Les représenter à laide de rôles ou de relations
EST-UN - Décider des propriétés des relations héritage,
- Des relations à une hiérarchie de concepts
- Différencier des concepts selon des critères
homogènes corps solide/corps liquide,
différents processus de fabrication - Relations révèlent des critères de
différentiation - Ajout de concepts non terminologiques
68Contenu du modèle
69Première structuration dans Excel
704 . Formalisation
- Nature de la formalisation
- Traduction en logique (concept ensemble de
relations, conditions nécessaires et suffisantes
pour sa définition) - Vérification de lunicité des définitions
- TERMINAE
- Représentation des connaissances en logique de
description - Formats dexportation standards (OIL, RDFs)
- Jusquoù formaliser ?
- Revenir à la demande
- Introduction de concepts, relations et règles
pour optimiser la représentation et lutilisation
qui en est faite (ex requêtes)
71Fibre de verre
72Conclusion
- Apport des ontologies
- Fondements ontologiques
- Formalisation
- Capacité de raisonnement
- Standards pour la représentation des
connaissances - Apport des ontologies à composante terminologique
- Retour vers les textes
- Documentation
- Acquérir des connaissances à partir de textes
- Méthodes éprouvées
- Outils mieux adaptés et plus disponibles
- Fondements des modèles sappuyant sur les usages
et les connaissances écrites, stabilisées dun
domaine
73Perspective mise à jour de modèles conceptuels
- Maintenance dun modèles, dune ontologie
- Retour dexpérience
- Mise à jour du corpus de référence
- La trace
- Il peut y avoir une distance importante entre les
résultats des outils et le modèle de type RTO - corpus ?? Termes ??? MC
- Le corpus est un des éléments de documentation
dun modèle - Termes de la RTO pont entre le réseau de
concepts et le corpus - Garder la trace des choix de validation et de
modélisation (positifs et négatifs) - Incrémentalité
- Utiliser la RTO construite pour faciliter
lanalyse du nouveau corpus par les outils de
TAL et par lontologue
74Des recherches à poursuivre
- Les applications en vraie grandeur sont
nécessaires pour faire avancer les recherches - La notion dontologie est intrinsèquement liée à
celle dapplication, dusage - Tester la faisabilité
- Identifier les verrous
- Retour sur investissement mettre en place des
expériences pour mesurer le ratio coût /gain - Remise en question des ontologies ?
75Bibliographie
- Acquisition à partir de textes
- Bourigault D., Aussenac-Gilles N., Charlet J.
Construction de ressources terminologiques ou
ontologiques à partir de textes un cadre
unificateur pour trois études de cas. Revue
dIntelligence Artificielle (RIA). Numéro spécial
sur les Terminologies. Slodzian M. (Ed.). Paris
Hermès. A paraître en 2004. - Aussenac-Gilles N., Biébow B., Szulman S.,
Modélisation du domaine par une méthode fondée
sur lanalyse de corpus. In Ingénierie des
Connaissances. R. Teullier, P. Tchounikine et J.
Charlet Eds. Paris Eyrolles. A paraître en
2003. - Bourigault D. Aussenac-Gilles N., Construction
d'ontologies à partir de textes, actes de la
10ème conférence sur le Traitement Automatique
des Langues Naturelles TALN2003, 11-14 juin 2003,
Batz-sur-mer, pp. 27-47 - Projet Verre
- N. Aussenac-Gilles and A. Busnel. Méthode de
construction à partir de textes dune ontologie
du domaine de lindustrie de la fibre de verre.
Rapport final, contrat de recherche entre IRIT et
Saint-Gobain Recherche. Rapport Interne
IRIT/2002-28-R. Sept. 2002. - PICSEL
- Reynaud C, M.C. Rousset, B. Safa (2002).
Construction de médiateurs pour intégrer des
sources dinformation multiples et hétérogènes
le projet PICSEL. Revue I3. N1. Vol. 1
Cépaduès-Editions. - Modélisation conceptuelle
- http//www.semanticweb.org/
- Engle P. Data modelling, left and right. The Data
Administration Newsletter. 2003.
http//www.TDAN.com/ - Guizzardi G., Herre H., Wagner G., On the General
Ontological Foudationsof Conceptual Modeling.
Proc. Of 21th Int. Conf. On Conceptual Modeling
(ER2002). Berlin SpringerVerlag, LNCS. 2002.