Title: Structuration XML pour le text mining de donn
1Structuration XML pour le text mining de données
hétérogènes
- Helka Folch
- Groupe LIR (Langues, Information,
Représentations) - Département Communication Homme-Machine
- LIMSI-CNRS - Orsay
2Plan
- Text mining de corpus hétérogènes
- Accès sémantique aux documents hétérogènes le
sens varie - Architecture de corpus pour le text mining
- Externaliser les annotations
- Mémoriser les traitements
- Topic Maps Articuler des points de vues
multiples sur un corpus - Projet Alliances repérage de points de vues
dans des forum électroniques - RDF Mise à plat et articulation des assertions
- Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire - Conclusion
3Besoin accès sémantique aux documents
Web sémantique (W3C) utopie d'une inter-langue
parfaite ?
- Goldfarb ("Monsieur SGML") Topic Maps are the
GPS of the information universe - (Extreme Markup Languages Conference, 98)
- Internet adressage univoque de ressources au
moyen d'URLs - Web sémantique ? langage univoque pour décrire
les événements de la Toile -
- Topic Maps (ISO13250) Modèle d'annotation pour
des cartes sémantiques navigables du Web
?
4De l'univoque au mouvant
- Travail de OASIS et de W3C (consortiums pour la
définition des standards du Web) définition de
nomenclatures univoques pour référencer des
régions (ISO 3166-2), des langues (ISO 639), des
aéroports (UN/LOCODE), etc.
5Variation du sens 1/4
Les entités changent de sens selon le réseau où
elles figurent
Sugar Intersection de sens dans deux réseaux
mais divergences
Ontologie médicale (Mesh)
Réseau sémantique lexical généraliste (WordNet)
6Variation du sens 2/4
Mesh
WordNet
- carbohydrate
- saccharide
- sugar
Synset
- sugarloaf
- sugar loaf
- loaf sugar
7Variation du sens 3/4
MeSH
Analytical, Diagnostic and Therapeutic Techniques
and Equipment
Chemicals and Drugs
Psychiatry and Psychology
Anatomy
Organisms
WordNet
Enzymes, Coenzymes, and Enzyme Inhibitors
Carbohydrates and Hypoglycemic Agents
Organic Chemicals
Carbohydrates
Enzymes
Carboxylic Acids
Alcohols
Amino Sugars
Glycosides
Oxidoreductases
Nucleotides
Sugar Alcohols
Alcohol Oxidoreductases
Acids, Acyclic
Nucleoside Diphosphate Sugars
Carbohydrate Dehydrogenases
Sugar Acids
Adenosine Diphosphate Sugars
Sugar Alcohol Dehydrogenases
1
8Variation du sens 4/4
- Variation du sens dans les forums planétaires
(Projet Alliances) - - Associations (via Zellig) des synonymes de
monnaie alternative' "troc" et "monnaie
sociale", selon l'origine des intervenants
impôt
compte
impôt
flux
hyperinflation
socioéconomie_solidaire
imaginaire
économie_solidaire
instrument
fortune
monnaie sociale
monnaie sociale
paiement
pratique
système
résistance
compte
aide
échange
gestion
Vision économique
Europe
Vision sociale
Argentine
Zellig (Habert, 98) logiciel qui vise à dégager
les classes sémantiques d'un corpus sur la base
des dépendances syntaxiques partagées entre les
mots.
9Text mining de corpus hétérogènes une approche
inductive
- Corpus hétérogènes et évolutifs
- Plusieurs points de vues sont représentés (pas
forcément de convergence sur le sens des mots) - Les points de vues peuvent évoluer (corpus de
veille)
? Absence dontologies pré-existantes applicables
Approche inductive
10Plan
- Text mining de corpus hétérogènes
- Accès sémantique aux documents hétérogènes le
sens varie - Architecture de corpus pour le text mining
- Externaliser les annotations
- Mémoriser les traitements
- Topic Maps Articuler des points de vues
multiples sur un corpus - Projet Alliances
- RDF Mise à plat et articulation des assertions
- Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire - Conclusion
11Architecture de corpus pour le text mining de
données hétérogènes
- Constituer des corpus selon un point de vue donné
à partir dobjets textuels de granularité
variable - Garder la trace des critères de constitution d'un
corpus - Garder la trace des traitements sur un corpus
et leurs liens aux documents de départ - Articuler sur la collection documentaire les
résultats pas forcément convergents obtenus avec
des traitements variés sur des corpus distincts
provenant de cette même collection.
12Plan
- Text mining de corpus hétérogènes
- Accès sémantique aux documents hétérogènes le
sens varie - Architecture de corpus pour le text mining
- Externaliser les annotations
- Mémoriser les traitements
- Topic Maps Articuler des points de vues
multiples sur un corpus - Projet Alliances
- RDF Mise à plat et articulation des assertions
- Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire - Conclusion
13Topic Maps Articuler des points de vues
multiples sur un corpus
- Projet Alliances (2001-2003)
- (Claude Henry, Dépt. CHM, LIMSI)
- projet RNRT (LIMSI, LIP6, XEROX, FPH)
- Objectif étude des convergences et divergences
de points de vues dans des réseaux associatifs
distribués.
14Besoin d'un format d'annotation "externalisant"
1/5
- HyTime (ISO/IEC 107441997) format de
documents structurés multimédia -
- Origines
- - langage SGML de description musicale
- - description d'un opéra
- Objectif
- - synchroniser des objets sur des flux spatiaux
et temporels multiples
Topic Maps (ISO 13250) Modèle d'annotation
pour définir des cartes sémantiques
navigables XTM (ISO 132502000) portage de
Topic Maps en XML
(Paroles, etc.)
15Besoin d'un format d'annotation "externalisant"
2/5
- Synchroniser plusieurs flux d'annotation
éventuellement divergents
Participant1
Forum du projet Alliances
Pays d'origine4
Participant3
Pays d'origine
Participants
Messages
Jours
Jour2
Jour3
jour1
Jour4
16Besoin d'un format d'annotation "externalisant"
3/5
- Notion de lien indépendant (HyTime) stocké
séparément des ressources qu'il relie
- Notion de topic (Topic Maps) lien indépendant
qui regroupe des localisations du corpus autour
d'un même sujet
- Définition des liens séparée des ressources
reliées permet de modifier les liens sans
modifier les documents eux-mêmes
Participant1
17Besoin d'un format d'annotation "externalisant"
4/5
Permet de faire coexister des annotations
concurrentes sur les mêmes données
SEGMENTATION2
SEGMENTATION1
Segment1
Segment1
Segment2
Segment2
Segment3
Segment3
Segment3
Segment4
Segment5
Segment6
Segment7
Je ne m ' étais pas occupée
18Besoin d'un format d'annotation "externalisant"
5/5
- Les annotations concurrentes peuvent former des
hiérarchies enchevêtrées. - Si elles ne sont pas externalisées, la structure
d'arborescence stricte d'un document XML
l'interdit
SEGMENTATION2
SEGMENTATION1
Segment1
Segment2
Segment1
Segment2
Flux de données
- Les liens indépendants dans les annotations
externes peuvent être à destination multiple
(versus liens point à point dans HTML)
- permet l'adressage d'objets discontinus
Segment1
Segment2
je ne m'étais pas occupée
19Recursivité de lannotation
- Le résultat d'un traitement peut lui-même être
annoté par un autre traitement
3 Mise en évidence des sur et sous emplois
relatifs des classes des clusterings (Lexico)
Spécificités
Cluster1
Spécificités
Cluster2
2 Clustering (CHA) des parties (les participants)
en R
Participant1
Participant4
Participant5
1 Création d'un corpus partitionné (par
participant) à partir de la signalétique
Participant3
Fiches
20Mémoriser les traitements
- Garder la trace des critères de constitution
d'un corpus et des traitements réalisés
(paramètres)
scope
Spécificités
Cluster1
Spécificités
Cluster2
scope
Clustering R paramètres ...
Participant1
Participant4
Participant5
- Notion de scope dans Topic Maps permet de
définir le contexte des propriétés d'un topic
Participant3
Fiches
21Revenir des traitements et des résultats aux
corpus d'origine
Contextes élémentaires
scope
EXTRACTION
scope
- Paramètres d'extraction (Pays dorigine 2
4) - Hypothèses de constitution du corpus
Corpus
Pays d'origine
Participants
Messages
Jours
jour3
jour7
jour1
jour15
22Navigation mot -gt contexte élémentaire -gt co-texte
visualiseur de Topic Maps Omnigator
(http//www.ontopia.net)
Type du topic
Nom du topic
Scope ou contexte
Référence dans le corpus
Propriété du topic le contexte élémentaire
23Plan
- Text mining de corpus hétérogènes
- Accès sémantique aux documents hétérogènes le
sens varie - Architecture de corpus pour le text mining
- Externaliser les annotations
- Mémoriser les traitements
- Topic Maps Articuler des points de vues
multiples sur un corpus - Projet Alliances
- RDF Mise à plat et articulation des assertions
- Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire - Conclusion
24Structuration RDF pour lanalyse secondaire
- Projet de collaboration EDF RD-LIMSI CNRS
- Fouille de données complexes et visualisation
dinformation (Projet P000f) 2003-2005 - Equipes
- SOAD (Statistiques Optimisation et Aide à la
Décision) EDF RD - Sylvaine Nugier, Marie-Luce Picard, Yasmina
Quatrain - CHM (Communication homme-machine) LIMSI CNRS
- Helka Folch, Benoît Habert, Christian Jacquemin,
Frédéric Vernier
25Problématique de la fouille de données complexes
à EDF
multi-relationnelles
multi-sources
26Problématique Début de solution lanalyse
secondaire
- Lanalyse secondaire comme définie et pratiquée à
EDF réutiliser des données déjà capitalisées
avec des objectifs danalyse qui ne sont pas ceux
pour lesquels elles étaient initialement
collectées - Le recours à lanalyse secondaire est motivé par
- les coûts
- les gains méthodologiques apportés
- Des précautions méthodologiques
- la mise à disposition des traces du contexte de
lanalyse initiale, des stratégies, des
hypothèses danalyse en plus des données brutes.
27Problématique Périmètre des travaux
- Les travaux décrits aujourdhui portent
uniquement sur la réutilisation de données
contenant du texte - Approche multi-métier sociologues,
data-miners et chargés détude marketing - Sources de données traitées
- Bases de capitalisation dentretiens
- Forums de discussion
- Enquêtes de satisfaction
- Absence dhypothèse de départ
- Absence dontologie
28Architecture globale
TROIE
Dixit
Forum DD
Structuration de données
Données Brutes
Données Structurées
Analyse et fouille de données complexes
Alceste et Temis
Importation Et Annotation
Recherche
Filtrage
Exportation
ACHILLES
29Choix technique RDF Articuler des assertions
sur les métadonnées
- Langage défini par le consortium W3C
(www.w3.org)
- Brique de base le triplet ltressourcegtltpropriétégt
ltvaleurgt. - lthttp//www.forumDD.org/msg1.htm, titre,
"lénergie éolien"gt - lthttp//www.forumDD.org/msg1.htm, date, "12/4/99"
gt - lthttp//www.forumDD.org/msg1.htm, message_père,
http//www.forumDD.org/msg2.htm gt
30Du graphe RDF à la syntaxe XML
http//www.forumDD.org/msg1.htm
message_père
titre
http//www.forumDD.org/msg2.htm
date
lénergie éolien
12/4/99
Valeur littérale
Ressource
lt?xml version"1.0"?gt ltrdfRDF
xmlnsrdf"http//www.w3.org/1999/02/22-rdf-syntax
-ns" ltrdfDescription rdfabout"
http//www.forumDD.org/msg1.htm"gt lttitregt
lenergie éolien lt/titregt ltdategt12/4/1999lt/date
gt ltmessage_pèregt http//www.forumDD.org/msg2.ht
m lt/message_pèregt lt/rdfDescriptiongt
lt/rdfRDFgt
31Structuration TROIE 1/4
FILE Intitule Structure de l'offre destinée
aux clients résidentiels f_DateFinEtude
07/10/2001 ReferenceMKM STUDEO 13109 valmeth
1 Entretien individuel,2 Table ronde - Entretiens
de groupe valmetbis 1 Entretien
individuel intext Externe demographie
Particuliers MarcheAff Particuliers Marcheseg
Particuliers sexe1 femme sexbis age1
53 agbis csp secrétaire de direction cspbis
nombre1 effectif1 stat
propiétaire maison maison chiffre_1
principale chauffage gaz energie1
électricité,gaz tarif1 base codepostal1
35740 Doc_Type Fiche signalétique
d'entretien ValeurMethod Entretien
individuel logtab 1 yn Externe segment
Particuliers
E Vous choisiriez le gaz ? P Oui, je pense.
Si je devais faire une installation dans ma
propre maison ce serait plutôt vers le gaz que je
me dirigerais. E A cause du coût ? P Oui
voilà.. A cause du coût et de la chaleur. La
chaleur nest pas la même. Peut-être que
maintenant les installations sont plus
performantes mais.. E En tout cas vous leur
demanderiez sil ny a pas une autre chaleur
électrique ? P Oui, jessaierais de voir sil
ny a pas une autre solution. Je vois quà la
maison, en plein hiver les chauffages sont
pratiquement mis à fond et on na pas
limpression davoir chaud. La maison est très
bien isolée, ce nest pas ça.. En plus on a une
dalle chauffante, au rez-de-chaussée, qui est
allumée en permanence et par rapport à ça, on
arrive sans allumer les convecteurs à une
température constante de 19. Ce qui est bien.
Dans la journée on éteint les convecteurs
puisquil ny a personne et la température de la
dalle maintien un minimum de chaleur. Cest
surtout sur ce point là que jinsisterais. E
Donc, si nouveau fournisseur, vous lui poseriez
quoi, comme question ? P Je leur demanderais de
prouver, par A plus B, que la chaleur électrique
est aussi performante que celle au gaz, au niveau
confort.
32RDF Séparation des données et des métadonnées
Structuration TROIE 2/4
33RDF Validation par rapport à un schéma ou
vocabulaire
TROIE 3/4
ltrdfDescription rdfabout"file///ex_dixit/entr
etien_12_12"gt ltrdftype rdfresource"file///
schema_p00f/dixit.rdfentretien"/gt
ltdixitentretien_brutgtex_dixit/data/entretien_12_1
2.xmllt/dixitentretien_brutgt
ltdixitsegment_de_marchegtPME-PMIlt/dixitsegment_de
_marchegt ltdixitdonneesLogementgt
ltdixitmaisongtfalselt/dixitmaisongt
ltdixitproprietairegtfalselt/dixitproprietairegt
ltdixitprincipalegttruelt/dixitprincipalegt
ltrdftype rdfresource"file///schema_p00f/dix
it.rdfdonneesLogement"/gt ltdixitdonneesLogemen
tgt lt/rdfDescriptiongt
Instance
Espace de nom
ltrdfRDF xmlnsrdf "http//www.w3.org/1999/02/22-
rdf-syntax-ns" xmlnsrdfs"http//www.w3.org/2000
/01/rdf-schema" xmlbase "file///schema_p00f/d
ixit.rdf"gt ltrdfsClass rdfID"donneesLogemen
t"/gt ltrdfProperty rdfID"proprietaire"gt
ltrdfsdomain rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt ltrdfProperty
rdfID"maison"gt ltrdfsdomain
rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt ltrdfProperty
rdfID"principale"gt ltrdfsdomain
rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt
Schema
Nom du schéma
Contrainte sur le type de données
34Structuration TROIE 4/4
35Une journée dans la vie dune étude ACHILLES
1. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
363. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
373. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
383. Requêtage et filtrage
393. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
403. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
413. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
423. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
433. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
443. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
453. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
463. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
473. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Espaces de noms RDF
Production des résultats
Structuration
Analyse_1.rdf
483. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
493. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
50 Conclusion Topic Maps vs RDF pour le text mining
- Topic Maps et RDF permettent
- Gérer séparément données et méta-données
- Annoter des données de granularité variable
- Réifier les annotations
- Définir des schémas ou vocabulaires spécifiques
validables - Topic Maps est plus adapté à la navigation
- RDF est plus adapté au requêtage
- Plus de maturité des logiciels disponibles pour
RDF - Jena Java RDF API
- IsaViz (pour visualiser et éditer les graphes
RDF) - RDFDB (BD qui supporte RDF et le langage de
requêtes RDFQL) - Ni Topic Maps ni RDF résolvent le problème de la
normalisation sémantique des méta-données,
seulement la normalisation syntaxique
Mais !!