Structuration XML pour le text mining de donn - PowerPoint PPT Presentation

About This Presentation

Title:

Structuration XML pour le text mining de donn

Description:

Projet Alliances : rep rage de points de vues dans des forum lectroniques ... Analyste. Je veux les documents ayant trait la chaleur et au froid ... – PowerPoint PPT presentation

Number of Views:54

Avg rating:3.0/5.0

Slides: 51

Provided by: sta7532

Category:

more less

Transcript and Presenter's Notes

Title: Structuration XML pour le text mining de donn

1
Structuration XML pour le text mining de données
hétérogènes

Helka Folch
Groupe LIR (Langues, Information,
Représentations)
Département Communication Homme-Machine
LIMSI-CNRS - Orsay

2
Plan

Text mining de corpus hétérogènes
Accès sémantique aux documents hétérogènes le
sens varie
Architecture de corpus pour le text mining
Externaliser les annotations
Mémoriser les traitements
Topic Maps Articuler des points de vues
multiples sur un corpus
Projet Alliances repérage de points de vues
dans des forum électroniques
RDF Mise à plat et articulation des assertions
Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire
Conclusion

3
Besoin accès sémantique aux documents
Web sémantique (W3C) utopie d'une inter-langue
parfaite ?

Goldfarb ("Monsieur SGML") Topic Maps are the
GPS of the information universe
(Extreme Markup Languages Conference, 98)
Internet adressage univoque de ressources au
moyen d'URLs
Web sémantique ? langage univoque pour décrire
les événements de la Toile

Topic Maps (ISO13250) Modèle d'annotation pour
des cartes sémantiques navigables du Web

?
4
De l'univoque au mouvant

Travail de OASIS et de W3C (consortiums pour la
définition des standards du Web) définition de
nomenclatures univoques pour référencer des
régions (ISO 3166-2), des langues (ISO 639), des
aéroports (UN/LOCODE), etc.

5
Variation du sens 1/4
Les entités changent de sens selon le réseau où
elles figurent
Sugar Intersection de sens dans deux réseaux
mais divergences
Ontologie médicale (Mesh)
Réseau sémantique lexical généraliste (WordNet)
6
Variation du sens 2/4
Mesh

sweetinng
sweetener

organic compound

WordNet

carbohydrate
saccharide
sugar

sugar
refined sugar

Synset

sugarloaf
sugar loaf
loaf sugar

polysaccharide
polyose

wood sugar
xylose

lump sugar

cane sugar

7
Variation du sens 3/4
MeSH
Analytical, Diagnostic and Therapeutic Techniques
and Equipment
Chemicals and Drugs
Psychiatry and Psychology
Anatomy
Organisms
WordNet
Enzymes, Coenzymes, and Enzyme Inhibitors
Carbohydrates and Hypoglycemic Agents
Organic Chemicals
Carbohydrates
Enzymes
Carboxylic Acids
Alcohols
Amino Sugars
Glycosides
Oxidoreductases
Nucleotides
Sugar Alcohols
Alcohol Oxidoreductases
Acids, Acyclic
Nucleoside Diphosphate Sugars
Carbohydrate Dehydrogenases
Sugar Acids
Adenosine Diphosphate Sugars
Sugar Alcohol Dehydrogenases
1
8
Variation du sens 4/4

Variation du sens dans les forums planétaires
(Projet Alliances)
- Associations (via Zellig) des synonymes de
monnaie alternative' "troc" et "monnaie
sociale", selon l'origine des intervenants

impôt
compte
impôt
flux
hyperinflation
socioéconomie_solidaire
imaginaire
économie_solidaire
instrument
fortune
monnaie sociale
monnaie sociale
paiement
pratique
système
résistance
compte
aide
échange
gestion
Vision économique
Europe
Vision sociale
Argentine
Zellig (Habert, 98) logiciel qui vise à dégager
les classes sémantiques d'un corpus sur la base
des dépendances syntaxiques partagées entre les
mots.
9
Text mining de corpus hétérogènes une approche
inductive

Corpus hétérogènes et évolutifs
Plusieurs points de vues sont représentés (pas
forcément de convergence sur le sens des mots)
Les points de vues peuvent évoluer (corpus de
veille)

? Absence dontologies pré-existantes applicables
Approche inductive
10
Plan

Text mining de corpus hétérogènes
Accès sémantique aux documents hétérogènes le
sens varie
Architecture de corpus pour le text mining
Externaliser les annotations
Mémoriser les traitements
Topic Maps Articuler des points de vues
multiples sur un corpus
Projet Alliances
RDF Mise à plat et articulation des assertions
Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire
Conclusion

11
Architecture de corpus pour le text mining de
données hétérogènes

Constituer des corpus selon un point de vue donné
à partir dobjets textuels de granularité
variable
Garder la trace des critères de constitution d'un
corpus
Garder la trace des traitements sur un corpus
et leurs liens aux documents de départ
Articuler sur la collection documentaire les
résultats pas forcément convergents obtenus avec
des traitements variés sur des corpus distincts
provenant de cette même collection.

12
Plan

Text mining de corpus hétérogènes
Accès sémantique aux documents hétérogènes le
sens varie
Architecture de corpus pour le text mining
Externaliser les annotations
Mémoriser les traitements
Topic Maps Articuler des points de vues
multiples sur un corpus
Projet Alliances
RDF Mise à plat et articulation des assertions
Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire
Conclusion

13
Topic Maps Articuler des points de vues
multiples sur un corpus

Projet Alliances (2001-2003)
(Claude Henry, Dépt. CHM, LIMSI)
projet RNRT (LIMSI, LIP6, XEROX, FPH)
Objectif étude des convergences et divergences
de points de vues dans des réseaux associatifs
distribués.

14
Besoin d'un format d'annotation "externalisant"
1/5

HyTime (ISO/IEC 107441997) format de
documents structurés multimédia

Origines
- langage SGML de description musicale
- description d'un opéra
Objectif
- synchroniser des objets sur des flux spatiaux
et temporels multiples

Topic Maps (ISO 13250) Modèle d'annotation
pour définir des cartes sémantiques
navigables XTM (ISO 132502000) portage de
Topic Maps en XML
(Paroles, etc.)
15
Besoin d'un format d'annotation "externalisant"
2/5

Synchroniser plusieurs flux d'annotation
éventuellement divergents

Participant1
Forum du projet Alliances
Pays d'origine4
Participant3
Pays d'origine
Participants
Messages
Jours
Jour2
Jour3
jour1
Jour4
16
Besoin d'un format d'annotation "externalisant"
3/5

Notion de lien indépendant (HyTime) stocké
séparément des ressources qu'il relie

Notion de topic (Topic Maps) lien indépendant
qui regroupe des localisations du corpus autour
d'un même sujet

Définition des liens séparée des ressources
reliées permet de modifier les liens sans
modifier les documents eux-mêmes

Participant1
17
Besoin d'un format d'annotation "externalisant"
4/5
Permet de faire coexister des annotations
concurrentes sur les mêmes données
SEGMENTATION2
SEGMENTATION1
Segment1
Segment1
Segment2
Segment2
Segment3
Segment3
Segment3
Segment4
Segment5
Segment6
Segment7
Je ne m ' étais pas occupée
18
Besoin d'un format d'annotation "externalisant"
5/5

Les annotations concurrentes peuvent former des
hiérarchies enchevêtrées.
Si elles ne sont pas externalisées, la structure
d'arborescence stricte d'un document XML
l'interdit

SEGMENTATION2
SEGMENTATION1
Segment1
Segment2
Segment1
Segment2
Flux de données

Les liens indépendants dans les annotations
externes peuvent être à destination multiple
(versus liens point à point dans HTML)

permet l'adressage d'objets discontinus

Segment1
Segment2
je ne m'étais pas occupée
19
Recursivité de lannotation

Le résultat d'un traitement peut lui-même être
annoté par un autre traitement

3 Mise en évidence des sur et sous emplois
relatifs des classes des clusterings (Lexico)
Spécificités
Cluster1
Spécificités
Cluster2
2 Clustering (CHA) des parties (les participants)
en R
Participant1
Participant4
Participant5
1 Création d'un corpus partitionné (par
participant) à partir de la signalétique
Participant3
Fiches
20
Mémoriser les traitements

Garder la trace des critères de constitution
d'un corpus et des traitements réalisés
(paramètres)

scope
Spécificités
Cluster1
Spécificités
Cluster2
scope
Clustering R paramètres ...
Participant1
Participant4
Participant5

Notion de scope dans Topic Maps permet de
définir le contexte des propriétés d'un topic

Participant3
Fiches
21
Revenir des traitements et des résultats aux
corpus d'origine
Contextes élémentaires
scope
EXTRACTION
scope
- Paramètres d'extraction (Pays dorigine 2
4) - Hypothèses de constitution du corpus
Corpus
Pays d'origine
Participants
Messages
Jours
jour3
jour7
jour1
jour15
22
Navigation mot -gt contexte élémentaire -gt co-texte
visualiseur de Topic Maps Omnigator
(http//www.ontopia.net)
Type du topic
Nom du topic
Scope ou contexte
Référence dans le corpus
Propriété du topic le contexte élémentaire
23
Plan

Text mining de corpus hétérogènes
Accès sémantique aux documents hétérogènes le
sens varie
Architecture de corpus pour le text mining
Externaliser les annotations
Mémoriser les traitements
Topic Maps Articuler des points de vues
multiples sur un corpus
Projet Alliances
RDF Mise à plat et articulation des assertions
Projet P000f (EDF) ré-utilisation de données
pour lanalyse secondaire
Conclusion

24
Structuration RDF pour lanalyse secondaire

Projet de collaboration EDF RD-LIMSI CNRS
Fouille de données complexes et visualisation
dinformation (Projet P000f) 2003-2005
Equipes
SOAD (Statistiques Optimisation et Aide à la
Décision) EDF RD
Sylvaine Nugier, Marie-Luce Picard, Yasmina
Quatrain
CHM (Communication homme-machine) LIMSI CNRS
Helka Folch, Benoît Habert, Christian Jacquemin,
Frédéric Vernier

25
Problématique de la fouille de données complexes
à EDF
multi-relationnelles
multi-sources
26
Problématique Début de solution lanalyse
secondaire

Lanalyse secondaire comme définie et pratiquée à
EDF réutiliser des données déjà capitalisées
avec des objectifs danalyse qui ne sont pas ceux
pour lesquels elles étaient initialement
collectées
Le recours à lanalyse secondaire est motivé par
les coûts
les gains méthodologiques apportés
Des précautions méthodologiques
la mise à disposition des traces du contexte de
lanalyse initiale, des stratégies, des
hypothèses danalyse en plus des données brutes.

27
Problématique Périmètre des travaux

Les travaux décrits aujourdhui portent
uniquement sur la réutilisation de données
contenant du texte
Approche multi-métier sociologues,
data-miners et chargés détude marketing
Sources de données traitées
Bases de capitalisation dentretiens
Forums de discussion
Enquêtes de satisfaction
Absence dhypothèse de départ
Absence dontologie

28
Architecture globale
TROIE
Dixit
Forum DD

Structuration de données
Données Brutes
Données Structurées
Analyse et fouille de données complexes
Alceste et Temis
Importation Et Annotation
Recherche
Filtrage
Exportation
ACHILLES
29
Choix technique RDF Articuler des assertions
sur les métadonnées

Langage défini par le consortium W3C
(www.w3.org)

Brique de base le triplet ltressourcegtltpropriétégt
ltvaleurgt.
lthttp//www.forumDD.org/msg1.htm, titre,
"lénergie éolien"gt
lthttp//www.forumDD.org/msg1.htm, date, "12/4/99"
gt
lthttp//www.forumDD.org/msg1.htm, message_père,
http//www.forumDD.org/msg2.htm gt

30
Du graphe RDF à la syntaxe XML
http//www.forumDD.org/msg1.htm
message_père
titre
http//www.forumDD.org/msg2.htm
date
lénergie éolien
12/4/99
Valeur littérale
Ressource
lt?xml version"1.0"?gt ltrdfRDF
xmlnsrdf"http//www.w3.org/1999/02/22-rdf-syntax
-ns" ltrdfDescription rdfabout"
http//www.forumDD.org/msg1.htm"gt lttitregt
lenergie éolien lt/titregt ltdategt12/4/1999lt/date
gt ltmessage_pèregt http//www.forumDD.org/msg2.ht
m lt/message_pèregt lt/rdfDescriptiongt
lt/rdfRDFgt
31
Structuration TROIE 1/4
FILE Intitule Structure de l'offre destinée
aux clients résidentiels f_DateFinEtude
07/10/2001 ReferenceMKM STUDEO 13109 valmeth
1 Entretien individuel,2 Table ronde - Entretiens
de groupe valmetbis 1 Entretien
individuel intext Externe demographie
Particuliers MarcheAff Particuliers Marcheseg
Particuliers sexe1 femme sexbis age1
53 agbis csp secrétaire de direction cspbis
nombre1 effectif1 stat
propiétaire maison maison chiffre_1
principale chauffage gaz energie1
électricité,gaz tarif1 base codepostal1
35740 Doc_Type Fiche signalétique
d'entretien ValeurMethod Entretien
individuel logtab 1 yn Externe segment
Particuliers
E Vous choisiriez le gaz ? P Oui, je pense.
Si je devais faire une installation dans ma
propre maison ce serait plutôt vers le gaz que je
me dirigerais. E A cause du coût ? P Oui
voilà.. A cause du coût et de la chaleur. La
chaleur nest pas la même. Peut-être que
maintenant les installations sont plus
performantes mais.. E En tout cas vous leur
demanderiez sil ny a pas une autre chaleur
électrique ? P Oui, jessaierais de voir sil
ny a pas une autre solution. Je vois quà la
maison, en plein hiver les chauffages sont
pratiquement mis à fond et on na pas
limpression davoir chaud. La maison est très
bien isolée, ce nest pas ça.. En plus on a une
dalle chauffante, au rez-de-chaussée, qui est
allumée en permanence et par rapport à ça, on
arrive sans allumer les convecteurs à une
température constante de 19. Ce qui est bien.
Dans la journée on éteint les convecteurs
puisquil ny a personne et la température de la
dalle maintien un minimum de chaleur. Cest
surtout sur ce point là que jinsisterais. E
Donc, si nouveau fournisseur, vous lui poseriez
quoi, comme question ? P Je leur demanderais de
prouver, par A plus B, que la chaleur électrique
est aussi performante que celle au gaz, au niveau
confort.
32
RDF Séparation des données et des métadonnées
Structuration TROIE 2/4
33
RDF Validation par rapport à un schéma ou
vocabulaire
TROIE 3/4
ltrdfDescription rdfabout"file///ex_dixit/entr
etien_12_12"gt ltrdftype rdfresource"file///
schema_p00f/dixit.rdfentretien"/gt
ltdixitentretien_brutgtex_dixit/data/entretien_12_1
2.xmllt/dixitentretien_brutgt
ltdixitsegment_de_marchegtPME-PMIlt/dixitsegment_de
_marchegt ltdixitdonneesLogementgt
ltdixitmaisongtfalselt/dixitmaisongt
ltdixitproprietairegtfalselt/dixitproprietairegt
ltdixitprincipalegttruelt/dixitprincipalegt
ltrdftype rdfresource"file///schema_p00f/dix
it.rdfdonneesLogement"/gt ltdixitdonneesLogemen
tgt lt/rdfDescriptiongt
Instance
Espace de nom
ltrdfRDF xmlnsrdf "http//www.w3.org/1999/02/22-
rdf-syntax-ns" xmlnsrdfs"http//www.w3.org/2000
/01/rdf-schema" xmlbase "file///schema_p00f/d
ixit.rdf"gt ltrdfsClass rdfID"donneesLogemen
t"/gt ltrdfProperty rdfID"proprietaire"gt
ltrdfsdomain rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt ltrdfProperty
rdfID"maison"gt ltrdfsdomain
rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt ltrdfProperty
rdfID"principale"gt ltrdfsdomain
rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt
Schema
Nom du schéma
Contrainte sur le type de données
34
Structuration TROIE 4/4
35
Une journée dans la vie dune étude ACHILLES
1. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
36
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
37
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
38
3. Requêtage et filtrage
39
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
40
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
41
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
42
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
43
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
44
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
45
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
46
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
47
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Espaces de noms RDF
Production des résultats
Structuration
Analyse_1.rdf
48
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
49
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
50
Conclusion Topic Maps vs RDF pour le text mining

Topic Maps et RDF permettent
Gérer séparément données et méta-données
Annoter des données de granularité variable
Réifier les annotations
Définir des schémas ou vocabulaires spécifiques
validables
Topic Maps est plus adapté à la navigation
RDF est plus adapté au requêtage
Plus de maturité des logiciels disponibles pour
RDF
Jena Java RDF API
IsaViz (pour visualiser et éditer les graphes
RDF)
RDFDB (BD qui supporte RDF et le langage de
requêtes RDFQL)
Ni Topic Maps ni RDF résolvent le problème de la
normalisation sémantique des méta-données,
seulement la normalisation syntaxique