Structuration XML pour le text mining de donn - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Structuration XML pour le text mining de donn

Description:

Projet Alliances : rep rage de points de vues dans des forum lectroniques ... Analyste. Je veux les documents ayant trait la chaleur et au froid ... – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 51
Provided by: sta7532
Category:

less

Transcript and Presenter's Notes

Title: Structuration XML pour le text mining de donn


1
Structuration XML pour le text mining de données
hétérogènes
  • Helka Folch
  • Groupe LIR (Langues, Information,
    Représentations)
  • Département Communication Homme-Machine
  • LIMSI-CNRS - Orsay

2
Plan
  • Text mining de corpus hétérogènes
  • Accès sémantique aux documents hétérogènes le
    sens varie
  • Architecture de corpus pour le text mining
  • Externaliser les annotations
  • Mémoriser les traitements
  • Topic Maps Articuler des points de vues
    multiples sur un corpus
  • Projet Alliances repérage de points de vues
    dans des forum électroniques
  • RDF Mise à plat et articulation des assertions
  • Projet P000f (EDF) ré-utilisation de données
    pour lanalyse secondaire
  • Conclusion

3
Besoin accès sémantique aux documents
Web sémantique (W3C) utopie d'une inter-langue
parfaite ?
  • Goldfarb ("Monsieur SGML") Topic Maps are the
    GPS of the information universe
  • (Extreme Markup Languages Conference, 98)
  • Internet adressage univoque de ressources au
    moyen d'URLs
  • Web sémantique ? langage univoque pour décrire
    les événements de la Toile
  • Topic Maps (ISO13250) Modèle d'annotation pour
    des cartes sémantiques navigables du Web

?
4
De l'univoque au mouvant
  • Travail de OASIS et de W3C (consortiums pour la
    définition des standards du Web) définition de
    nomenclatures univoques pour référencer des
    régions (ISO 3166-2), des langues (ISO 639), des
    aéroports (UN/LOCODE), etc.

5
Variation du sens 1/4
Les entités changent de sens selon le réseau où
elles figurent
Sugar Intersection de sens dans deux réseaux
mais divergences
Ontologie médicale (Mesh)
Réseau sémantique lexical généraliste (WordNet)
6
Variation du sens 2/4
Mesh
  • sweetinng
  • sweetener
  • organic compound

WordNet
  • carbohydrate
  • saccharide
  • sugar
  • sugar
  • refined sugar

Synset
  • sugarloaf
  • sugar loaf
  • loaf sugar
  • polysaccharide
  • polyose
  • wood sugar
  • xylose
  • lump sugar 
  • cane sugar 

7
Variation du sens 3/4
MeSH
Analytical, Diagnostic and Therapeutic Techniques
and Equipment
Chemicals and Drugs
Psychiatry and Psychology
Anatomy
Organisms
WordNet
Enzymes, Coenzymes, and Enzyme Inhibitors
Carbohydrates and Hypoglycemic Agents
Organic Chemicals
Carbohydrates
Enzymes
Carboxylic Acids
Alcohols
Amino Sugars
Glycosides
Oxidoreductases
Nucleotides
Sugar Alcohols
Alcohol Oxidoreductases
Acids, Acyclic
Nucleoside Diphosphate Sugars
Carbohydrate Dehydrogenases
Sugar Acids
Adenosine Diphosphate Sugars
Sugar Alcohol Dehydrogenases
1
8
Variation du sens 4/4
  • Variation du sens dans les forums planétaires
    (Projet Alliances)
  • - Associations (via Zellig) des synonymes de
    monnaie alternative' "troc" et "monnaie
    sociale", selon l'origine des intervenants

impôt
compte
impôt
flux
hyperinflation
socioéconomie_solidaire
imaginaire
économie_solidaire
instrument
fortune
monnaie sociale
monnaie sociale
paiement
pratique
système
résistance
compte
aide
échange
gestion
Vision économique
Europe
Vision sociale
Argentine
Zellig (Habert, 98) logiciel qui vise à dégager
les classes sémantiques d'un corpus sur la base
des dépendances syntaxiques partagées entre les
mots.
9
Text mining de corpus hétérogènes une approche
inductive
  • Corpus hétérogènes et évolutifs
  • Plusieurs points de vues sont représentés (pas
    forcément de convergence sur le sens des mots)
  • Les points de vues peuvent évoluer (corpus de
    veille)

? Absence dontologies pré-existantes applicables
Approche inductive
10
Plan
  • Text mining de corpus hétérogènes
  • Accès sémantique aux documents hétérogènes le
    sens varie
  • Architecture de corpus pour le text mining
  • Externaliser les annotations
  • Mémoriser les traitements
  • Topic Maps Articuler des points de vues
    multiples sur un corpus
  • Projet Alliances
  • RDF Mise à plat et articulation des assertions
  • Projet P000f (EDF) ré-utilisation de données
    pour lanalyse secondaire
  • Conclusion

11
Architecture de corpus pour le text mining de
données hétérogènes
  • Constituer des corpus selon un point de vue donné
    à partir dobjets textuels de granularité
    variable
  • Garder la trace des critères de constitution d'un
    corpus
  • Garder la trace des traitements sur un corpus
    et leurs liens aux documents de départ
  • Articuler sur la collection documentaire les
    résultats pas forcément convergents obtenus avec
    des traitements variés sur des corpus distincts
    provenant de cette même collection.

12
Plan
  • Text mining de corpus hétérogènes
  • Accès sémantique aux documents hétérogènes le
    sens varie
  • Architecture de corpus pour le text mining
  • Externaliser les annotations
  • Mémoriser les traitements
  • Topic Maps Articuler des points de vues
    multiples sur un corpus
  • Projet Alliances
  • RDF Mise à plat et articulation des assertions
  • Projet P000f (EDF) ré-utilisation de données
    pour lanalyse secondaire
  • Conclusion

13
Topic Maps Articuler des points de vues
multiples sur un corpus
  • Projet Alliances (2001-2003)
  • (Claude Henry, Dépt. CHM, LIMSI)
  • projet RNRT (LIMSI, LIP6, XEROX, FPH)
  • Objectif étude des convergences et divergences
    de points de vues dans des réseaux associatifs
    distribués.

14
Besoin d'un format d'annotation "externalisant"
1/5
  • HyTime (ISO/IEC 107441997) format de
    documents structurés multimédia
  • Origines
  • - langage SGML de description musicale
  • - description d'un opéra
  • Objectif
  • - synchroniser des objets sur des flux spatiaux
    et temporels multiples

Topic Maps (ISO 13250) Modèle d'annotation
pour définir des cartes sémantiques
navigables XTM (ISO 132502000) portage de
Topic Maps en XML
(Paroles, etc.)
15
Besoin d'un format d'annotation "externalisant"
2/5
  • Synchroniser plusieurs flux d'annotation
    éventuellement divergents

Participant1
Forum du projet Alliances
Pays d'origine4
Participant3
Pays d'origine
Participants
Messages
Jours
Jour2
Jour3
jour1
Jour4
16
Besoin d'un format d'annotation "externalisant"
3/5
  • Notion de lien indépendant (HyTime) stocké
    séparément des ressources qu'il relie
  • Notion de topic (Topic Maps) lien indépendant
    qui regroupe des localisations du corpus autour
    d'un même sujet
  • Définition des liens séparée des ressources
    reliées permet de modifier les liens sans
    modifier les documents eux-mêmes

Participant1
17
Besoin d'un format d'annotation "externalisant"
4/5
Permet de faire coexister des annotations
concurrentes sur les mêmes données
SEGMENTATION2
SEGMENTATION1
Segment1
Segment1
Segment2
Segment2
Segment3
Segment3
Segment3
Segment4
Segment5
Segment6
Segment7
Je ne m ' étais pas occupée
18
Besoin d'un format d'annotation "externalisant"
5/5
  • Les annotations concurrentes peuvent former des
    hiérarchies enchevêtrées.
  • Si elles ne sont pas externalisées, la structure
    d'arborescence stricte d'un document XML
    l'interdit

SEGMENTATION2
SEGMENTATION1
Segment1
Segment2
Segment1
Segment2
Flux de données
  • Les liens indépendants dans les annotations
    externes peuvent être à destination multiple
    (versus liens point à point dans HTML)
  • permet l'adressage d'objets discontinus

Segment1
Segment2
je ne m'étais pas occupée
19
Recursivité de lannotation
  • Le résultat d'un traitement peut lui-même être
    annoté par un autre traitement

3 Mise en évidence des sur et sous emplois
relatifs des classes des clusterings (Lexico)
Spécificités
Cluster1
Spécificités
Cluster2
2 Clustering (CHA) des parties (les participants)
en R
Participant1
Participant4
Participant5
1 Création d'un corpus partitionné (par
participant) à partir de la signalétique
Participant3
Fiches
20
Mémoriser les traitements
  • Garder la trace des critères de constitution
    d'un corpus et des traitements réalisés
    (paramètres)

scope
Spécificités
Cluster1
Spécificités
Cluster2
scope
Clustering R paramètres ...
Participant1
Participant4
Participant5
  • Notion de scope dans Topic Maps permet de
    définir le contexte des propriétés d'un topic

Participant3
Fiches
21
Revenir des traitements et des résultats aux
corpus d'origine
Contextes élémentaires
scope
EXTRACTION
scope
- Paramètres d'extraction (Pays dorigine 2
4) - Hypothèses de constitution du corpus
Corpus
Pays d'origine
Participants
Messages
Jours
jour3
jour7
jour1
jour15
22
Navigation mot -gt contexte élémentaire -gt co-texte
visualiseur de Topic Maps Omnigator
(http//www.ontopia.net)
Type du topic
Nom du topic
Scope ou contexte
Référence dans le corpus
Propriété du topic le contexte élémentaire
23
Plan
  • Text mining de corpus hétérogènes
  • Accès sémantique aux documents hétérogènes le
    sens varie
  • Architecture de corpus pour le text mining
  • Externaliser les annotations
  • Mémoriser les traitements
  • Topic Maps Articuler des points de vues
    multiples sur un corpus
  • Projet Alliances
  • RDF Mise à plat et articulation des assertions
  • Projet P000f (EDF) ré-utilisation de données
    pour lanalyse secondaire
  • Conclusion

24
Structuration RDF pour lanalyse secondaire
  • Projet de collaboration EDF RD-LIMSI CNRS
  • Fouille de données complexes et visualisation
    dinformation (Projet P000f) 2003-2005
  • Equipes
  • SOAD (Statistiques Optimisation et Aide à la
    Décision) EDF RD
  • Sylvaine Nugier, Marie-Luce Picard, Yasmina
    Quatrain
  • CHM (Communication homme-machine) LIMSI CNRS
  • Helka Folch, Benoît Habert, Christian Jacquemin,
    Frédéric Vernier

25
Problématique de la fouille de données complexes
à EDF
multi-relationnelles
multi-sources
26
Problématique Début de solution lanalyse
secondaire
  • Lanalyse secondaire comme définie et pratiquée à
    EDF réutiliser des données déjà capitalisées
    avec des objectifs danalyse qui ne sont pas ceux
    pour lesquels elles étaient initialement
    collectées 
  • Le recours à lanalyse secondaire est motivé par
  • les coûts
  • les gains méthodologiques apportés
  • Des précautions méthodologiques
  • la mise à disposition des traces du contexte de
    lanalyse initiale, des stratégies, des
    hypothèses danalyse en plus des données brutes.

27
Problématique Périmètre des travaux
  • Les travaux décrits aujourdhui portent
    uniquement sur la réutilisation de données
    contenant du texte
  • Approche multi-métier sociologues,
     data-miners  et chargés détude marketing
  • Sources de données traitées
  • Bases de capitalisation dentretiens
  • Forums de discussion
  • Enquêtes de satisfaction
  • Absence dhypothèse de départ
  • Absence dontologie

28
Architecture globale
TROIE
Dixit
Forum DD

Structuration de données
Données Brutes
Données Structurées
Analyse et fouille de données complexes
Alceste et Temis
Importation Et Annotation
Recherche
Filtrage
Exportation
ACHILLES
29
Choix technique RDF Articuler des assertions
sur les métadonnées
  • Langage défini par le consortium W3C
    (www.w3.org)
  • Brique de base le triplet ltressourcegtltpropriétégt
    ltvaleurgt.
  • lthttp//www.forumDD.org/msg1.htm, titre,
    "lénergie éolien"gt
  • lthttp//www.forumDD.org/msg1.htm, date, "12/4/99"
    gt
  • lthttp//www.forumDD.org/msg1.htm, message_père,
    http//www.forumDD.org/msg2.htm gt

30
Du graphe RDF à la syntaxe XML
http//www.forumDD.org/msg1.htm
message_père
titre
http//www.forumDD.org/msg2.htm
date
lénergie éolien
12/4/99
Valeur littérale
Ressource
lt?xml version"1.0"?gt ltrdfRDF
xmlnsrdf"http//www.w3.org/1999/02/22-rdf-syntax
-ns" ltrdfDescription rdfabout"
http//www.forumDD.org/msg1.htm"gt lttitregt
lenergie éolien lt/titregt ltdategt12/4/1999lt/date
gt ltmessage_pèregt http//www.forumDD.org/msg2.ht
m lt/message_pèregt lt/rdfDescriptiongt
lt/rdfRDFgt
31
Structuration TROIE 1/4
FILE Intitule Structure de l'offre destinée
aux clients résidentiels f_DateFinEtude
07/10/2001 ReferenceMKM STUDEO 13109 valmeth
1 Entretien individuel,2 Table ronde - Entretiens
de groupe valmetbis 1 Entretien
individuel intext Externe demographie
Particuliers MarcheAff Particuliers Marcheseg
Particuliers sexe1 femme sexbis age1
53 agbis csp secrétaire de direction cspbis
nombre1 effectif1 stat
propiétaire maison maison chiffre_1
principale chauffage gaz energie1
électricité,gaz tarif1 base codepostal1
35740 Doc_Type Fiche signalétique
d'entretien ValeurMethod Entretien
individuel logtab 1 yn Externe segment
Particuliers
E Vous choisiriez le gaz ? P Oui, je pense.
Si je devais faire une installation dans ma
propre maison ce serait plutôt vers le gaz que je
me dirigerais. E A cause du coût ? P Oui
voilà.. A cause du coût et de la chaleur. La
chaleur nest pas la même. Peut-être que
maintenant les installations sont plus
performantes mais.. E En tout cas vous leur
demanderiez  sil ny a pas une autre chaleur
électrique ? P Oui, jessaierais de voir sil
ny a pas une autre solution. Je vois quà la
maison, en plein hiver les chauffages sont
pratiquement mis à fond et on na pas
limpression davoir chaud. La maison est très
bien isolée, ce nest pas ça.. En plus on a une
dalle chauffante, au rez-de-chaussée, qui est
allumée en permanence et par rapport à ça, on
arrive sans allumer les convecteurs à une
température constante de 19. Ce qui est bien.
Dans la journée on éteint les convecteurs
puisquil ny a personne et la température de la
dalle maintien un minimum de chaleur. Cest
surtout sur ce point là que jinsisterais. E
Donc, si nouveau fournisseur, vous lui poseriez
quoi, comme question ? P Je leur demanderais de
prouver, par A plus B, que la chaleur électrique
est aussi performante que celle au gaz, au niveau
confort.
32
RDF Séparation des données et des métadonnées
Structuration TROIE 2/4
33
RDF Validation par rapport à un schéma ou
vocabulaire
TROIE 3/4
ltrdfDescription rdfabout"file///ex_dixit/entr
etien_12_12"gt ltrdftype rdfresource"file///
schema_p00f/dixit.rdfentretien"/gt
ltdixitentretien_brutgtex_dixit/data/entretien_12_1
2.xmllt/dixitentretien_brutgt
ltdixitsegment_de_marchegtPME-PMIlt/dixitsegment_de
_marchegt ltdixitdonneesLogementgt
ltdixitmaisongtfalselt/dixitmaisongt
ltdixitproprietairegtfalselt/dixitproprietairegt
ltdixitprincipalegttruelt/dixitprincipalegt
ltrdftype rdfresource"file///schema_p00f/dix
it.rdfdonneesLogement"/gt ltdixitdonneesLogemen
tgt lt/rdfDescriptiongt
Instance
Espace de nom
ltrdfRDF xmlnsrdf "http//www.w3.org/1999/02/22-
rdf-syntax-ns" xmlnsrdfs"http//www.w3.org/2000
/01/rdf-schema" xmlbase "file///schema_p00f/d
ixit.rdf"gt ltrdfsClass rdfID"donneesLogemen
t"/gt ltrdfProperty rdfID"proprietaire"gt
ltrdfsdomain rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt ltrdfProperty
rdfID"maison"gt ltrdfsdomain
rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt ltrdfProperty
rdfID"principale"gt ltrdfsdomain
rdfresource"donneesLogement"/gt
ltrdfsrange rdfresource"xsdboolean"/gt
lt/rdfPropertygt
Schema
Nom du schéma
Contrainte sur le type de données
34
Structuration TROIE 4/4
35
Une journée dans la vie dune étude ACHILLES
1. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
36
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
37
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
38
3. Requêtage et filtrage
39
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
40
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
41
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
42
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
43
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
44
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
45
3. Requêtage et filtrage
Construction dun corpus à partir de plusieurs
sources par requêtage et filtrage.
46
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
47
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Espaces de noms RDF
Production des résultats
Structuration
Analyse_1.rdf
48
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
49
3. export/import
Analyse_1.rdf
Analyste
Analyse_1.rdf
Export vers des logiciels danalyse, import des
résultats et des interprétations
Production des résultats
Structuration
Analyse_1.rdf
50
Conclusion Topic Maps vs RDF pour le text mining
  • Topic Maps et RDF permettent
  • Gérer séparément données et méta-données
  • Annoter des données de granularité variable
  • Réifier les annotations
  • Définir des schémas ou vocabulaires spécifiques
    validables
  • Topic Maps est plus adapté à la navigation
  • RDF est plus adapté au requêtage
  • Plus de maturité des logiciels disponibles pour
    RDF
  • Jena Java RDF API
  • IsaViz (pour visualiser et éditer les graphes
    RDF)
  • RDFDB (BD qui supporte RDF et le langage de
    requêtes RDFQL)
  • Ni Topic Maps ni RDF résolvent le problème de la
    normalisation sémantique des méta-données,
    seulement la normalisation syntaxique

Mais !!
Write a Comment
User Comments (0)
About PowerShow.com