De l'indexation plein texte - PowerPoint PPT Presentation

About This Presentation
Title:

De l'indexation plein texte

Description:

De l'indexation plein texte l'indexation s mantique. Le projet RetroWeb. Fabrice ... le sch ma de ces donn es (XML Schema) Motivations. XML = formalisme ... – PowerPoint PPT presentation

Number of Views:28
Avg rating:3.0/5.0
Slides: 9
Provided by: fe56
Category:

less

Transcript and Presenter's Notes

Title: De l'indexation plein texte


1
  • De l'indexation plein texte à l'indexation
    sémantique
  • Le projet RetroWeb
  • Fabrice Estiévenart (CETIC)

2
Objectifs motivations - applications
  • Objectifs extraire dun ensemble de pages HTML,
  • un ensemble de données (XML)
  • le schéma de ces données (XML Schema)
  • Motivations
  • XML formalisme interprété et (semi-)structuré
  • HTML formalisme pour la représentation de
    linformation sur Internet
  • Approche générique ? Applications multiples
  • Interrogation  intelligente  du web
  • Exemple description SONY DSC-P30 AND
    prixlt300
  • Développement de tableaux de bord web
    personnalisés
  • Rétro-ingénierie et migration de sites
    (semi-)statiques vers une BD (CMS)

netvibes.com
3
Architecture
Vue Browser
affiche
Code HTML
Analyseur Sémantique
Règles de Mapping
name title, location html//h1/text(), type
string, parent imdb-movie,
Extracteur XML
Générateur Schéma
Document XML
Document XML Schema
ltrootgt ltimdb-moviegt ltmovie-titlegt
Life of Brian lt/movie-titlegt
lt/imdb-moviegt lt/rootgt
describes
4
Règles de mapping
  • Les règles de mapping font la correspondance
    entre
  • X structures HTML sources
  • lthtmlgtltbodygtlth3gtLife of Brianlt/h3gtlt/bodygtlt/htmlgt
  • lthtmlgtltbodygtlth1gtYoung Frankensteinlt/h1gtlt/bodygtlt/h
    tmlgt
  • Un document XML cible
  • ltrootgt
  • ltimdb-moviegtlttitlegtLife of Brianlt/titlegtlt/imdb-mo
    viegt
  • ltimdb-moviegtlttitlegtYoung Frankensteinlt/titlegtlt/im
    db-moviegt
  • lt/rootgt
  • Une règle concerne un attribut dans un type de
    pages

Règle de mapping
property title, location html//h1/text(), t
ype string, parent imdb-movie,
www.imdb.com
5
Construction des règles scénario
Type de pages
Echantillon
Choix Echantillon
fin
Pour chaque attribut A
Constr. règle candidate
Règle candidate pour A
Vérification règle
N
Affinement règle
Règle OK pour A
O
Enregistrement règle
Répertoire de règles
6
Retrozilla
  • Analyseur sémantique Extracteur XML
    Générateur schéma
  • Avantages de Retrozilla
  • Facile pas de langage particulier
  • Rapide basé sur laspect visuel des pages
  • Flexible uniquement les données intéressantes
  • Robuste définition sur un ensemble de pages
  • Réutilisable schéma prédéfini
  • Evolutif différents formats de sortie
  • Démo
  • Site www.imdb.com
  • Extraire le titre, la liste des acteurs et la
    durée dun film à partir dun échantillon de pages

7
Intégration RetroWeb-Moteur de recherche
  • Approvisionner un moteur de recherche de
    résultats sémantiques extraits avec RetroWeb

Collecte
Indexation
Interrogation
Indexation syntaxique
Indexation sémantique
titre DELL ÉCRAN CRT 17"
contenu Retourner aux pages d'annonces Catégorie de mise en vente Computer Randapparatuur Monitoren DELL ÉCRAN CRT 17" Numéro de l'objet 5839481285 Etes-vous le vendeur de cet objet ou un enchérisseur ?
article DELL ÉCRAN CRT 17"
prix 59
temps restant 1 jour 9 heures
quantité 12
vendeur Stuntstore
livraison Europe
8
Conclusion
  • Méthode outillée pour lextraction de données XML
    à partir de pages Web
  • Semi-automatique MAIS conviviale
  • Approche générique ? diverses applications
  • Travaux en cours et futurs
  • Détection des erreurs et réparation des règles
  • Définition et extraction de composants complexes
  • Intégration de RetroWeb dans un moteur de
    recherche
  • Analyse sémantique à partir de schémas existants
    (RDF-OWL)
  • Classification (clustering) automatique de pages
    web sur la base de leur structure ou de leur
    contenu
Write a Comment
User Comments (0)
About PowerShow.com