Title: De l'indexation plein texte
1- De l'indexation plein texte à l'indexation
sémantique - Le projet RetroWeb
- Fabrice Estiévenart (CETIC)
2Objectifs motivations - applications
- Objectifs extraire dun ensemble de pages HTML,
- un ensemble de données (XML)
- le schéma de ces données (XML Schema)
- Motivations
- XML formalisme interprété et (semi-)structuré
- HTML formalisme pour la représentation de
linformation sur Internet - Approche générique ? Applications multiples
- Interrogation  intelligente du web
- Exemple description SONY DSC-P30 AND
prixlt300 - Développement de tableaux de bord web
personnalisés - Rétro-ingénierie et migration de sites
(semi-)statiques vers une BD (CMS)
netvibes.com
3Architecture
Vue Browser
affiche
Code HTML
Analyseur Sémantique
Règles de Mapping
name title, location html//h1/text(), type
string, parent imdb-movie,
Extracteur XML
Générateur Schéma
Document XML
Document XML Schema
ltrootgt ltimdb-moviegt ltmovie-titlegt
Life of Brian lt/movie-titlegt
lt/imdb-moviegt lt/rootgt
describes
4Règles de mapping
- Les règles de mapping font la correspondance
entre - X structures HTML sources
- lthtmlgtltbodygtlth3gtLife of Brianlt/h3gtlt/bodygtlt/htmlgt
- lthtmlgtltbodygtlth1gtYoung Frankensteinlt/h1gtlt/bodygtlt/h
tmlgt - Un document XML cible
- ltrootgt
- ltimdb-moviegtlttitlegtLife of Brianlt/titlegtlt/imdb-mo
viegt - ltimdb-moviegtlttitlegtYoung Frankensteinlt/titlegtlt/im
db-moviegt - lt/rootgt
- Une règle concerne un attribut dans un type de
pages
Règle de mapping
property title, location html//h1/text(), t
ype string, parent imdb-movie,
www.imdb.com
5Construction des règles scénario
Type de pages
Echantillon
Choix Echantillon
fin
Pour chaque attribut A
Constr. règle candidate
Règle candidate pour A
Vérification règle
N
Affinement règle
Règle OK pour A
O
Enregistrement règle
Répertoire de règles
6Retrozilla
- Analyseur sémantique Extracteur XML
Générateur schéma - Avantages de Retrozilla
- Facile pas de langage particulier
- Rapide basé sur laspect visuel des pages
- Flexible uniquement les données intéressantes
- Robuste définition sur un ensemble de pages
- Réutilisable schéma prédéfini
- Evolutif différents formats de sortie
- Démo
- Site www.imdb.com
- Extraire le titre, la liste des acteurs et la
durée dun film à partir dun échantillon de pages
7Intégration RetroWeb-Moteur de recherche
- Approvisionner un moteur de recherche de
résultats sémantiques extraits avec RetroWeb
Collecte
Indexation
Interrogation
Indexation syntaxique
Indexation sémantique
titre DELL ÉCRAN CRT 17"
contenu Retourner aux pages d'annonces Catégorie de mise en vente Computer Randapparatuur Monitoren DELL ÉCRAN CRT 17" Numéro de l'objet 5839481285 Etes-vous le vendeur de cet objet ou un enchérisseur ?
article DELL ÉCRAN CRT 17"
prix 59
temps restant 1 jour 9 heures
quantité 12
vendeur Stuntstore
livraison Europe
8Conclusion
- Méthode outillée pour lextraction de données XML
à partir de pages Web - Semi-automatique MAIS conviviale
- Approche générique ? diverses applications
- Travaux en cours et futurs
- Détection des erreurs et réparation des règles
- Définition et extraction de composants complexes
- Intégration de RetroWeb dans un moteur de
recherche - Analyse sémantique à partir de schémas existants
(RDF-OWL) - Classification (clustering) automatique de pages
web sur la base de leur structure ou de leur
contenu