Title: Comprendre et s'approprier les
1Comprendre et s'approprier les évolutions du
catalogage en bibliothèque Journée dinformation
- Média Centre-Ouest
- 13 novembre et 6 décembre 2012
- Emilie Liard / Véronique Lacan
- Support élaboré à partir des travaux du groupe
national de formateurs RDA
2III. Participer au Web de données
- en utilisant les technologies du Web
sémantique
3Le Web de données ?
- Un Web constitué de données accessibles,
structurées, dans un format non-propriétaire,
identifiées et liées entre elles
sémantiquement (Définition de Tim Berners-Lee dès
1999) - Objectif Mettre à disposition des données en
utilisant des techniques standardisées qui
garantissent linteropérabilité - Disposer de données utilisables dans des
contextes et avec des systèmes différents sans
restriction de conditions daccès ou de mise en
œuvre
4Architecture du Web (1)
- World Wide Web toile daraignée de serveurs
dinformations reliés les uns aux autres par des
liens physiques (le réseau matériel) et des liens
logiques (les liens hypertextes) - Architecture du Web infrastructure
technologique définie par des standards - Standardisation de larchitecture du Web assurée
par un organisme, le W3C - W3C World Wide Web Consortium
5Architecture du Web (2)
- Repose sur 3 technologies
- Un protocole HTTP (Hypertext Transfer Protocol)
- Un langage HTML (Hypertext Markup Language)
- Standard défini par le W3C pour la diffusion de
documents sur le Web pour pouvoir afficher de
l'information à l'aide de balises dont le nombre
est limité. Il est interprété par le navigateur - Des identifiants URI (Uniform Resource
Identifier) - Chaîne de caractères normalisée permettant
d'identifier de manière permanente une ressource
abstraite ou physique, accessible ou non sur
Internet (personne, organisme, lieu, évènement,
concept, )
6Évolutions du web
- Web 1.0 ? web de documents
- permet aux usagers de naviguer facilement sur
Internet en utilisant des liens hypertexte - une page un document
- format HTML (HyperText Markup Language)
- ne permet que la mise en forme
- Web 2.0 ? web collaboratif
- Web 3.0 ? web de données / web sémantique
- permet aux machines de trouver et dexploiter les
données contenues dans les documents - format RDF (Resource Description Framework)
7Limites du Web de documents
- Les données sont cachées sous les pages HTML (Web
profond) - Seules les pages HTML sont liées entre elles
- Les pages HTML sont faites pour les humains
- Ce que veulent les machines, ce sont des données
- des données liées
- car elles se complètent les unes les autres
- car les liens permettent de naviguer et de
découvrir - avec des liens qualifiés, signifiants
- au-delà du voir aussi des hyperliens
8Le Web de données
- Extension du Web permettant de relier non pas des
documents (pages HTML) mais les données
elles-mêmes, et de les rendre exploitables par
des machines - Repose sur les mêmes technologies de base
- HTTP transfert des données
- URI nommage des ressources
- Utilisation dun autre langage
- il ne sagit plus déchanger des documents
destinés à être immédiatement visualisés, mais
des données structurées - RDF langage du Web de données liées
9RDF
- RDF Resource Description Framework
- Nouveau modèle généraliste et standardisé pour
encoder, échanger et réutiliser des métadonnées
structurées - Proposé en 1999 par le W3C
- Permet de décrire simplement des ressources
document, personne, objet, évènement - Objectif partager les métadonnées pour des
ressources identiques par lutilisation dune
syntaxe commune
10RDF un modèle conceptuel
- Principe de base
- toute chose peut être décrite avec des phrases
minimales composées dun verbe, dun sujet et
dun complément - ? déclaration RDF composée de 3 éléments
triplet, représenté sous forme de graphe - Exemple
- Honoré de Balzac a écrit "La Comédie humaine"
- Sujet Honoré de Balzac ? Ressource
- Verbe a écrit ? Prédicat
- Complément La Comédie humaine ? Objet
11RDF Graphe
- La déclaration est représentée visuellement par
un graphe (système de nœuds reliés par des
flèches) qui permet de parcourir l'information de
lien en lien
12RDF modèle de graphe
- Lobjet dun triplet est
- Soit une chaîne de caractères ( littéral )
- Soit une ressource qui peut être le sujet ou
lobjet dautres déclarations - On construit ainsi un modèle de graphe
13Formalisme RDF
- Modèle permettant de représenter un nombre
considérable de ressources désignées chacune par
une URI - Éclatement de linformation
- Des données et pas des documents
- Plus de souplesse pour manipuler, sélectionner
14RDF souplesse
- Cadre conceptuel de description des ressources
applicable à nimporte quel domaine - Permet de mélanger les vocabulaires
- Peut être exprimé en utilisant diverses syntaxes
15RDF extensibilité
- RDF rend les données extensibles
- Plus besoin de tout dire sur une ressource, une
personne, etc. - Possibilité détablir des liens vers dautres
sources (en RDF) pour compléter linformation - Recensions, commentaires, etc.
- Données commerciales, etc.
- Dictionnaires biographiques, etc.
16Un Web de données
- Modèle de données RDF
- Langage dinterrogation SPARQL
- Langage de requête sur les graphes RDF
permettant de spécifier le type de données
recherchées - SPARQL permet dinterroger les données telles
quon les a modélisées
17Un Web de données
- Modèle de données RDF
- Langage dinterrogation SPARQL
- Langage de requête sur les graphes RDF
permettant de spécifier le type de données
recherchées - SPARQL permet dinterroger les données telles
quon les a modélisées
18 et un Web sémantique
- Schéma (ou ontologie)
- Document formel expliquant les catégories, leurs
relations, avec leur sens, la structure et les
contraintes associées - Exemples
- Foaf pour la description dun profil utilisateur
- Dublin Core pour la description (simple) dune
ressource - ISBD pour la description bibliographique
- RDF permet de raisonner sur les données, pour les
enrichir ou contrôler leur cohérence
19Web de données et Web sémantique
- Web de données possibilité de relier et
déchanger des données au moyen dURI - Web sémantique possibilité déchanger les
schémas des données et la sémantique associée - Objectif permettre aux machines de comprendre
la sémantique, la signification de linformation
sur le Web
20Le Web de données aujourdhui
21Et les bibliothèques?
- Que peut nous apporter le Web de données ?
- Relier les catalogues des bibliothèques avec
dautres données existantes - Ouverture à dautres communautés (libraires,
éditeurs, ) - Navigation par les utilisateurs sans avoir à
connaître les formats des bases de données et les
langages de requête spécifiques - Plus de visibilité par les moteurs de recherche
- Tirer parti des données structurées des
catalogues et des référentiels - Interopérabilité ? Souplesse pour la
réutilisation des données
22Comment y arriver ?
- Des données structurées
- Des vocabulaires normalisés
- éléments de métadonnées
- listes de valeurs
- Des identifiants pérennes (URI)
- pour désigner les ressources
- pour exprimer les relations entre les données
- Une syntaxe normalisée RDF
- RDF Resource Description Framework
23Structurer linformation
24- 000 cam 22 3 450 001FRBNF42226398000000X003http
//catalogue.bnf.fr/ark/12148/cb42226398b010
a978-2-603-01444-8brel.100 a20100624d2005 m
y0frey50 ba1011 afre102 aFR105 az
00106 ar2001 aGuide des chenilles
d'EuropebTexte impriméeles chenilles de plus de
500 espèces de papillons sur 165 plantes
hôtesfD.J. Cartergill. B. Hargreaves - 210 aPariscDelachaux et NiestlédDL 2005215
a1 vol. (311 p.)cill.d20 cm225 aLes
_at_guides du naturaliste300 aBibliogr. p.
301-303410 0034235813tLes _at_Guides du
naturalistex1022-2707d2005454 1tField guide
to caterpillars of butterflies and moths in
Britain and Europe606 312000511aChenilles31
1931301yEurope311975688xGuides pratiques
et mémentos2rameau676 a595.781
39v22700 1312013664aCarterbDavidf1943-....
4070702 1312367696aHargreavesbBrian4440801
0aFRbFR-751131015c20100624gAFNOR2intermrc
http//catalogue.bnf.fr/ark/12148/cb34235813n
http//catalogue.bnf.fr/ark/12148/cb120136648
http//catalogue.bnf.fr/ark/12148/cb12367696d
25Des URI pour exprimer des relations
http//metadataregistry.org/about.html
26Des URI pour exprimer les relations
DC Title
http//purl.org/dc/elements/1.1/title
ISBD has title proper
http//iflastandards.info/ns/isbd/elements/P1004
RDA Title proper
http//rdvocab.info/Elements/titleProper
DC Creator
http//purl.org/dc/elements/1.1/creator
RDA Author
http//rdvocab.info/roles/author
27Les bibliothèques dans le web de données
aujourd'hui
28- http//richard.cyganiak.de/2007/10/lod/lod-dataset
s_2011-09-19_colored.html
29Fonds Calames
Aujourdhui
Livre Sudoc
Auteur IdRef
Thèse theses.fr
owlsameAs
Exemple Charles Darwin http//www.idref.fr/0268
12304 http//data.bnf.fr/11898689/charles_darwin/
http//viaf.org/viaf/27063124
Auteur VIAF
Auteur BnF
owlsameAs
Auteur ISNI
Auteur Wikipedia
Yann Nicolas, Le Web de données, enssib, 11
octobre 2012
30Fonds Calames
Demain
Livre Sudoc
Auteur IdRef
Thèse theses.fr
owlsameAs
Auteur VIAF
Auteur BnF
Auteur ISNI
Auteur Wikipedia
Yann Nicolas, Le Web de données, enssib, 11
octobre 2012
31 articles, éditions scientifiques, numérisation,
etc.
Fonds Calames
Après-demain peut-être ?
Livre Worldcat
owlsameAs
Livre Sudoc
Auteur IdRef
cite
Données brutes
Thèse theses.fr
a pour dérivé
owlsameAs
brevets, projets ANR, etc.
Auteur HAL CCSD
Auteur VIAF
Article HAL CCSD
Auteur BnF
owlsameAs
CrossRef, revues, indicateurs dusage, etc.
Auteur ISNI
Auteur Wikipedia
Yann Nicolas, Le Web de données, enssib, 11
octobre 2012
32Y aller avec pertinence
- Pour utiliser la boîte à outils du Web
sémantique, il faut - Identifier les données
- Construire un réseau de relations entre ces
données - Le modèle FRBR va permettre danalyser les
relations entre les données au sein des
catalogues de bibliothèques