Archiver le Web: comment faire? - PowerPoint PPT Presentation

1 / 19
About This Presentation
Title:

Archiver le Web: comment faire?

Description:

depuis 1996, IA est implant San Francisco, 2 km du Golden Gate Bridge ... alors que les 'mauvais' contenus s'engouffrent. pourriels, virus... – PowerPoint PPT presentation

Number of Views:95
Avg rating:3.0/5.0
Slides: 20
Provided by: Gordo89
Category:
Tags: alors | archiver | comment | faire | web

less

Transcript and Presenter's Notes

Title: Archiver le Web: comment faire?


1
Archiver le Web comment faire?
  • Gordon Mohr, Chief Technologist
  • Internet Archive
  • May 5, 2009

2
IA
depuis 1996, IA est implanté à San Francisco, à 2
km du Golden Gate Bridge
3
http//web.archive.org
  • permet de naviguer dans le Web public - tel qu'il
    était
  • couvre une collection de 2 Petaoctets compressés
  • correspondant à  plus de 150 milliards de
    fichiers capturés

4
Archiver le Web comment faire?
  • la taille et la "forme" du Web
  • les logiciels de moissonnage
  • formats et stockage
  • la consultation des archives
  • défis et limites

5
La taille du Web
  • Google "1 trilliard d'URL uniques
  • Le nombre de pages réellement indexées
  • des dizaines de milliard et ?
  • 124 426 951 803 pages web
  • des centaines de millions de "sites" web
  • le site le résultat d'une publication en réseau
  • d'un site à l'autre de une à plusieurs millions
    de pages

6
La forme du Web pages HTML
  • 1 page, 35 URLs
  • 1 HTML
  • 7 text/css
  • 8 image/gif
  • 17 image/jpeg
  • 2 javascript

7
La forme du Web l'hypertexte
8
Moissonnage du web "101"
WARC
9
Les logiciels de moissonnage
  • AKA "Web crawlers
  • de nombreux outils disponibles, qui diffèrent
  • selon qu'ils sont libres ou propriétaires
  • par leur capacité à collecter sur une petite ou
    une large échelle
  • pour de l'archivage sélectif ou sur de grands
    volumes
  • pour la collecte du texte ou des autres types de
    médias
  • selon les modèles et les formats de données
  • mon favori (forcément!) Heritrix

10
Le moissonnage responsable
  • Les robots devraient toujours- s'identifier
    (User-Agent, type "GoogleBot)- laisser un
    contact- respecter autant que possible
    l'exclusion de robot .txt (c'est une convention
    depuis 1994)- ménager les serveurs ("politesse")

11
Formats et stockage
  • WARC le format des archives du Web- en cours de
    normalisation à l'ISO- une version améliorée du
    format ARC- un format container
  • pour l'agrégation de gros fichiers
  • contenant les enregistrements des échanges entre
    serveurs
  • avec de la place pour conserver les métadonnées
    de provenance (collecte)
  • nécessitant des index externes
  • Différentes solutions de stockage sont possibles

12
Redracks
13
Sun MD black box
14
La consultation des archives
  • retrouver le site "tel qu'il était
  • logiciels de redistribution
  • le public utilise les navigateurs Web habituels
  • Exemple le projet "Wayback" (La machine à
    remonter le temps)
  • La recherche plein texte
  • recherche par mot et classement "à la Google
  • Exemple le projet Nutch/NutchWAX
  • Fouille de données pour la recherche
  • des solutions sur mesure selon les index et
    l'architecture de stockage

15
Wayback Machine Navigation
16
Défis et limites (1)
  • Les collectes ne peuvent être que des
    échantillons
  • le temps et l'argent on ne peut tout collecter
  • vitesse de mise à jour on ne peut collecter
    toutes les versions
  • problèmes de cohésion temporelle
  • Les nouveaux formats multimédia et les nouveaux
    protocoles
  • peuvent échapper au modèle récursif et
    hypertextuel
  • requièrent des développements logiciels
  • quelquefois prévus pour

17
Défis et limites (2)
  • De "bons" contenus sont susceptibles d'être
    retirés à la demande de leurs producteurs...
  • utilisation des règles d'exclusion robot.txt ou
    d'autres parades
  • ... alors que les "mauvais" contenus
    s'engouffrent
  • pourriels, virus...
  • pièges accidentels
  • Les applications accessibles par formulaire et
    bases de données
  • requièrent de simuler une consultation par
    l'usager
  • ... ou sont totalement verrouillées par un mot de
    passe, une authentification

18
Défis et limites (3)
  • les réseaux sociaux et les espaces
    semi-privatifs
  • les univers virtuels.

19
Merci!
  • Gordon Mohr
  • Internet Archive Web Group
  • gojomo_at_archive.org
Write a Comment
User Comments (0)
About PowerShow.com