Title: L
1Larchivage des sites WebÉléments de
problématique
- Benoît Girard,
- Responsable du soutien aux spécialistes du Web,
MSG - WebÉducation - 12 octobre 2006
2Une distinction majeure
Site Web informationnel
Prestation électronique de service
3Une distinction majeure
Site Web informationnel
Prestation électronique de service
Information publique offerte à tous, comme dans
une vitrine
4Une distinction majeure
Site Web informationnel
Prestation électronique de service
Transactions individuelles, informations
personnelles et confidentielles
5De la prestation de service, quelle soit
électronique ou non
Banques de données du programme
Téléphone
Visite sur place
Poste
Internet
6Linterface Web dun programme de PES
- Quelques formulaires
- Identification
- Demande de prestation
- Consultation du dossier personnel
- Description du programme offert
- Conditions dadmissibilité
- Échéanciers
- Pages daide en ligne
- Textes à caractère juridique.
7Changements peu fréquents
- Les quelques pages formant laccès Web dun
programme offert en PES ne doivent être modifiées
que lorsque le programme lui-même est modifié - Ceci exige généralement un changement
réglementaire ou même législatif et narrive que
peu fréquemment - Larchivage des ces pages est donc simple à
réaliser.
8La portée de nos travaux
- Les travaux du comité concernent donc
exclusivement larchivage des sites Web
informationnels.
9La toile de fond
- La nature originale des site Web
- pose problème.
- Pour comprendre et maîtriser la situation
- on a besoin
- Dun cadre conceptuel adapté
- Dun vocabulaire précis.
10Archiver
- Mettre en lieu sûr un exemplaire dun document
pour référence ou usage futur
11Archiver
- Mettre en lieu sûr un exemplaire dun document
pour référence ou usage futur - On parle ici des archives au sens des Archives
nationales - et non au sens des informaticiens qui emploient
le mot pour désigner une copie de sûreté
dune base de données. - Nuance importance, malgré la ressemblance des
opérations.
12Archiver
- Mettre en lieu sûr un exemplaire dun document
pour référence ou usage futur - Le document étant une entité
- identifiable
- doté de stabilité
- manipulable.
13Or, un site Web nest pas un document
traditionnel
- Son contenu change continuellement
14Or, un site Web nest pas un document
traditionnel
- Son contenu change continuellement
- Ce qui va affecter profondément toute stratégie
darchivage le concernent
15Or, un site Web nest pas un document
traditionnel
- Son contenu change continuellement
- Ce qui va affecter profondément toute stratégie
darchivage le concernent - La question fondamentale comment archiver une
information continuellement changeante?
16Comment archiver un contenu changeant?
- Deux stratégies possibles
17Comment archiver un contenu changeant?
- Deux stratégies possibles
- Copie intégrale périodique
18Comment archiver un contenu changeant?
- Deux stratégies possibles
- Copie intégrale périodique
- Solution simple
19Comment archiver un contenu changeant?
- Deux stratégies possibles
- Cliché photographique périodique du site
- Solution simple
- Mais insatisfaisante
- Redondance massive de linformation archivée
20Comment archiver un contenu changeant?
- Deux stratégies possibles
- Cliché photographique périodique du site
- Solution simple
- Mais insatisfaisante
- Redondance massive de linformation archivée
- Image imprécise de lévolution du site.
21Comment archiver un contenu changeant?
- Deux stratégies possibles
- Cliché photographique périodique du site
- Solution simple
- Mais insatisfaisante
- Redondance massive de linformation archivée
- Image imprécise de lévolution du site.
- Suivi intégral des modifications
- Seule solution entièrement satisfaisante
- Mais beaucoup plus compliquée à mettre en œuvre.
22Le cycle de vie dun document déposé sur un site
Web
- La période active celle durant laquelle le
document est accessible aux internautes sur le
site - La période semi-active celle durant laquelle un
document retiré du site doit être disponible pour
les besoins administratifs, financiers ou
juridiques de ladministration publique - La période inactive celle où BAnQ prend
possession du document et le traite en vertu de
son intérêt historique.
23La composition dun site Web
- Un nombre restreint de catégories de composantes.
24La composition dun site Web
- Des fichiers importés
- Ex. Rapport annuel du ministère.
25La composition dun site Web
- Des fichiers importés
- Ex. Rapport annuel du ministère.
- Des fichiers originaux
- Ex. la page daccueil du site.
26La composition dun site Web
- Des fichiers importés
- Ex. Rapport annuel du ministère.
- Des fichiers originaux
- Ex. la page daccueil du site.
- Les fichiers formant un système de gestion de
contenu (SGC en anglais CMS) - Plone, Xoops, Typo3, etc.
27La composition dun site Web
- Des fichiers importés
- Ex. Rapport annuel du ministère.
- Des fichiers originaux
- Ex. la page daccueil du site.
- Les fichiers formant un système de gestion de
contenu (SGC en anglais CMS) - Plone, Xoops, Typo3, etc.
- Les contributions du public
- Forums de discussion, consultations en ligne.
28Le tout et la somme des parties
- La conservation des documents importés nest-elle
pas déjà assurée par leurs créateurs?
29Le tout et la somme des parties
- La conservation des documents importés nest-elle
pas déjà assurée par leurs créateurs? - Assurément. Mais le site Web est un acte de
communication original digne dêtre conservé pour
sa valeur propre.
30Le tout et la somme des parties
- La conservation des documents importés nest-elle
pas déjà assurée par leurs créateurs? - Assurément. Mais le site Web est un acte de
communication original digne dêtre conservé pour
sa valeur propre. - Le webmestre est le détenteur principal des
fichiers originaux du site, licencé pour archiver
le SGC et mandaté pour archiver les contributions
du public libérées.
31La sélection de la matière archivable
- Les sites nont pas tous la même valeur et
peuvent requérir des traitements différents
32La sélection de la matière archivable
- Les sites nont pas tous la même valeur et
peuvent requérir des traitements différents - Sites destinés aux clientèles externes vs
internes
33La sélection de la matière archivable
- Les sites nont pas tous la même valeur et
peuvent requérir des traitements différents - Sites destinés aux clientèles externes vs
internes - Site officiel vs sites secondaires
34La sélection de la matière archivable
- Les sites nont pas tous la même valeur et
peuvent requérir des traitements différents - Sites destinés aux clientèles externes vs
internes - Site officiel vs sites secondaires
- Sites en partenariat
35La sélection de la matière archivable
- Les sites nont pas tous la même valeur et
peuvent requérir des traitements différents - Sites destinés aux clientèles externes vs
internes - Site officiel vs sites secondaires
- Sites en partenariat
- Intranets et extranets.
36Le calendrier de conservation
- La sélection retenue,
- Les délais de conservation arrêtés,
- Lidentité des détenteurs principaux,
- Et autres informations pertinentes,
- doivent être inscrits dans le calendrier de
conservation du ministère ou de lorganisme et
recevoir lapprobation de BAnQ.
37Comment archiver?
- Jusquici, nous avons établi le cadre conceptuel
de la problématique et élaboré un vocabulaire
permettant den discuter avec un minimum de
précision - Le moment est venu daborder la question de la
mise-en-œuvre de larchivage des sites Web.
38Quelle architecture?
- La mise-en-œuvre dépend étroitement de
larchitecture technique sous-jacente au site - et de lappareillage dont on dispose pour en
faire la gestion. - Trois cas despèces
- Sites manuels
- Sites avec SGC/CMS
- Sites sur larchitecture CRGGID.
39Sites gérés manuellement
- Simple dépôt par FTP
- Aucune automatisation
- Seule solution pratique
- le cliché périodique du site,
- un pis-aller insatisfaisant
- à ne retenir que lorsquon na pas la choix.
40Sites sur SGC/CMS
- Présence dune infrastructure de gestion
- Gestion du moment de mise en ligne
- Gestion du moment de retrait (parfois)
- Automatisations multiples
- Programmables (parfois)
- Etc
41Sites sur SGC/CMS
- Présence dune infrastructure de gestion
- Gestion du moment de mise en ligne
- Gestion du moment de retrait (parfois)
- Automatisations multiples
- Programmables (parfois)
- Etc
- Archivage complet encore absent
42Sites sur SGC/CMS
- Présence dune infrastructure de gestion
- Gestion du moment de mise en ligne
- Gestion du moment de retrait (parfois)
- Automatisations multiples
- Programmables (parfois)
- Etc
- Archivage complet encore absent
- À développer pour chaque logiciel SGC individuel
43Exemple de fonctionnement
FTP amélioré sauve en double
- Index.html.2006-10-12.html
- Index.html.2006-10-14.html
- Index.html.2006-11-18.html
Écrasé à chaque mise-à-jour
Conservés parce que les noms sont différents
44Sites sur SGC/CMS
- Une implantation réussie
- Le ministère du Revenu du Québec.
45Sites sur le CRGGID
- Solution la plus ambitieuse
- Mais la plus efficiente aussi
- Quelques mots dexplication, pour bien comprendre
46Le CRGGIDune voûte permanente de documents
Voûte permanente de documents originaux
une foule de métadonnées
Document lui-même
47Le CRGGIDune voûte permanente de documents
Serveur du site
CRGGID
48Une fois le système en place
- On na plus jamais besoin dy toucher
- Tous les usages sont contrôlés par le système à
laide des métadonnées - Archiver un document
- Date de destruction 31 décembre 1,000,000
- Dépôt aux Archives nationales
- Date denregistrement durée de prescription
- Protection des renseignements confidentiels
- Catégorie d accès Top Secret de niveau 8
49Un projet ambitieux
- Et les pages dynamiques?
- Et les moteurs de recherche?
- Etc
- Il reste encore beaucoup de travail à faire
- ce qui exige de la constance dans leffort et
lorientation.
50Trois stratégies possibles
- Se contenter des clichés
- Développer la fonction archivage intégral du
SGC/CMS de son ministère - (Ou participer à ce développement de concert avec
ses autres utilisateurs, si celui-ci est un
logiciel libre.) - Attendre de pouvoir recourir au CRGGID
51Conclusion
- Chaque stratégie comporte ses avantages et ses
risques - Le but de cette présentation était de vous
exposer le plus clairement possible létat de la
situation afin de vous permettre de faire les
choix les plus appropriés à votre situation
propre.