Title: Nov
1Nové nástroje pro archivaci webu
- Ing. Petr Žabicka, MZK
- Mgr. Jan HUTAR, NK
-
-
2WebArchiv kdo a proc?
- potreba zachránit netištené informace kulturní a
historické hodnoty pro další generace - až 90 webových dokumentu existuje pouze v
elektronické podobe - NK CR je depozitní knihovnou, odpovídá za trvalé
uchovávání fondu bohemikálních dokumentu jako
soucásti národního historického a kulturního
dedictví - WA vznikl v rámci programového projektu MK CR
VaV - "Registrace, ochrana a zprístupnení
domácích elektronických zdroju v síti Internet" - rešen od roku 2000 v NK CR ve spolupráci s MZK
Brno a ÚVT Masarykovy univerzity v Brne
3Cíle WebArchivu
- zajistit pokud možno trvalý prístup k domácím
elektronickým zdrojum publikovaným v síti
Internet ? - pripravit podmínky pro získávání, zpracování,
archivaci a ochranu online prístupných
elektronických zdroju ? - zajistit zprístupnení zdroju z digitálního
archivu za podmínek respektujících autorské právo
? - stanovit kritéria výberu zdroju pro národní
bibliografii ?
4Kritéria výberu webových zdroju
- množství online dokumentu je obrovské, kvalita
ruzná ? nutno aplikovat kritéria výberu ? uchovat
dokumenty, které mají dokumentární hodnotu - Pro akvizici (harvesting) zdroju se aplikují dva
prístupy - výberová archivace - sklízejí a archivují se
pouze dokumenty vybrané podle urcitých kritérií - plošná archivace napr. celé národní domény.
Nutná pouze kritéria technické povahy a nastavení
harvesteru. - tematické sklizne napr. volby, povodne apod.
- trend oba prístupy najednou (napr. Austrálie,
Dánsko)
5Co máme za sebou
- prubežné testování
- SW nástroju s využitím HW porízeného v rámci
financních možností - tj. aplikací pro stahování, archivaci, indexaci a
zprístupnení webových stránek - SW výhradne open source
- snaha o zmenu zákonu
- mezinárodní spolupráce (aktivní úcast na výzkumu
a vývoji v rámci IIPC clenství od roku 2007) - zprístupnování verejné cásti archivu online
pomocí fulltextového prohledávání od podzimu 2005 - zprístupnení indexu celého archivu
prostrednictvím aplikace Wayback
6Registrované domény v .cz
7Provedené sklizne domény .cz
- 2001 1. pokus o plošnou sklizen domény .cz, 1
stroj páskový robot, nedokoncena z tech. duvodu - 2002 sklizen po nekolika mesících prerušena pro
omezený výkon serveru a záplavy (? tematická
sklizen Povodne) - 2004 zastavena po zaplnení dostupného úložného
prostoru. - gtgt všechny sklizne provádeny s NEDLIB
harvesterem, hloubka zanorení 25-50 odkazu ltlt - 2005 1. pokus o sklizení domény .cz pomocí
Heritrixu, neúspech kvuli nedostatkum použité
verze programu - zárí 2006 2. sklizen domény .cz pomocí Heritrixu.
Zastavena predcasne pro zaplnení dostupné diskové
kapacity. Limity max. 5000 dokumentu na server,
max. velikost souboru 100 MB
8Sklizne domény .cz v císlech
Rok Pocet stažených souboru Nekomprimovaná velikost GB Doba stahování dny Pocet domén druhé úrovne z reg. domén
2001 3,015,057 104 21 41,322 38
2002 10,249,302 307 93 79,022 69
2004 32,141,575 1,034 204 101,378 75
2005 9,336,123 247 12 4,795 2
2006 72,378,019 3,416 40 196,880 74
9Soucasný stav projektu
- 4-6x rocne je sklízen soubor zdroju (asi 300
serveru), na které má NK smlouvu o zprístupnení.
(nove se sklízejí se i vybrané zdroje bez smluv,
ale ty nejsou zprístupnovány). - práve skoncená sklizen techto zdroju se stane
základem prubežného sklízení s využitím
deduplikátoru. - príležitostné tematické sklizne (letos sklizen
volby) - ceká se na zprovoznení datového úložište NK,
které umožní dokoncit letošní celoplošnou
sklizen. Zbývá cca 20.000 domén. - v soucasné dobe je ve WebArchivu uloženo cca 5,5
TB dat (pred kompresí) 135 milionu
archivovaných souboru.
10Pocet dokumentu sklizených za den
11Pocet souboru a objem dat
12Zmeny softwarového vybavení
- 2004-2005 postupný prechod na SW vyvíjený
konsorciem IIPC (International Internet
Preservation Consortium www.netpreserve.org) - vývoj softwarového vybavení v rámci IIPC stále
probíhá - archivní souborový formát tar.gz nahrazen ARC
formátem (podporovaným nástroji IIPC) ? bylo
nutno prevést již uložená data do nového formátu. - pripravuje se nová verze formátu ARC, formát
WARC, vylepšující stávající formát o nové
vlastnosti. - podpora komprese dat a správy jejich integrity
- schopnost ukládat jedinecné identifikátory
záznamu - schopnost uložit metadata o datových
transforamcích a o duplikovaném obsahu - podpora pro zpracování velmi rozsáhlých záznamu
13Budoucnost projektu pokracování
- maximálne zautomatizovat proces od výberu zdroje,
oslovení vydavatele k podpisu smlouvy
s vydavatelem až po zprístupnení - legální lokální zprístupnení celého archivu
(vyhledávání podle URL a casu sklizne dokumentu)
pocátkem roku 2007 - vylepšení indexace (inkrementální indexování,
distribuovaný index?) - pokus o automatizované sklízení bohemikálních
zdroju mimo doménu .cz - podpora standardu digitálních knihoven (OAI
protokol, METS, jednoznacná identifikace
dokumentu) - 2008 integrace do pripravované Digitální
knihovny CR
14Webarchiv jak to funguje
A1 nová sklizen A2 konec sklízení -gt
indexovat A3 aktualizovat fulltext A4
aktualizovat seznam souboru
15Akvizice - Heritrix
- modulární, rozširitelný, probíhá neustálý vývoj
(nyní verze 1.10.1) - zkvalitnování systému
- zvýšení bezpecnosti
- platforme nezávislý (java aplikace)
- kvalitní a rychlá podpora vývojáru z Internet
Archive - open source kódy a modularita umožnují spolupráci
tretích stran na jeho vývoji - v nejnovejší verzi vylepšena ochrana pred pádem
do pastí - nelze dlouhodobe sklízet web bez odborných zásahu
v prubehu sklizne
16Akvizice - DeDuplicator
- Modul pro Heritrix
- Snaží se detekovat duplikáty ješte pred jejich
stažením - Využívá toho, že nekteré typy dokumentu (napr.
HTML) se mení casteji (jsou dynamicky generovány)
než jiné (napr. obrázky, video). - formát ARC neumožnuje plne využít možností
DeDuplicatoru (napr. možnost odkazovat na
dokument stažený z jiného URL) gt WARC
17Akvizice WEB CURATOR TOOL
- nástroj pro správu sklízení
- první verze uvolnena v zárí 2006
- vyvinut v rámci IIPC díky spolupráci Britské
knihovny a Národní knihovny Nového Zélandu. - umožnuje správu sklízení méne kvalifikovaným
uživatelum prostrednictvím graficky prívetivého a
propracovaného webového rozhraní - výborná podpora uživatelských oprávnení
- nepodporuje inkrementální sklízení
- multiplatformní, ale stávající verze
optimalizována pro platformu Windows (problém s
malými a velkými písmeny pri komunikaci s
databází). - nekonzistentní konfigurace
18Indexace Nutch, NutchWAX
- Nutch
- volne dostupný modulární vyhledávací engine
- umí stáhnout a zpracovat miliony stránek mesícne
spravovat jejich index, vyhledávat v nem 1000x za
vterinu - NutchWAX
- nástavba vyhledávacího rozhraní Nutch vytvorená
pro potreby indexování dokumentu archivovaných
Heritrixem (ARC formát), pridává do indexu
potrebná metadata, predevším casové razítko - Od letošní verze 0.6 pracuje nad MapReduce Nutch
(podpora zpracování velkých objemu dat,
distribuovaný filesystem Hadoop) - tato verze je zatím nestabilní
19WERA - WEb aRchive Access
- spolupráce konsorcia IIPC, Internet Archive a NWA
- využívá hlavní cásti NWA Toolset
- velmi snadná navigace a propracované uživatelské
rozhraní (casová osa zobrazuje casové verze
dokumentu) - výsledky vyhledávání v podobe URL zobrazeny velmi
prehledne a u každého odkazu jsou linky na
získání dalších casových verzí téhož URL - zobrazovat archivované stránky lze i pomocí
zadání presné URL adresy - archivované dokumenty a WERA propojeny skrz index
NutchWAXe - Problémy s javascriptem v nekterých stránkách
- Vývoj ukoncen, prechod na Wayback
20WAYBACK
- Aplikace, která v budoucnu nahradí stávající
Wayback Machine Internet Archivu - Dokumenty jsou indexovány a zprístupnovány pomocí
URL a casu, podporuje hvezdickovou konvenci - Režimy zprístupnení
- Archival URL úprava odkazu na stránce (link
zpet do archivu) - Proxy chová se jako proxy server, ale je pak
složité menit casové verze (WAX Toolbar plugin
pro Firefox) - Timeline casová osa, zatím experimentální
- Pripravuje se podpora fulltextového vyhledávání a
lokalizace
21Zkusíte to také??
- dejte nám tipy na zdroje
- prevezmete naše zkušenosti
- zacnete sklízet sami
- minimální požadavky slušné PC, primerené
množství úložného prostoru, dobrý správce
systému/programátor - realizovaná spolupráce
- Univerzitná knižnica Bratislava
- v budoucnu madarská NK?
- po dohode sklizen na požádání
22Dekujeme za pozornosta tešíme se na budoucí
spolupráci!webarchiv_at_nkp.cz