Slajd 1 - PowerPoint PPT Presentation

About This Presentation

Title:

Slajd 1

Description:

Title: Slajd 1 Author: Piotr Gawrysiak Last modified by: Piotr Gawrysiak Document presentation format: Niestandardowy Other titles: Arial Wingdings Times New Roman ... – PowerPoint PPT presentation

Number of Views:62

Avg rating:3.0/5.0

Slides: 15

Provided by: PiotrGa9

Category:

more less

Transcript and Presenter's Notes

Title: Slajd 1

1
Narzedzia wyszukiwawcze repozytoriów
cyfrowych Piotr Gawrysiak Warszawa,
2009
2
Repozytoria informacji

Wspólczesne repozytoria informacji to juz przede
wszystkim repozytoria cyfrowe
Nie oznacza to bynajmniej, iz produkujemy mniej
informacji na tradycyjnych jej nosnikach
zostaje ona jednak zagluszona przez latwo
dostepna informacje w postaci cyfrowej
Wykladniczy wzrost globalnych zasobów informacji
nazywany okreslany bywa1,2 mianem kryzysu
informacji czy wrecz eksplozji informacyjnej
czy slusznie?

Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2
Nosnik 2002 TBGórna granica 2002 TBDolna granica 1999 TBGórna granica 1999 TBDolna granica Zmiana (górne granice oszacowania)
Papierowy 1,634 327 1,200 240 36
Swiatloczuly 420,254 76,69 431,690 58,209 -3
Magnetyczny 5,187,130 3,416,230 2,779,760 2,073,760 87
Optyczny 103 51 81 29 28
Suma 5,609,121 3,416,281 3,212,731 2,132,238 74.5
1. Weinberg A.., Science, Government, and
Information, Oak Ridge National Laboratory, USA,
1963 2. Lyman P., Varian R. , How Much
Information?, University of Berkeley, USA 2003
3
Narzedzia wyszukiwawcze
Jakiekolwiek repozytorium informacji (np.
biblioteka) jest uzyteczne jedynie gdy istnieje
mechanizm organizacji i przeszukiwania jego
zasobów

Mechanizm wyszukiwawczy zapewniac moze w
szczególnosci
a) Odszukanie konkretnego obiektu (np. ksiazki)
gdy znana jest jego dokladna charakterystyka (np.
autor, tytul, wydawca, rok wydania)
b) Odszukanie obiektów, zawierajacych zadana
przez uzytkownika biblioteki informacje np.
ksiazek o pewnej tematyce, lub tez akapitów
traktujacych o zadanym temacie
c) Agregacja informacji zapisanej w
przechowywanych obiektach w celu udzielenia
odpowiedzi na pytanie uzytkownika np. podanie
definicji terminu.
Systemy, jakie mozemy stworzyc dla bibliotek
klasycznych, moga posiadac funkcjonalnosc
okreslona powyzej w punktach a) i - do pewnego
stopnia - b). Wynika to bezposrednio ze specyfiki
repozytorium fizycznego, uniemozliwiajacego
bezposredni dostep do zawartosci przechowywanych
obiektów.
Co jest zas mozliwe w przypadku repozytoriów
cyfrowych?

4
Repozytoria cyfrowe

Czym jest repozytorium cyfrowe?
Nie wystarcza tu jedynie samo przechowywanie
informacji w postaci cyfrowej niezbedna jest
mozliwosc automatycznego przetwarzania i
transmisji tej informacji co wspólczesnie
oznacza dostep poprzez siec Internet.
Internet jest jednak nie tylko siecia transmisji
danych pomiedzy bibliotekami cyfrowymi, a ich
uzytkownikami. Jego czesc (siec WWW) to takze
repozytorium cyfrowe (oraz narzedzie kreacji
tresci typu digital born)
Latwosc tworzenia i publikacji tresci o
atrakcyjnej formie graficznej,
Sieciowosc mozliwosc latwego i
niekontrolowanego tworzenia odnosników do innych
zasobów (inspirowana koncepcja Vannevara Busha
memexu),
Praktyczny brak kontroli nad zawartoscia
powstajacej sieci - zarówno organizacyjnej jak i
merytorycznej oraz prawnej (anonimowosc!),
Latwosc kopiowania i przywlaszczania istniejacej
juz tresci (tu maja takze znaczenie kwestie
prawne m.in. zwiazane z tzw. otwartymi
licencjami).
Powyzsze cechy laczy ze soba brak kontroli siec
WWW to swego rodzaju cyfrowa anarchia! Nb. warto
porównac WWW z innym projektem inspirowanym idea
Vannevara Busha memexu tj. systemem Teda
Nelsona XANADU tworzonym od 1960 roku1.

1. Tuomi I., The Vision of Xanadu w Networks
of Innovation, Oxford University Press, 2002, s.
48-50
5
Pierwsze systemy wyszukiwawcze WWW

Wczesny Internet traktowany jest przez wiekszosc
uzytkowników jako duza (cyfrowa oczywiscie)
biblioteka1
Jak duza? Jest to trudne do okreslenia, jednak
mozna szacowac iz wielkosc sieci WWW wynosi
obecnie kilkanascie miliardów stron
Pierwsze narzedzia wyszukiwawcze stanowia zatem
odpowiedniki narzedzi klasycznych bibliotek
cyfrowych
Systemy klasyfikacji w postaci recznie
tworzonych katalogów, takich jak projekt DMOZ,
czy tez wczesne portale internetowe (np. Yahoo,
Wirtualna Polska),
Wykorzystanie metadanych (odpowiednie naglówki
stron WWW tzw. tag META),
Systemy wyszukiwawcze i jezyki zapytan (np. W3QL,
WebSQL) traktujace siec jako klasyczna baze
danych o duzym rozmiarze.
i okazuja sie nieefektywne.

1. Dokladniej zas kolekcja powiazanych ze soba
bibliotek patrz koncepcje autostrady
informacyjnej np. Gates B., The Road Ahead,
Penguin Books, 1996 2. Gulli A. et al.., The
Indexable Web is more than 11.5 billion pages
In WWW '05 conf. proc., ACM, New York, USA, s.
902-903
6
Pierwsze systemy wyszukiwawcze WWW

Potrzebne jest zatem inne podejscie, nie oparte o
dane kontrolowane wyszukiwarka internetowa
Róznice w stosunku do narzedzi klasycznych
bibliotek cyfrowych analiza pelnotekstowa
dokumentów (z racji braku metadanych),
automatyczne zbieranie dokumentów (z racji braku
kontrolowanego repozytorium)
Elementy systemu1
Robot sieciowy (tzw. pajak, ang. web crawler)
wykorzystanie hiperpolaczen
Indekser budujacy zbiór odwrócony
Mechanizm wykonywania zapytan
Wielkosc sieci powoduje, iz budowa takiego
systemu stanowi wyzwanie technologiczne
Poczatkowo najpopularniejsze systemy, posiadajace
najwiekszy indeks (AltaVista Digital Equipment
Corporation) - 1996
Systemy te dzialaja, jednak jakosc wyszukiwania
(w szczególnosci precyzja) okazuje sie bardzo
niezadowalajaca
Wazne dla uzytkowników informacje okazuja sie
bowiem trudne do odnalezienia w smietniku
Internetu2

Kosztowne obliczeniowo
1. Brin, S. and Page, L. Anatomy of a large
scale hypertextual search engine, w WWW7 Conf.
Proceedings, Brisbane, Australia, 1998 2. Por.
np. Oramus M., Mózg w malinach, Polityka, nr
2243, kwiecien 2000
7
Systemy skuteczne

Rozwiazaniem problemu niewielkiej precyzji
okazaly sie metody oszacowania jakosci stron
wykorzystujace specyficzne cechy sieci WWW (takie
jak znaczna redundancja informacji, obecnosc
hiperpolaczen, dane behawioralne)
Podejscie (miara PageRank) podobne do metod
bibliometrycznych istotnosc zródla jest
bezposrednio zwiazana z liczba cytowan (tu
wskazujacych na strone hiperpolaczen) i jakoscia
cytujacych zródel
PageRank nie jest oczywiscie miara idealna ale
jest metoda skuteczna
Dysponujemy takze innymi metodami analizy tresci
zawartej w sieci WWW nie tak spektakularnymi,
lecz takze skutecznymi
Rozwiazania maszynowe (automatyczna klasyfikacja
i grupowanie dokumentów, maszynowe budowanie
ontologii, wizualizacja, )
Rozwiazania spolecznosciowe (collaborative
filtering, tagging, reblogging, )
Wszystkie wymagaja otwartosci zasobów cyfrowych
które analizuja

8
Narzedzia spoleczenstwa informacyjnego?

Internet przestaje byc smietnikiem a staje sie
repozytorium wiedzy dzieki mozliwosci
skutecznego odnajdywania tejze wiedzy
ale
jest to repozytorium, którego wlasciwie nie
mozna przegladac, mozna je jedynie przeszukiwac
to zas wymaga aktywnego sformulowania zapytania.
Tresc cyfrowa konkuruje o swego potencjalnego
odbiorce poprzez jakosc, a raczej
odnajdywalnosc ta zas staje sie dostepna
takze dla elementów trudnych do odszukania (czy
wrecz umieszczenia!) w klasycznych bibliotekach.
Zmiana sposobu korzystania z repozytoriów wiedzy
zamiast najpierw wybierac dostawce wiedzy (np.
agencje prasowa, biblioteke itd.) korzystac
poczynamy z uslug posrednika, którym staja sie
narzedzia wyszukiwawcze.
Coraz latwiej laczyc okruchy wiedzy pochodzace
z róznych zródel.

9
Biblioteki cyfrowe (versus Wikipedia)

Powstaje coraz wiecej bibliotek cyfrowych, zas
naklady na cyfryzacje zasobów bibliotecznych
rosna lecz ich popularnosc pozostaje niewielka.
Biblioteki cyfrowe nie potrafia sprzedac
swoich zasobów uzytkownikom, sa bowiem niewygodne
i nieefektywne i poprawienie tej sytuacji nie
bedzie zadaniem prostym
Repozytoria bibliotek nie posiadaja informacji o
polaczeniach semantycznych pomiedzy zasobami,
która umozliwilaby zastosowanie efektywnych
algorytmów wyszukiwawczych, takich jak PageRank,
Restrykcyjne czesto ograniczenia IPR
uniemozliwiaja bezposredni dostep do zasobów dla
wszystkich uzytkowników (zjawisko cyfrowego
wykluczenia dokumentów),
Format przechowywania cyfrowych danych
uniemozliwia tworzenie bezposrednich odnosników
do tresci zasobów (ang. deep linking),
Sila bibliotek moglyby byc wysokiej klasy
metadane bedace wynikiem pracy katalogerów
jednak ich uzytecznosc, szczególnie dla
uzytkowników przyzwyczajonych do jakosci i
specyfiki dzialania wyszukiwarek sieciowych, jest
znikoma1.

1. Gawrysiak P., Cyfrowe biblioteki a
wyszukiwanie informacji, w Przeglad
biblioteczny, 4/2008, s.111-118
10
Biblioteki cyfrowe (versus Wikipedia)

Serwisy takie jak Wikipedia czy tez nawet Google
Books sa obecnie po prostu znacznie bardziej
bardziej wygodne i przez to bardziej popularne,
Problem nie zniknie sam zas tworzenie
metabibliotek cyfrowych (harvesting, OAI)
powoduje, iz biblioteki cyfrowe zaczynaja
upodabniac sie, pod wzgledem objetosci ale i
jakosci zasobów informacyjnych do wczesnej
sieci WWW,
Czy rozwiazaniem byloby pelne otwarcie
zawartosci bibliotek cyfrowych i umozliwienie
przeszukiwania przechowywanych tamze zasobów
przez uniwersalne systemy wyszukiwawcze takie jak
Google Search?
Co zatem z profesja bibliotekarza
katalogera?
Byc moze przeciwnie nalezy tworzyc
skomplikowane mechanizmy katalogowania,
wyposazone w narzedzia sztucznej inteligencji,
które przeksztalca biblioteki cyfrowe z
repozytoriów informacji w zródla (kontrolowanej)
wiedzy (curated knowledge) przyklad
WolframAlpha

1. Gawrysiak P., Cyfrowe biblioteki a
wyszukiwanie informacji, w Przeglad
biblioteczny, 4/2008, s.111-118
11
Wyzwania

Problemy techniczne - dostep do energii
elektrycznej oraz mozliwosci chlodzenia urzadzen
elektronicznych moga ograniczyc w przyszlosci
wzrost zarówno repozytoriów cyfrowych jak i ich
narzedzi wyszukiwawczych,
Grey web nie wszystkie rodzaje tresci cyfrowych
sa latwe, czy wrecz mozliwe, do indeksowania,
Transparentnosc systemów wyszukiwawczych czy
mozemy wierzyc firmom takim jak Google?
Nowe rodzaje tresci Internet coraz czesciej
poczyna byc wykorzystywany nie tylko jako zródlo
wiedzy, lecz takze medium komunikacji
blyskawicznej. Przeszukiwanie takich wiadomosci
(np. z serwisów twitter) wymaga specyficznych
algorytmów i metod innych niz te uzywane przez
wspólczesne wyszukiwarki sieciowe,
Nowe metody dostepu coraz czesciej takze
wykorzystujemy zasoby sieci WWW przy uzyciu
urzadzen mobilnych to zas wymaga jeszcze (sic!)
szybszych i prostszych narzedzi wyszukiwawczych
Nowe problemy wyszukiwawcze wspólczesny
Internet to nie tylko baza wiedzy, to takze
globalny rynek, na którym poszukujemy takze
towarów i uslug