Slajd 1 - PowerPoint PPT Presentation

About This Presentation
Title:

Slajd 1

Description:

Title: Slajd 1 Author: Piotr Gawrysiak Last modified by: Piotr Gawrysiak Document presentation format: Niestandardowy Other titles: Arial Wingdings Times New Roman ... – PowerPoint PPT presentation

Number of Views:56
Avg rating:3.0/5.0
Slides: 15
Provided by: PiotrGa9
Category:

less

Transcript and Presenter's Notes

Title: Slajd 1


1
Narzedzia wyszukiwawcze repozytoriów
cyfrowych Piotr Gawrysiak Warszawa,
2009
2
Repozytoria informacji
  • Wspólczesne repozytoria informacji to juz przede
    wszystkim repozytoria cyfrowe
  • Nie oznacza to bynajmniej, iz produkujemy mniej
    informacji na tradycyjnych jej nosnikach
    zostaje ona jednak zagluszona przez latwo
    dostepna informacje w postaci cyfrowej
  • Wykladniczy wzrost globalnych zasobów informacji
    nazywany okreslany bywa1,2 mianem kryzysu
    informacji czy wrecz eksplozji informacyjnej
    czy slusznie?

Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2 Swiatowa roczna produkcja informacji2
Nosnik 2002 TBGórna granica 2002 TBDolna granica 1999 TBGórna granica 1999 TBDolna granica Zmiana (górne granice oszacowania)
Papierowy 1,634 327 1,200 240 36
Swiatloczuly 420,254 76,69 431,690 58,209 -3
Magnetyczny 5,187,130 3,416,230 2,779,760 2,073,760 87
Optyczny 103 51 81 29 28
Suma 5,609,121 3,416,281 3,212,731 2,132,238 74.5
1. Weinberg A.., Science, Government, and
Information, Oak Ridge National Laboratory, USA,
1963 2. Lyman P., Varian R. , How Much
Information?, University of Berkeley, USA 2003
3
Narzedzia wyszukiwawcze
Jakiekolwiek repozytorium informacji (np.
biblioteka) jest uzyteczne jedynie gdy istnieje
mechanizm organizacji i przeszukiwania jego
zasobów
  • Mechanizm wyszukiwawczy zapewniac moze w
    szczególnosci
  • a) Odszukanie konkretnego obiektu (np. ksiazki)
    gdy znana jest jego dokladna charakterystyka (np.
    autor, tytul, wydawca, rok wydania)
  • b) Odszukanie obiektów, zawierajacych zadana
    przez uzytkownika biblioteki informacje np.
    ksiazek o pewnej tematyce, lub tez akapitów
    traktujacych o zadanym temacie
  • c) Agregacja informacji zapisanej w
    przechowywanych obiektach w celu udzielenia
    odpowiedzi na pytanie uzytkownika np. podanie
    definicji terminu.
  • Systemy, jakie mozemy stworzyc dla bibliotek
    klasycznych, moga posiadac funkcjonalnosc
    okreslona powyzej w punktach a) i - do pewnego
    stopnia - b). Wynika to bezposrednio ze specyfiki
    repozytorium fizycznego, uniemozliwiajacego
    bezposredni dostep do zawartosci przechowywanych
    obiektów.
  • Co jest zas mozliwe w przypadku repozytoriów
    cyfrowych?

4
Repozytoria cyfrowe
  • Czym jest repozytorium cyfrowe?
  • Nie wystarcza tu jedynie samo przechowywanie
    informacji w postaci cyfrowej niezbedna jest
    mozliwosc automatycznego przetwarzania i
    transmisji tej informacji co wspólczesnie
    oznacza dostep poprzez siec Internet.
  • Internet jest jednak nie tylko siecia transmisji
    danych pomiedzy bibliotekami cyfrowymi, a ich
    uzytkownikami. Jego czesc (siec WWW) to takze
    repozytorium cyfrowe (oraz narzedzie kreacji
    tresci typu digital born)
  • Latwosc tworzenia i publikacji tresci o
    atrakcyjnej formie graficznej,
  • Sieciowosc mozliwosc latwego i
    niekontrolowanego tworzenia odnosników do innych
    zasobów (inspirowana koncepcja Vannevara Busha
    memexu),
  • Praktyczny brak kontroli nad zawartoscia
    powstajacej sieci - zarówno organizacyjnej jak i
    merytorycznej oraz prawnej (anonimowosc!),
  • Latwosc kopiowania i przywlaszczania istniejacej
    juz tresci (tu maja takze znaczenie kwestie
    prawne m.in. zwiazane z tzw. otwartymi
    licencjami).
  • Powyzsze cechy laczy ze soba brak kontroli siec
    WWW to swego rodzaju cyfrowa anarchia! Nb. warto
    porównac WWW z innym projektem inspirowanym idea
    Vannevara Busha memexu tj. systemem Teda
    Nelsona XANADU tworzonym od 1960 roku1.

1. Tuomi I., The Vision of Xanadu w Networks
of Innovation, Oxford University Press, 2002, s.
48-50
5
Pierwsze systemy wyszukiwawcze WWW
  • Wczesny Internet traktowany jest przez wiekszosc
    uzytkowników jako duza (cyfrowa oczywiscie)
    biblioteka1
  • Jak duza? Jest to trudne do okreslenia, jednak
    mozna szacowac iz wielkosc sieci WWW wynosi
    obecnie kilkanascie miliardów stron
  • Pierwsze narzedzia wyszukiwawcze stanowia zatem
    odpowiedniki narzedzi klasycznych bibliotek
    cyfrowych
  • Systemy klasyfikacji w postaci recznie
    tworzonych katalogów, takich jak projekt DMOZ,
    czy tez wczesne portale internetowe (np. Yahoo,
    Wirtualna Polska),
  • Wykorzystanie metadanych (odpowiednie naglówki
    stron WWW tzw. tag META),
  • Systemy wyszukiwawcze i jezyki zapytan (np. W3QL,
    WebSQL) traktujace siec jako klasyczna baze
    danych o duzym rozmiarze.
  • i okazuja sie nieefektywne.

1. Dokladniej zas kolekcja powiazanych ze soba
bibliotek patrz koncepcje autostrady
informacyjnej np. Gates B., The Road Ahead,
Penguin Books, 1996 2. Gulli A. et al.., The
Indexable Web is more than 11.5 billion pages
In WWW '05 conf. proc., ACM, New York, USA, s.
902-903
6
Pierwsze systemy wyszukiwawcze WWW
  • Potrzebne jest zatem inne podejscie, nie oparte o
    dane kontrolowane wyszukiwarka internetowa
  • Róznice w stosunku do narzedzi klasycznych
    bibliotek cyfrowych analiza pelnotekstowa
    dokumentów (z racji braku metadanych),
    automatyczne zbieranie dokumentów (z racji braku
    kontrolowanego repozytorium)
  • Elementy systemu1
  • Robot sieciowy (tzw. pajak, ang. web crawler)
    wykorzystanie hiperpolaczen
  • Indekser budujacy zbiór odwrócony
  • Mechanizm wykonywania zapytan
  • Wielkosc sieci powoduje, iz budowa takiego
    systemu stanowi wyzwanie technologiczne
  • Poczatkowo najpopularniejsze systemy, posiadajace
    najwiekszy indeks (AltaVista Digital Equipment
    Corporation) - 1996
  • Systemy te dzialaja, jednak jakosc wyszukiwania
    (w szczególnosci precyzja) okazuje sie bardzo
    niezadowalajaca
  • Wazne dla uzytkowników informacje okazuja sie
    bowiem trudne do odnalezienia w smietniku
    Internetu2

Kosztowne obliczeniowo
1. Brin, S. and Page, L. Anatomy of a large
scale hypertextual search engine, w WWW7 Conf.
Proceedings, Brisbane, Australia, 1998 2. Por.
np. Oramus M., Mózg w malinach, Polityka, nr
2243, kwiecien 2000
7
Systemy skuteczne
  • Rozwiazaniem problemu niewielkiej precyzji
    okazaly sie metody oszacowania jakosci stron
    wykorzystujace specyficzne cechy sieci WWW (takie
    jak znaczna redundancja informacji, obecnosc
    hiperpolaczen, dane behawioralne)
  • Podejscie (miara PageRank) podobne do metod
    bibliometrycznych istotnosc zródla jest
    bezposrednio zwiazana z liczba cytowan (tu
    wskazujacych na strone hiperpolaczen) i jakoscia
    cytujacych zródel
  • PageRank nie jest oczywiscie miara idealna ale
    jest metoda skuteczna
  • Dysponujemy takze innymi metodami analizy tresci
    zawartej w sieci WWW nie tak spektakularnymi,
    lecz takze skutecznymi
  • Rozwiazania maszynowe (automatyczna klasyfikacja
    i grupowanie dokumentów, maszynowe budowanie
    ontologii, wizualizacja, )
  • Rozwiazania spolecznosciowe (collaborative
    filtering, tagging, reblogging, )
  • Wszystkie wymagaja otwartosci zasobów cyfrowych
    które analizuja

8
Narzedzia spoleczenstwa informacyjnego?
  • Internet przestaje byc smietnikiem a staje sie
    repozytorium wiedzy dzieki mozliwosci
    skutecznego odnajdywania tejze wiedzy
  • ale
  • jest to repozytorium, którego wlasciwie nie
    mozna przegladac, mozna je jedynie przeszukiwac
    to zas wymaga aktywnego sformulowania zapytania.
  • Tresc cyfrowa konkuruje o swego potencjalnego
    odbiorce poprzez jakosc, a raczej
    odnajdywalnosc ta zas staje sie dostepna
    takze dla elementów trudnych do odszukania (czy
    wrecz umieszczenia!) w klasycznych bibliotekach.
  • Zmiana sposobu korzystania z repozytoriów wiedzy
    zamiast najpierw wybierac dostawce wiedzy (np.
    agencje prasowa, biblioteke itd.) korzystac
    poczynamy z uslug posrednika, którym staja sie
    narzedzia wyszukiwawcze.
  • Coraz latwiej laczyc okruchy wiedzy pochodzace
    z róznych zródel.

9
Biblioteki cyfrowe (versus Wikipedia)
  • Powstaje coraz wiecej bibliotek cyfrowych, zas
    naklady na cyfryzacje zasobów bibliotecznych
    rosna lecz ich popularnosc pozostaje niewielka.
  • Biblioteki cyfrowe nie potrafia sprzedac
    swoich zasobów uzytkownikom, sa bowiem niewygodne
    i nieefektywne i poprawienie tej sytuacji nie
    bedzie zadaniem prostym
  • Repozytoria bibliotek nie posiadaja informacji o
    polaczeniach semantycznych pomiedzy zasobami,
    która umozliwilaby zastosowanie efektywnych
    algorytmów wyszukiwawczych, takich jak PageRank,
  • Restrykcyjne czesto ograniczenia IPR
    uniemozliwiaja bezposredni dostep do zasobów dla
    wszystkich uzytkowników (zjawisko cyfrowego
    wykluczenia dokumentów),
  • Format przechowywania cyfrowych danych
    uniemozliwia tworzenie bezposrednich odnosników
    do tresci zasobów (ang. deep linking),
  • Sila bibliotek moglyby byc wysokiej klasy
    metadane bedace wynikiem pracy katalogerów
    jednak ich uzytecznosc, szczególnie dla
    uzytkowników przyzwyczajonych do jakosci i
    specyfiki dzialania wyszukiwarek sieciowych, jest
    znikoma1.

1. Gawrysiak P., Cyfrowe biblioteki a
wyszukiwanie informacji, w Przeglad
biblioteczny, 4/2008, s.111-118
10
Biblioteki cyfrowe (versus Wikipedia)
  • Serwisy takie jak Wikipedia czy tez nawet Google
    Books sa obecnie po prostu znacznie bardziej
    bardziej wygodne i przez to bardziej popularne,
  • Problem nie zniknie sam zas tworzenie
    metabibliotek cyfrowych (harvesting, OAI)
    powoduje, iz biblioteki cyfrowe zaczynaja
    upodabniac sie, pod wzgledem objetosci ale i
    jakosci zasobów informacyjnych do wczesnej
    sieci WWW,
  • Czy rozwiazaniem byloby pelne otwarcie
    zawartosci bibliotek cyfrowych i umozliwienie
    przeszukiwania przechowywanych tamze zasobów
    przez uniwersalne systemy wyszukiwawcze takie jak
    Google Search?
  • Co zatem z profesja bibliotekarza
    katalogera?
  • Byc moze przeciwnie nalezy tworzyc
    skomplikowane mechanizmy katalogowania,
    wyposazone w narzedzia sztucznej inteligencji,
    które przeksztalca biblioteki cyfrowe z
    repozytoriów informacji w zródla (kontrolowanej)
    wiedzy (curated knowledge) przyklad
    WolframAlpha

1. Gawrysiak P., Cyfrowe biblioteki a
wyszukiwanie informacji, w Przeglad
biblioteczny, 4/2008, s.111-118
11
Wyzwania
  • Problemy techniczne - dostep do energii
    elektrycznej oraz mozliwosci chlodzenia urzadzen
    elektronicznych moga ograniczyc w przyszlosci
    wzrost zarówno repozytoriów cyfrowych jak i ich
    narzedzi wyszukiwawczych,
  • Grey web nie wszystkie rodzaje tresci cyfrowych
    sa latwe, czy wrecz mozliwe, do indeksowania,
  • Transparentnosc systemów wyszukiwawczych czy
    mozemy wierzyc firmom takim jak Google?
  • Nowe rodzaje tresci Internet coraz czesciej
    poczyna byc wykorzystywany nie tylko jako zródlo
    wiedzy, lecz takze medium komunikacji
    blyskawicznej. Przeszukiwanie takich wiadomosci
    (np. z serwisów twitter) wymaga specyficznych
    algorytmów i metod innych niz te uzywane przez
    wspólczesne wyszukiwarki sieciowe,
  • Nowe metody dostepu coraz czesciej takze
    wykorzystujemy zasoby sieci WWW przy uzyciu
    urzadzen mobilnych to zas wymaga jeszcze (sic!)
    szybszych i prostszych narzedzi wyszukiwawczych
  • Nowe problemy wyszukiwawcze wspólczesny
    Internet to nie tylko baza wiedzy, to takze
    globalny rynek, na którym poszukujemy takze
    towarów i uslug

12
Zakonczenie
13
(No Transcript)
14
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com