Wprowadzenie do budowy uslug informacyjnych - PowerPoint PPT Presentation

1 / 18
About This Presentation
Title:

Wprowadzenie do budowy uslug informacyjnych

Description:

Title: Sieci neuronowe w prognozowaniu podejmowanie decyzji i analiza niepewno ci Author: Witold Bartkiewicz Last modified by: usr Created Date – PowerPoint PPT presentation

Number of Views:115
Avg rating:3.0/5.0
Slides: 19
Provided by: Witol6
Category:

less

Transcript and Presenter's Notes

Title: Wprowadzenie do budowy uslug informacyjnych


1
Wprowadzenie do budowy uslug informacyjnych
Uniwersytet Lódzki Katedra Informatyki
W. Bartkiewicz
Wyklad 1. Zagadnienia wstepne
2
Literatura
  • Manning C.D., Raghavan P, Shütze H., An
    introduction to information retrieval, Cambridge
    University Press, 2007.
  • Baeza-Yates R., Ribeiro-Neto B., Modern
    information retrieval, Addison Wesley, 1999.
  • Weiss S.M., Indurkhya N., Zhang T., Damerau F.J.,
    Text mining. Predictive methods for analyzing
    unstructured information, Springer. 2005.
  • Baldi P., Frasconi P., Smyth P., Modeling the
    Internet and the Web, Wiley, 2003.
  • Chen Ch., Information visualization. Beyond the
    horizon, Springer, 2006.
  • Chakrabarti S., Mining the Web. Discovering
    Knowledge from Hypertext Data, Morgan Kaufmann,
    2005.

3
Literatura
  • Klopotek M.A., Inteligentne wyszukiwarki
    internetowe, Akademicka Oficyna Wydawnicza Exit,
    2001.
  • Wakulicz-Deja A., Podstawy systemów wyszukiwania
    informacji, Akademicka Oficyna Wydawnicza PLJ,
    1995.
  • Abiteboul S., Buneman P., Suciu D., Dane w sieci
    WWW od relacji do modelu semistrukturalnego i
    XML, Mikom, 2001.
  • Garcia-Molina H., Ullman J.D., Widom J.,
    Implementacja systemów baz danych, WNT, 2003.

4
Informacja vs dane
  • Uslugi informacyjne programy przetwarzajace
    informacje, dla dostarczenia funkcji wyzszego
    rzedu.
  • Informacja to zinterpretowane dane.
  • Dane przeznaczone sa do przetwarzania
    maszynowego
  • Zródla danych maja scisle okreslona strukture,
  • Relacyjne bazy danych, pliki rekordów itp.,
  • Znany musi byc ich schemat semantyka kazdego
    elementu danych jest scisle okreslona.
  • Ale informacja przeznaczona jest dla czlowieka.
  • Ludzie doskonale przetwarzaja informacje
    niestrukturalna, majaca postac ogólnie nazywana
    dokumentem,
  • Dokumenty teksty, strony webowe i multimedia
    (grafika, dzwiek, film),
  • Dane (informacje) niestrukturalne nie maja
    okreslonego schematu informacji.

5
Zródla strukturalne i niestrukturalne w 1996
Zródlo Manning, Raghavan, Shütze, An
Introduction to Information Retrieval
6
Zródla strukturalne i niestrukturalne w 2006
Zródlo Manning, Raghavan, Shütze, An
Introduction to Information Retrieval
7
Informacja vs dane
  • Nawet jesli przechowywane dane maja charakter
    strukturalny, to dla uslug informacyjnych
    wyzszego rzedu dostepne sa czesto w postaci
    niestrukturalnej informacji.
  • Dokumenty slabo ustrukturalizowane.
  • Strony HTML,
  • Teksty podzielone na rozdzialy, z wyodrebnionym
    tytulem, autorami, bibliografia, streszczeniem,
    itp.
  • Dokumenty semistrukturalne.
  • XML.

8
Uslugi informacyjne
  • Ludzkosc gromadzila informacje niemal od zarania
    swoich dziejów. Poczatkowo oczywiscie informacja
    zapisywana byla na róznego rodzaju nosnikach
    tradycyjnych tabliczkach glinianych,
    papirusach, pergaminie, papierze, itp. oraz
    gromadzona w recznie obslugiwanych zbiorach
    archiwach oraz bibliotekach.
  • Dla sprawnego zarzadzania czesto obszernymi
    zasobami informacji, niezbedne bylo wiec
    wypracowanie najrozmaitszych metod organizowania,
    porzadkowania i wyszukiwania poszczególnych
    zapisków (dokumentów).
  • Tak wiec, co dzis moze wydawac sie nieco
    zaskakujace, korzeni wspólczesnej informatyki w
    duzej mierze szukac nalezy w archiwistyce i
    bibliotekoznawstwie.

9
Uslugi informacyjne
  • Aby umozliwic odnalezienie niezbednej informacji
    w obszernej przestrzeni informacyjnej, stosuje
    sie zazwyczaj róznego rodzaju systemy
    klasyfikujace (katalogujace), pozwalajace na
    uporzadkowanie informacji w obrebie calej
    kolekcji lub pojedynczego dokumentu.
  • Jedna z pierwszych metod organizacji informacji
    byla alfabetyzacja, czyli klasyfikowanie
    fragmentów informacji zgodnie porzadkiem
    alfabetycznym.
  • Alfabetyzacja zostala prawdopodobnie po raz
    pierwszy zastosowana przez greckich bibliotekarzy
    juz w trzecim stuleciu p.n.e. w slynnej
    bibliotece Aleksandryjskiej w Egipcie.

10
Uslugi informacyjne
  • Plaskie struktury organizacji informacji sa
    zazwyczaj niewystarczajace przy duzych rozmiarach
    przestrzeni informacyjnej.
  • Aby sprawnie lokalizowac poszczególne jej
    elementy stosuje sie na ogól pewne hierarchie
    informacyjne, pozwalajace na stopniowa
    klasyfikacje dokumentu do coraz bardziej
    szczególowych podgrup na kolejnych poziomach.
  • Równiez w przypadku organizacji hierarchicznej
    informacji, poczatków nalezy szukac w
    starozytnosci.
  • Podzial tekstu na ksiegi, te z kolei na rozdzialy
    stosowany byl powszechnie w literaturze
    antycznej.
  • Pewne elementy klasyfikacji informacji w ramach
    hierarchii tematycznych wskazuje sie dla
    przykladu w Historii naturalnej Pliniusza
    Starszego (zmarl w 79 roku n.e.), czy tez w
    Nocach Attyckich Aulusa Gelliusa (okolo 160
    roku n.e.)

11
Uslugi informacyjne
  • W pelniejszym jednak zakresie o systemach
    klasyfikacji tematycznej w duzych kolekcjach
    dokumentów, mozna mówic jednak dopiero w czasach
    zdecydowanie pózniejszych.
  • Jako jeden z pierwszych przykladów wymienia sie
    tu system klasyfikacyjny wymyslony przez Tomasza
    Jeffersona, na potrzeby jego biblioteki w
    Monticello, która stala sie pózniej zalazkiem
    slynnej Biblioteki Kongresu Stanów Zjednoczonych.
  • W drugiej polowie dziewietnastego wieku natomiast
    opracowany zostal przez Melvila Deweya System
    Klasyfikacji Dziesietnej, który stanowi do dzis
    podstawe klasyfikacji tematycznej w wielu
    bibliotekach
  • Organizowanie informacji systemy klasyfikacji,
    oparte na róznorodnych strukturach
    hierarchicznych, stosowane jest równiez we
    wspólczesnych zasobach informacyjnych.

12
Uslugi informacyjne
  • Alternatywna metoda wspomagania przeszukiwania
    duzych zasobów informacyjnych, równiez stosowana
    do dzis, jest tworzenie róznego rodzaju indeksów.
  • Poczatkowo, w starozytnym Rzymie przez indeks
    rozumiano dolaczany do zwoju papirusu pokrowiec,
    zawierajacy tytul i czasami nazwisko autora.
    Pozwalal on na okreslenie zawartosci bez
    koniecznosci przegladania samego zwoju.
  • Stad tez samo slowo indeks zaczelo oznaczac po
    prostu tytul pracy. Stopniowo, mniej wiecej w
    ciagu I wieku n.e., znaczenie slowa indeks
    rozszerzone zostalo na spis tresci, czasami
    równiez z krótkimi streszczeniami poszczególnych
    rozdzialów.

13
Uslugi informacyjne
  • Indeks w obecnym tego slowa znaczeniu, skladajacy
    sie z slów kluczowych oraz informacji o ich
    polozeniu w dokumencie (lub w obrebie calej
    kolekcji) pojawia jednak sie dopiero po
    wynalezieniu druku.
  • W starozytnych tekstach, zapisywanych na
    rulonach, trudno bylo nawet okreslic liczbowe
    wskazniki polozenia. Nie bylo przeciez stron,
    niepraktycznie byloby równiez poslugiwac sie
    numerem wiersza.
  • Dopiero w przypadku dokumentów drukowanych w
    setkach i tysiacach egzemplarzy, mozemy mówic o
    powtarzalnosci dokumentu. Kopie przepisywane
    recznie, jesli chodzi o polozenie poszczególnych
    fragmentów tekstu, mogly róznic sie miedzy soba
    dosyc wyraznie.
  • Indeksy we wspólczesnym tego slowa znaczeniu
    rozwinely sie wiec w okresie miedzy druga polowa
    XV wieku, a wiekiem XVII, w którym kompilowane
    byly juz dosyc powszechnie.
  • Poczatkowo slowa kluczowe w indeksie porzadkowane
    byly jedynie wedlug pierwszej litery, pelna
    alfabetyzacja stala sie obowiazujaca w XVIII
    wieku.

14
Uslugi informacyjne
  • Wyszukiwanie informacji
  • Przegladanie i nawigacja w obszernych, zlozonych
    przestrzeniach informacyjnych
  • Filtrowanie i rekomendacja
  • Organizowanie skojarzeniowe zbiorów informacji
  • Wizualizacja zasobów informacyjnych
  • Zaawansowane uslugi informacyjne
  • Ekstrakcja wiedzy i informacji
  • Wnioskowanie w oparciu o baze informacji. Systemy
    odpowiedzi na zapytania, rozumowania opartego na
    przypadkach
  • Sumaryzacja (streszczanie) dokumentów i zbiorów
    informacji
  • Generowanie powiazan miedzy dokumentami
  • Automatyczne tlumaczenie

15
Technologie
  • Wyszukiwanie informacji
  • Klasyfikacja dokumentów
  • Grupowanie dokumentów
  • Eksploracja tekstu
  • Eksploracja sieci web

16
Wyszukiwanie informacji Skanowanie tekstu
  • Wyszukiwanie pelnotekstowe znajdowanie
    wszystkich dokumentów, które zawieraja podany
    przez uzytkownika lancuch znaków.
  • Dokladne i przyblizone algorytmy dopasowania
    wzorca.
  • Jako opis dokumentu tworzy sie specjalne drzewo
    indeksujace, tzw. drzewo przedrostkowe i
    przyrostkowe (wiele rodzajów np. trie, PAT,
    Patricia, itp.), pozwalajace na szybkie
    wyszukiwanie wzorca tekstowego.
  • Wady
  • Dotyczy wylacznie dokumentów tekstowych i do
    pewnego stopnia HTML.
  • Nawet dla dokumentów tekstowych z powodu
    heterogenicznego charakteru Internetu, trudno
    czasami pobrac tekst (rózne formaty).
  • Tekst moze byc niedostepny podczas wyszukiwania.
  • Opiera sie wylacznie na dopasowaniu wzorca. Brak
    mozliwosci zastosowania podejscia semantycznego.

17
Wyszukiwanie informacji Wyszukiwanie oparte na
cechach
  • Zamiast indeksowac caly tekst zapamietujemy pewne
    cechy dokumentu, oddajace w pewien sposób jego
    tresc.
  • W duzym stopniu eliminuje to wady podejscia
    pelnotekstowego.
  • Proces pozyskiwania cech dokumentów nazywamy
    indeksowaniem.
  • Typowe cechy wszystkie rodzaje dokumentów.
  • Slowa kluczowe (termy) pojedyncze slowa lub
    grupy slów. Dotyczy nie tylko dokumentów
    tekstowych!
  • Kategorie tematyczne.
  • Kategorie taksonomiczne (hierarchie tematów).
  • Dokumenty tekstowe
  • Analiza wspólautorstwa.
  • Analiza cytowania.
  • Dokumenty HTML analiza polaczen (linków).
  • Cechy specyficzne dokumentów multimedialnych.
  • Cechy calych dokumentów i indeksowanie pól
    strukturalnych.

18
Wyszukiwanie informacji Ocena dzialania
  • Dokladnosc wyszukiwania Odsetek wszystkich
    wyszukanych dokumentów relewantnych.
  • Zmiana parametrów metod wyszukiwania pozwala
    zwykle zwiekszac dokladnosc, ale kosztem
    umieszczenia w zbiorze wynikowym wielu dokumentów
    nierelewantnych.
  • Precyzja wyszukiwania Odsetek dokumentów
    relewantnych w zbiorze wynikowym.

Relewantny Nierelewantny
Wyszukany tp fp
Nie wyszukany fn tn
  • Dokladnosc R tp/(tp fn)
  • Precyzja P tp/(tp fp)
Write a Comment
User Comments (0)
About PowerShow.com