Title: Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie
1Procesy decyzyjne w aktywnym wyszukiwaniu
informacji w Internecie
- Mieczyslaw Klopotek, Arkadiusz Dzierzanowski,
- Marcin Brzóska, Mariusz Kujawiak
2Problemy zwiazane z wyszukiwaniem informacji w WWW
- Nadmiarowosc i nieaktualnosc informacji.
- Rozproszona struktura WWW.
- Zbyt duza ilosc dokumentów.
- Róznorodnosc zródel informacji.
- Dynamiczny rozwój sieci Internet.
3Wyszukiwarki
- oparte na analizie tresci strony - oparte na
analizie topologii sieci - oparte na zasadzie
aukcji miejsc - oparte na katalogach
4Meta i multiwyszukiwarki
Serwisy typu "lista strony WWW na których
zgromadzone zostaly odnosniki do wybranych,
standardowych wyszukiwarek Serwisy poszukujacy
pojedynczo uzyskane w ten sposób odnosniki sa
odpowiednio porzadkowane i wyswietlane zazwyczaj
przy zachowaniu podzialu na poszczególne
wyszukiwarki. Serwisy poszukujace równolegle
lacza sie jednoczesnie z wieloma serwisami i na
biezaco pobieraja z nich dane.
5Osobiste narzedzia wyszukiwawcze
Narzedzia takie odwiedzajac strony zaproponowane
przez uzytkownika wyszukuja przydatne dla niego
informacje
Narzedzie takie zainstalowane w komputerze,
korzysta z wielu indekserów jednoczesnie, a
nastepnie przetwarza uzyskane wyniki, usuwa
duplikaty i wyswietla jednolita liste zgodnie z
przyjetymi przez uzytkownika zasadami.
6Wspomaganie decyzji (nawigacyjnych) w osobistych
narzedziach wyszukiwawczych
- Oparte na powiazaniach pomiedzy dokumentami
- PageRank
- PHITS
- Oparte na zawartosci dokumentów
- PLSA
- TFIDF
- Hybrydowe
- PLSAPHITS
7PageRank
- Popularny dzieki wyszukiwarce internetowej
Google.com. - Google traktuje odsylacz ze strony A do strony B
jako glos udzielony stronie B przez strone A.
8PHITS
- Algorytm korzysta z macierzy A, która zawiera
dane dotyczace cytowania jednego dokumentu przez
inny tzn. Aij jest niezerowe jesli dokument di
jest cytowany przez dokument dj, lub równowaznie
jesli dj zawiera odsylacz do dokumentu di. - Wyrózniamy dwa rodzaje dokumentów
- authoritatives
- hubs
- PHITS modeluje linki wchodzace do dokumentu,
czyli cytowania zewnetrzne dokumentu.
9PLSA
- Macierz termów i dokumentów N zliczajaca slowa,
tj. Nij oznacza, jak czesto term (pojedyncze
slowo lub fraza) ti wystepuje w dokumencie d. - Dokument dj. jest reprezentowany jako wypukla
kombinacja czynników o wagach mieszaniny
P(zkdj), tzn. prawdopodobienstwa predykcji termu
w poszczególnych dokumentach sa ograniczone do
formy funkcyjnej - P(ti dj) Sk P(tizk)P(zkdj),
10TFIDF
- Waga dokumentów oparta na statystycznej wadze
termów TFIDF (term frequency inverse document
frequency). - Wyrazona jest ona nastepujacym wzorem
- tfidfij tfij / idfj tfij / log2(N/dfj)
- tfij to liczba wystapien termu j w dokumencie
i, - dfj liczba dokumentów zawierajacych term j,
- N ogólna liczba dokumentów.
- Z punktu widzenia tego algorytmu duzego znaczenia
nabierze term czesto wystepujacy w jednym z
dokumentów, a rzadko w innych.
11TFIDF
- Majac dany zbiór termów Zw1,w2,w3, po
wyliczeniu wag dla poszczególnych wyrazów,
obliczamy calkowita wage dokumentu z
nastepujacego wzoru - Si waga dokumentu i,
- Di calkowita liczba termów w dokumencie i,
- N calkowita liczba termów,
- Wj waga termu j,
- Dij liczba wystapien termu j w dokumencie i
12PLSAPHITS
- Poniewaz zarówno PLSA i PHITS jest oparte na
podobnym rozkladzie, mozna zdefiniowac prostszy
wspólny model dla prawdopodobienstwa hiperlaczy i
termów w dokumentach - Zaleta takiego polaczenia jest mozliwosc
wykorzystanie zawartego tekstu i powiazania
dokumentów. - Zastosowanie tego modelu umozliwia precyzyjne
okreslanie dokumentów najbardziej do siebie
podobnych poprzez zawartosc merytoryczna tego
dokumentu jak równiez powiazanie z innymi
dokumentami przez zawarte w tresci hiperlacza.
13Przyklady wykorzystania algorytmu TFIDF
- Witryna http//onet.pl - ilosc stron 322
- slowa kluczowe pilka nozna
14Przyklady wykorzystania algorytmów (1)
Wprowadzenie pomocniczej miary quasi
statystycznej dla algorytmu opartego na
powiazaniach pomiedzy stronami, pozwala na
wziecie pod uwage takze zawartosci merytorycznej
dokumantu.
15Rozklad procentowy jakosci stron
Witryna http//allegro.pl - ilosc stron 150 slowo
kluczowe komputer
Przed filtrowaniem stron WWW
Po filtrowaniu stron WWW
16Przyklady wykorzystania algorytmów (2)
- Witryna http//www.ii.ap.siedlce.pl - ilosc stron
54 - slowa kluczowe studia
17Przyklady wykorzystania algorytmów (1)
Witryna http//allegro.pl - ilosc stron 134
slowo kluczowe komputer
18Struktura dzialania metawyszukiwarki MetaSzukacz
19Metawyszukiwarka MetaSzukacz
Akcja na przycisku Szukaj rozsyla zapytanie do
wybranych wyszukiwarek
Pole do wprowadzenia zapytania do wyszukiwarek
Wybór wyszukiwarek z których beda pobierane opisy
dokumentów
20Prezentacja wyników w MetaSzukaczu
Mapa rozmieszczenia dokumentów z pomoca algorytmu
WEBSOM
Informacje o wybranym dokumencie w mapie
Wybór algorytmu decyzyjnego który wskazuje
nastepny podobny dokument
Zawartosc merytoryczna wybranego dokumentu
Legenda mapy okreslajaca waznosc dokumentu
21Szybkosc przekazywania wyników
22Zaleznosc przetwarzania danych przez poszczególne
algorytmy
23Subiektywna ocena algorytmów nawigacji dla
zapytania metawyszukiwarki