Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie - PowerPoint PPT Presentation

1 / 23

About This Presentation

Title:

Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie

Description:

Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie Mieczys aw K opotek, Arkadiusz Dzier anowski, Marcin Brz ska, Mariusz Kujawiak – PowerPoint PPT presentation

Number of Views:233

Avg rating:3.0/5.0

Slides: 24

Provided by: max9259

Category:

more less

Transcript and Presenter's Notes

Title: Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie

1
Procesy decyzyjne w aktywnym wyszukiwaniu
informacji w Internecie

Mieczyslaw Klopotek, Arkadiusz Dzierzanowski,
Marcin Brzóska, Mariusz Kujawiak

2
Problemy zwiazane z wyszukiwaniem informacji w WWW

Nadmiarowosc i nieaktualnosc informacji.
Rozproszona struktura WWW.
Zbyt duza ilosc dokumentów.
Róznorodnosc zródel informacji.
Dynamiczny rozwój sieci Internet.

3
Wyszukiwarki
- oparte na analizie tresci strony - oparte na
analizie topologii sieci - oparte na zasadzie
aukcji miejsc - oparte na katalogach
4
Meta i multiwyszukiwarki
Serwisy typu "lista strony WWW na których
zgromadzone zostaly odnosniki do wybranych,
standardowych wyszukiwarek Serwisy poszukujacy
pojedynczo uzyskane w ten sposób odnosniki sa
odpowiednio porzadkowane i wyswietlane zazwyczaj
przy zachowaniu podzialu na poszczególne
wyszukiwarki. Serwisy poszukujace równolegle
lacza sie jednoczesnie z wieloma serwisami i na
biezaco pobieraja z nich dane.
5
Osobiste narzedzia wyszukiwawcze
Narzedzia takie odwiedzajac strony zaproponowane
przez uzytkownika wyszukuja przydatne dla niego
informacje
Narzedzie takie zainstalowane w komputerze,
korzysta z wielu indekserów jednoczesnie, a
nastepnie przetwarza uzyskane wyniki, usuwa
duplikaty i wyswietla jednolita liste zgodnie z
przyjetymi przez uzytkownika zasadami.
6
Wspomaganie decyzji (nawigacyjnych) w osobistych
narzedziach wyszukiwawczych

Oparte na powiazaniach pomiedzy dokumentami
PageRank
PHITS
Oparte na zawartosci dokumentów
PLSA
TFIDF
Hybrydowe
PLSAPHITS

7
PageRank

Popularny dzieki wyszukiwarce internetowej
Google.com.
Google traktuje odsylacz ze strony A do strony B
jako glos udzielony stronie B przez strone A.

8
PHITS

Algorytm korzysta z macierzy A, która zawiera
dane dotyczace cytowania jednego dokumentu przez
inny tzn. Aij jest niezerowe jesli dokument di
jest cytowany przez dokument dj, lub równowaznie
jesli dj zawiera odsylacz do dokumentu di.
Wyrózniamy dwa rodzaje dokumentów
authoritatives
hubs
PHITS modeluje linki wchodzace do dokumentu,
czyli cytowania zewnetrzne dokumentu.

9
PLSA

Macierz termów i dokumentów N zliczajaca slowa,
tj. Nij oznacza, jak czesto term (pojedyncze
slowo lub fraza) ti wystepuje w dokumencie d.
Dokument dj. jest reprezentowany jako wypukla
kombinacja czynników o wagach mieszaniny
P(zkdj), tzn. prawdopodobienstwa predykcji termu
w poszczególnych dokumentach sa ograniczone do
formy funkcyjnej
P(ti dj) Sk P(tizk)P(zkdj),

10
TFIDF

Waga dokumentów oparta na statystycznej wadze
termów TFIDF (term frequency inverse document
frequency).
Wyrazona jest ona nastepujacym wzorem
tfidfij tfij / idfj tfij / log2(N/dfj)
tfij to liczba wystapien termu j w dokumencie
i,
dfj liczba dokumentów zawierajacych term j,
N ogólna liczba dokumentów.
Z punktu widzenia tego algorytmu duzego znaczenia
nabierze term czesto wystepujacy w jednym z
dokumentów, a rzadko w innych.

11
TFIDF

Majac dany zbiór termów Zw1,w2,w3, po
wyliczeniu wag dla poszczególnych wyrazów,
obliczamy calkowita wage dokumentu z
nastepujacego wzoru
Si waga dokumentu i,
Di calkowita liczba termów w dokumencie i,
N calkowita liczba termów,
Wj waga termu j,
Dij liczba wystapien termu j w dokumencie i

12
PLSAPHITS

Poniewaz zarówno PLSA i PHITS jest oparte na
podobnym rozkladzie, mozna zdefiniowac prostszy
wspólny model dla prawdopodobienstwa hiperlaczy i
termów w dokumentach
Zaleta takiego polaczenia jest mozliwosc
wykorzystanie zawartego tekstu i powiazania
dokumentów.
Zastosowanie tego modelu umozliwia precyzyjne
okreslanie dokumentów najbardziej do siebie
podobnych poprzez zawartosc merytoryczna tego
dokumentu jak równiez powiazanie z innymi
dokumentami przez zawarte w tresci hiperlacza.

13
Przyklady wykorzystania algorytmu TFIDF

Witryna http//onet.pl - ilosc stron 322
slowa kluczowe pilka nozna

14
Przyklady wykorzystania algorytmów (1)
Wprowadzenie pomocniczej miary quasi
statystycznej dla algorytmu opartego na
powiazaniach pomiedzy stronami, pozwala na
wziecie pod uwage takze zawartosci merytorycznej
dokumantu.
15
Rozklad procentowy jakosci stron
Witryna http//allegro.pl - ilosc stron 150 slowo
kluczowe komputer
Przed filtrowaniem stron WWW
Po filtrowaniu stron WWW
16
Przyklady wykorzystania algorytmów (2)

Witryna http//www.ii.ap.siedlce.pl - ilosc stron
54
slowa kluczowe studia

17
Przyklady wykorzystania algorytmów (1)
Witryna http//allegro.pl - ilosc stron 134
slowo kluczowe komputer
18
Struktura dzialania metawyszukiwarki MetaSzukacz
19
Metawyszukiwarka MetaSzukacz
Akcja na przycisku Szukaj rozsyla zapytanie do
wybranych wyszukiwarek
Pole do wprowadzenia zapytania do wyszukiwarek
Wybór wyszukiwarek z których beda pobierane opisy
dokumentów
20
Prezentacja wyników w MetaSzukaczu
Mapa rozmieszczenia dokumentów z pomoca algorytmu
WEBSOM
Informacje o wybranym dokumencie w mapie
Wybór algorytmu decyzyjnego który wskazuje
nastepny podobny dokument
Zawartosc merytoryczna wybranego dokumentu
Legenda mapy okreslajaca waznosc dokumentu
21
Szybkosc przekazywania wyników
22
Zaleznosc przetwarzania danych przez poszczególne
algorytmy
23
Subiektywna ocena algorytmów nawigacji dla
zapytania metawyszukiwarki

Write a Comment

User Comments (0)