Metody analizy sp - PowerPoint PPT Presentation

About This Presentation
Title:

Metody analizy sp

Description:

Title: Metody analizy sp jno ci i zgodno ci tematycznej kolekcji dokument w WWW Author: Marek Kopel Last modified by: Marek Kopel Created Date – PowerPoint PPT presentation

Number of Views:87
Avg rating:3.0/5.0
Slides: 42
Provided by: Marek85
Category:

less

Transcript and Presenter's Notes

Title: Metody analizy sp


1
Metody analizy spójnosci i zgodnosci tematycznej
kolekcji dokumentów WWW
  • Marek Kopel

Wydzialowy Zaklad Systemów Informacyjnych
2
Plan wystapienia
  • Problemy wyszukiwania w WWW
  • Klasyczne modele wyszukiwania informacji
  • Model z funkcja spójnosci i zgodnosci
  • Zastosowania
  • Kierunki dalszych badan

3
(No Transcript)
4
(No Transcript)
5
(No Transcript)
6
(No Transcript)
7
(No Transcript)
8
(No Transcript)
9
Wyszukiwanie w WWW
  • Dokumenty tekstowe
  • przeszukiwanie pelno-tekstowe, meta-tagi
  • Obrazki
  • nazwa pliku, adres, tekst wokól obrazka
  • Usenet (grupy dyskusyjne)
  • od razu zaindeksowane czasowo i tematycznie
  • Katalogi
  • indeksowane przez ludzi

10
Wspomaganie wyszukiwania
  • Indeksowanie
  • slowa kluczowe
  • meta-tagi
  • indeksowanie innych indeksów
  • Rankowanie
  • keywords w adresie,
  • linki kierujace do dokumentu
  • meta-tag lt-gt tresc,
  • opis linka lt-gt tresc docelowa
  • Profilowanie uzytkownika (personalizacja)
  • wybieranie na podstawie preferencji (np.
    kolekcji)
  • Badanie spójnosci ?

11
Model Boolowski
  • zbiór terminów T,
  • zbiór D dokumentów WWW,
  • zbiór pytan Q,
  • funkcja opisujaca (indeksujaca) ? D?2T-?,
  • funkcja wyszukujaca ?Q? 2D.
  • Zwykle pytanie ma postac

12
Waga terminu w dokumencie
  • Wyraza istotnosc terminu dla tematyki dokumentu
  • Rózne sposoby obliczania
  • Najczesciej modyfikacje TF-IDF, czyli
  • liczba wystapien terminu / wszystkich terminów w
    dokumencie

13
Model wektorowy
  • zbiór terminów T t1, , tn,
  • zbiór D dokumentów WWW,
  • zbiór pytan Q,
  • d ltd1, , dngt,
  • di waga i-tego terminu w dokumencie,
  • q ltq1, , qngt,
  • qi waga i-tego terminu w pytaniu,
  • ?Q? ord(2D)

14
  • ?
  • ? ? ?
  • ? ? ?
  • ? ? ?
  • ? ?

??? ???
15
Model z profilem uzytkownika
  • zbiory T, D, Q, funkcje ?, ?
  • zbiór profili P,
  • wyszukiwanie
  • ?Q?P ? ord(2D) wyszukiwanie bezposrednie.
  • ?P? 2D filtrowanie,
  • ?(p)? DP
  • ?Q? ord( ) wyszukiwanie z zbiorze DP.

16
Model z funkcja spójnosci
D
  • ?
  • ? ? ?
  • ?
  • ??
  • ? ???

D
?? ???
D ? D
17
Autonomous Citation Indexing
  • glównie prace naukowe
  • odkrywanie powiazan miedzy dokumentami na
    podstawie cytowan (bibliografia)
  • ograniczanie znajdywania duplikatów poprzez
    analize grafu cytowan
  • (http//citeseer.nj.nec.com/cs)
  • - system wykorzystujacy ACI

18
Metody heurystyczne
  • Probabilistic Latent Semantic Analysis
  • okresla prawdopodobienstwo tematyki dokumentu na
    podstawie terminów w nim wystepujacych
  • Probabilistic Hyperlink-Induced Topic Search
  • uzywa analiz bibliometrycznych
  • okresla tematyki kolekcji dokumentów oraz autorów
    zwiazanych z tymi tematykami
  • Probabilistic Model of Document Content and
    Hypertext Connectivity
  • laczy zorientowana na terminy metode PLSA oraz
    zorientowana na cytowania metode PHITS
  • identyfikacja tematyki
  • identyfikacja dokumentów reprezentatywnych
  • predykcje nawigacji

19
Context Focused Crawler
  • indeksowanie dokumentów webowych relewantnych do
    predefiniowanego zbioru tematów
  • omijanie nierelewantnych obszarów sieci
  • tworzenie grafu kontekstowego poprzez
  • indeksowanie dokumentów - TF-IDF
  • przypisywanie do warstw grafu konkekstowego -
    Naive Bayes Classifier

20
Model z funkcja spójnosci c.d.
  • s 2D?? - funkcja spójnosci,
  • r 2D?2D - funkcja zawezajaca,
  • taka, ze
  • r(Dq )?Dq
  • s(r(Dq ))gts(Dq)

r(r(D))
r(D)
D
21
Sasiedztwo hiperlinków
dj xxxx xx xxx x xxxx xxxx xxx x xxx xx xx
xxxxxx x xx xxxxxx x xx xxxx x x xx x xxx x
xxxxxx xx xxxxx xx xx xxx xxx xx xxxxx x x x xx
xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x
x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x
xxxxx xxx xx xxx x xxx xx x xxxx x xxxx
di xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxx x
x x xx x x xxxxx xxx xx xxx x xxx xx x xx x
xxxx xxx x xxx xx xx xxx x xxxx xxxx xxx xxx xx
xxxxx x x xxxxx xxx xx xxx x xxx xx x xx x
xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx
22
Spójnosc
  • Mamy
  • zbiór dokumentów Dd1,...,dN,
  • zbiór terminów Tt1,...,tM.
  • Powiazaniem dokumentu di z dokumentem dj ze
    wzgledu na hiperlink i termin tm nazywamy

gdzie - liczba terminów tm w sasiedztwie
hiperlinka - liczba terminów tm w
dokumencie dj
23
Spójnosc c.d.
dj
di
tm
24
Spójnosc c.d.
dj
di
tm
tm
25
Spójnosc c.d.
  • Powiazaniem dokumentu di z dokumentem dj ze
    wzgledu na termin tm nazywamy wektor

gdzie
26
Spójnosc c.d.
dj
di
tm
tm
tm
27
Spójnosc c.d.
  • Powiazaniem dokumentu di i dokumentu dj ze
    wzgledu na termin tm nazywamy wektor

gdzie
28
Spójnosc c.d.
dj
di
tm
tm
tm
29
Spójnosc c.d.
  • Powiazaniem dokumentu di i dokumentu dj nazywamy
    wektor

30
Spójnosc c.d.
  • Spójnoscia kolekcji dokumentów D nazywamy wektor
  • Miara spójnosci kolekcji nazywamy funkcje
  • gdzie
  • s odchylenie standardowe skladowych
    wektora spójnosci kolekcji,
  • srednia skladowych wektora spójnosci kolekcji

31
Przyklad 1
  • Mamy zbiór terminów Tt1, t2, t3, t4, t5 i
    kolekcje dokumentów D d1, d2, d3,
    d4 oraz wektory spójnosci dokumentów
  • WD lt1,5 0,5 1 1,25 1,75gt
  • s(WD) 1,68

W1,2 lt2, 0, 1, 1, 2gt
W2,3 lt2, 0, 1, 1, 2gt
W1,3 lt0, 2, 1, 0, 3gt
W2,4 lt0, 0, 0, 1, 0gt
W1,4 lt1, 0, 1, 2, 0gt
W3,4 lt1, 0, 0, 0, 0gt
lt1,3 0,6 1 0,6 2,3gt
1,89
32
Przyklad 1
  • Mamy zbiór terminów Tt1, t2, t3, t4, t5 i
    kolekcje dokumentów D d1, d2, d3,
    d4 oraz wektory spójnosci dokumentów
  • WD lt1,5 0,5 1 1,25 1,75gt
  • s(WD) 1,68

W1,2 lt2, 0, 1, 1, 2gt
W2,3 lt2, 0, 1, 1, 2gt
W1,3 lt0, 2, 1, 0, 3gt
W2,4 lt0, 0, 0, 1, 0gt
W1,4 lt1, 0, 1, 2, 0gt
W3,4 lt1, 0, 0, 0, 0gt
lt1 0 0,3 0,6 0,6gt
0,91
33
Problem 1
d3
d8
d5
d6
34
Wektory w przestrzeni
  • Cos(90)0
  • - ortogonalne
  • Cos(0)1

35
Zgodnosc tematyczna
  • Zgodnoscia tematyczna kolekcji D1 i D2 nazywamy
    funkcje
  • u 2Dx2D??
  • gdzie
  • - wektory spójnosci kolekcji kolekcji
    D1 i D2

36
Przyklad 2
  • Mamy zbiór terminów Tt1, t2, t3, t4, t5, t6,
    t7, t8, t9, t10 i wektory spójnosci tematycznej
    trzech kolekcji D1, D2 i D3
  • lt4, 0, 4, 0, 6, 2, 0, 0, 1, 0gt
  • lt0, 5, 0, 4, 3, 0, 0, 4, 0, 0gt
  • lt4, 0, 2, 1, 3, 4, 0, 1, 0, 2gt
  • u(D1, D2 )
  • u(D2 , D3)
  • u(D1, D3)

37
Problem 2
  • Automatyczne tworzenie katalogów WWW

38
Problem 3
D2
D3
D1
??
??
???
s(D2)
s(D1)
s(D3)
2
3
1
t
porównanie spójnosci s(D1) ? s(D2) ? s(D3)
porównanie zgodnosci tematycznej u(D1 , D2) ?
u(D2 , D3) ? u(D1 , D3)
39
Literatura
  • Danilowicz, Czeslaw, Nguyen, Ngoc Thanh
    Consensus Methods for Solving Inconsistency of
    Replicated Data in Distributed Systems.
    Distributed Parallel Databases 2003 vol. 14 nr 1,
    p. 53-69
  • Danilowicz, Czeslaw, Jankowski, Lukasz, Nguyen,
    Ngoc Thanh Consistency measures of agent
    knowledge in multiagent systems. Proceedings of
    the 14th International Conference on Systems
    Science. Eds Zdzislaw Bubnicki, Adam Grzech.
    Wroclaw Oficyna Wydawnicza PWroc. 2001 p.
    390-398
  • Danilowicz, Czeslaw, Nguyen, Ngoc Thanh
    Consensus-based methods for restoring consistency
    of replicated data. Inteligent Information
    Systems. Proceedings of the IIS '2000 Symposium.
    Mieczyslaw Klopotek, Maciej Michalewicz, Slawomir
    T. Wierzchon eds. Heidelberg New York
    Physica-Verlag 2000 p. 325-335
  • Gerhard Weikum Extending Transaction Management
    To Capture More Consistency With Better
    Performance (1993)
  • Haerder, T., Reuter, A., Principles of
    TransactionOriented Database Recovery, ACM
    Computing Surveys Vol.15 No.4, 1983
  • Guido Moerkotte, Peter C. Lockemann Reactive
    Consistency Control in Deductive Databases
    (1991), ACM Transactions on Database Systems
  • Ernest Teniente, Antoni Olivé Updating Knowledge
    Bases while Maintaining their Consistency (1995),
    VLDB Journal Very Large Data Bases

40
Literatura c.d.
  • Martin Decker, Guido Moerkotte, Joachim Posegga
    Consistency Driven Planning (1996), Portuguese
    Conference on Artificial Intelligence
  • Wojciech Cellary, Genevieve Jomier Consistency
    of Versions in Object-Oriented Databases (1990) 
  • M. Raynal, A. Schiper A Suite Of Formal
    Definitions For Consistency Criteria In
    Distributed Shared Memories (1996),Proceedings
    Int Conf on Parallel and Distributed Computing
    (PDCS'96) http//citeseer.nj.nec.com/raynal96suite
    .html
  • Kourosh Gharachorloo, Daniel Lenoski, James
    Laudon, Phillip Gibbons, Anoop Gupta, John
    Hennessy Memory Consistency and Event Ordering
    in Scalable Shared-Memory Multiprocessors (1990),
    25 Years ISCA Retrospectives and Reprints
  • Yvan G. Leclerc, Q.-Tuan Luong, P. Fua Measuring
    the Self-Consistency of Stereo Algorithms (2000),
    ECCV (1) http//citeseer.nj.nec.com/leclerc00measu
    ring.html
  • Chengjie Liu, Pei Cao Maintaining Strong Cache
    Consistency in the World-Wide Web
    (1998), International Conference on Distributed
    Computing Systems
  • Yvon Kermarrec, Alberto Soleto Managing document
    consistency over the Web or managing documents
    duplication
  • C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat
    Revisiting the concept of hypermedia document
    consistency (1999), LAAS - CNRS 7 Av. du
    Colonel... ACM Multimedia (2)

41
Dziekuje za uwage
Write a Comment
User Comments (0)
About PowerShow.com