Title: Metody analizy sp
1Metody analizy spójnosci i zgodnosci tematycznej
kolekcji dokumentów WWW
Wydzialowy Zaklad Systemów Informacyjnych
2Plan wystapienia
- Problemy wyszukiwania w WWW
- Klasyczne modele wyszukiwania informacji
- Model z funkcja spójnosci i zgodnosci
- Zastosowania
- Kierunki dalszych badan
3(No Transcript)
4(No Transcript)
5(No Transcript)
6(No Transcript)
7(No Transcript)
8(No Transcript)
9Wyszukiwanie w WWW
- Dokumenty tekstowe
- przeszukiwanie pelno-tekstowe, meta-tagi
- Obrazki
- nazwa pliku, adres, tekst wokól obrazka
- Usenet (grupy dyskusyjne)
- od razu zaindeksowane czasowo i tematycznie
- Katalogi
- indeksowane przez ludzi
10Wspomaganie wyszukiwania
- Indeksowanie
- slowa kluczowe
- meta-tagi
- indeksowanie innych indeksów
- Rankowanie
- keywords w adresie,
- linki kierujace do dokumentu
- meta-tag lt-gt tresc,
- opis linka lt-gt tresc docelowa
- Profilowanie uzytkownika (personalizacja)
- wybieranie na podstawie preferencji (np.
kolekcji) - Badanie spójnosci ?
11Model Boolowski
-
- zbiór terminów T,
- zbiór D dokumentów WWW,
- zbiór pytan Q,
- funkcja opisujaca (indeksujaca) ? D?2T-?,
- funkcja wyszukujaca ?Q? 2D.
- Zwykle pytanie ma postac
12Waga terminu w dokumencie
- Wyraza istotnosc terminu dla tematyki dokumentu
- Rózne sposoby obliczania
- Najczesciej modyfikacje TF-IDF, czyli
- liczba wystapien terminu / wszystkich terminów w
dokumencie
13Model wektorowy
- zbiór terminów T t1, , tn,
- zbiór D dokumentów WWW,
- zbiór pytan Q,
- d ltd1, , dngt,
- di waga i-tego terminu w dokumencie,
- q ltq1, , qngt,
- qi waga i-tego terminu w pytaniu,
- ?Q? ord(2D)
14??? ???
15Model z profilem uzytkownika
- zbiory T, D, Q, funkcje ?, ?
- zbiór profili P,
- wyszukiwanie
- ?Q?P ? ord(2D) wyszukiwanie bezposrednie.
- ?P? 2D filtrowanie,
- ?(p)? DP
- ?Q? ord( ) wyszukiwanie z zbiorze DP.
16Model z funkcja spójnosci
D
D
?? ???
D ? D
17Autonomous Citation Indexing
- glównie prace naukowe
- odkrywanie powiazan miedzy dokumentami na
podstawie cytowan (bibliografia) - ograniczanie znajdywania duplikatów poprzez
analize grafu cytowan -
- (http//citeseer.nj.nec.com/cs)
- - system wykorzystujacy ACI
18Metody heurystyczne
- Probabilistic Latent Semantic Analysis
- okresla prawdopodobienstwo tematyki dokumentu na
podstawie terminów w nim wystepujacych - Probabilistic Hyperlink-Induced Topic Search
- uzywa analiz bibliometrycznych
- okresla tematyki kolekcji dokumentów oraz autorów
zwiazanych z tymi tematykami - Probabilistic Model of Document Content and
Hypertext Connectivity - laczy zorientowana na terminy metode PLSA oraz
zorientowana na cytowania metode PHITS - identyfikacja tematyki
- identyfikacja dokumentów reprezentatywnych
- predykcje nawigacji
19Context Focused Crawler
- indeksowanie dokumentów webowych relewantnych do
predefiniowanego zbioru tematów - omijanie nierelewantnych obszarów sieci
- tworzenie grafu kontekstowego poprzez
- indeksowanie dokumentów - TF-IDF
- przypisywanie do warstw grafu konkekstowego -
Naive Bayes Classifier
20Model z funkcja spójnosci c.d.
- s 2D?? - funkcja spójnosci,
- r 2D?2D - funkcja zawezajaca,
- taka, ze
- r(Dq )?Dq
- s(r(Dq ))gts(Dq)
r(r(D))
r(D)
D
21Sasiedztwo hiperlinków
dj xxxx xx xxx x xxxx xxxx xxx x xxx xx xx
xxxxxx x xx xxxxxx x xx xxxx x x xx x xxx x
xxxxxx xx xxxxx xx xx xxx xxx xx xxxxx x x x xx
xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x
x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x
xxxxx xxx xx xxx x xxx xx x xxxx x xxxx
di xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxx x
x x xx x x xxxxx xxx xx xxx x xxx xx x xx x
xxxx xxx x xxx xx xx xxx x xxxx xxxx xxx xxx xx
xxxxx x x xxxxx xxx xx xxx x xxx xx x xx x
xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx
22Spójnosc
- Mamy
- zbiór dokumentów Dd1,...,dN,
- zbiór terminów Tt1,...,tM.
- Powiazaniem dokumentu di z dokumentem dj ze
wzgledu na hiperlink i termin tm nazywamy
gdzie - liczba terminów tm w sasiedztwie
hiperlinka - liczba terminów tm w
dokumencie dj
23Spójnosc c.d.
dj
di
tm
24Spójnosc c.d.
dj
di
tm
tm
25Spójnosc c.d.
- Powiazaniem dokumentu di z dokumentem dj ze
wzgledu na termin tm nazywamy wektor
gdzie
26Spójnosc c.d.
dj
di
tm
tm
tm
27Spójnosc c.d.
- Powiazaniem dokumentu di i dokumentu dj ze
wzgledu na termin tm nazywamy wektor
gdzie
28Spójnosc c.d.
dj
di
tm
tm
tm
29Spójnosc c.d.
-
- Powiazaniem dokumentu di i dokumentu dj nazywamy
wektor
30Spójnosc c.d.
- Spójnoscia kolekcji dokumentów D nazywamy wektor
- Miara spójnosci kolekcji nazywamy funkcje
-
- gdzie
- s odchylenie standardowe skladowych
wektora spójnosci kolekcji, - srednia skladowych wektora spójnosci kolekcji
31Przyklad 1
- Mamy zbiór terminów Tt1, t2, t3, t4, t5 i
kolekcje dokumentów D d1, d2, d3,
d4 oraz wektory spójnosci dokumentów - WD lt1,5 0,5 1 1,25 1,75gt
- s(WD) 1,68
W1,2 lt2, 0, 1, 1, 2gt
W2,3 lt2, 0, 1, 1, 2gt
W1,3 lt0, 2, 1, 0, 3gt
W2,4 lt0, 0, 0, 1, 0gt
W1,4 lt1, 0, 1, 2, 0gt
W3,4 lt1, 0, 0, 0, 0gt
lt1,3 0,6 1 0,6 2,3gt
1,89
32Przyklad 1
- Mamy zbiór terminów Tt1, t2, t3, t4, t5 i
kolekcje dokumentów D d1, d2, d3,
d4 oraz wektory spójnosci dokumentów - WD lt1,5 0,5 1 1,25 1,75gt
- s(WD) 1,68
W1,2 lt2, 0, 1, 1, 2gt
W2,3 lt2, 0, 1, 1, 2gt
W1,3 lt0, 2, 1, 0, 3gt
W2,4 lt0, 0, 0, 1, 0gt
W1,4 lt1, 0, 1, 2, 0gt
W3,4 lt1, 0, 0, 0, 0gt
lt1 0 0,3 0,6 0,6gt
0,91
33Problem 1
d3
d8
d5
d6
34Wektory w przestrzeni
- Cos(90)0
- - ortogonalne
- Cos(0)1
35Zgodnosc tematyczna
- Zgodnoscia tematyczna kolekcji D1 i D2 nazywamy
funkcje -
- u 2Dx2D??
-
- gdzie
- - wektory spójnosci kolekcji kolekcji
D1 i D2
36Przyklad 2
- Mamy zbiór terminów Tt1, t2, t3, t4, t5, t6,
t7, t8, t9, t10 i wektory spójnosci tematycznej
trzech kolekcji D1, D2 i D3 - lt4, 0, 4, 0, 6, 2, 0, 0, 1, 0gt
- lt0, 5, 0, 4, 3, 0, 0, 4, 0, 0gt
- lt4, 0, 2, 1, 3, 4, 0, 1, 0, 2gt
- u(D1, D2 )
- u(D2 , D3)
- u(D1, D3)
37Problem 2
- Automatyczne tworzenie katalogów WWW
38Problem 3
D2
D3
D1
??
??
???
s(D2)
s(D1)
s(D3)
2
3
1
t
porównanie spójnosci s(D1) ? s(D2) ? s(D3)
porównanie zgodnosci tematycznej u(D1 , D2) ?
u(D2 , D3) ? u(D1 , D3)
39Literatura
- Danilowicz, Czeslaw, Nguyen, Ngoc Thanh
Consensus Methods for Solving Inconsistency of
Replicated Data in Distributed Systems.
Distributed Parallel Databases 2003 vol. 14 nr 1,
p. 53-69 - Danilowicz, Czeslaw, Jankowski, Lukasz, Nguyen,
Ngoc Thanh Consistency measures of agent
knowledge in multiagent systems. Proceedings of
the 14th International Conference on Systems
Science. Eds Zdzislaw Bubnicki, Adam Grzech.
Wroclaw Oficyna Wydawnicza PWroc. 2001 p.
390-398 - Danilowicz, Czeslaw, Nguyen, Ngoc Thanh
Consensus-based methods for restoring consistency
of replicated data. Inteligent Information
Systems. Proceedings of the IIS '2000 Symposium.
Mieczyslaw Klopotek, Maciej Michalewicz, Slawomir
T. Wierzchon eds. Heidelberg New York
Physica-Verlag 2000 p. 325-335 - Gerhard Weikum Extending Transaction Management
To Capture More Consistency With Better
Performance (1993) - Haerder, T., Reuter, A., Principles of
TransactionOriented Database Recovery, ACM
Computing Surveys Vol.15 No.4, 1983 - Guido Moerkotte, Peter C. Lockemann Reactive
Consistency Control in Deductive Databases
(1991), ACM Transactions on Database Systems - Ernest Teniente, Antoni Olivé Updating Knowledge
Bases while Maintaining their Consistency (1995),
VLDB Journal Very Large Data Bases
40Literatura c.d.
- Martin Decker, Guido Moerkotte, Joachim Posegga
Consistency Driven Planning (1996), Portuguese
Conference on Artificial Intelligence - Wojciech Cellary, Genevieve Jomier Consistency
of Versions in Object-Oriented Databases (1990) - M. Raynal, A. Schiper A Suite Of Formal
Definitions For Consistency Criteria In
Distributed Shared Memories (1996),Proceedings
Int Conf on Parallel and Distributed Computing
(PDCS'96) http//citeseer.nj.nec.com/raynal96suite
.html - Kourosh Gharachorloo, Daniel Lenoski, James
Laudon, Phillip Gibbons, Anoop Gupta, John
Hennessy Memory Consistency and Event Ordering
in Scalable Shared-Memory Multiprocessors (1990),
25 Years ISCA Retrospectives and Reprints - Yvan G. Leclerc, Q.-Tuan Luong, P. Fua Measuring
the Self-Consistency of Stereo Algorithms (2000),
ECCV (1) http//citeseer.nj.nec.com/leclerc00measu
ring.html - Chengjie Liu, Pei Cao Maintaining Strong Cache
Consistency in the World-Wide Web
(1998), International Conference on Distributed
Computing Systems - Yvon Kermarrec, Alberto Soleto Managing document
consistency over the Web or managing documents
duplication - C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat
Revisiting the concept of hypermedia document
consistency (1999), LAAS - CNRS 7 Av. du
Colonel... ACM Multimedia (2)
41Dziekuje za uwage