Informationsintegration Das Verborgene Web (Hidden Web)

About This Presentation

Title:

Informationsintegration Das Verborgene Web (Hidden Web)

Description:

Informationsintegration Das Verborgene Web (Hidden Web) 09.02.2006 Felix Naumann – PowerPoint PPT presentation

Number of Views:144

Avg rating:3.0/5.0

Slides: 61

Provided by: Feli143

Category:

more less

Transcript and Presenter's Notes

Title: Informationsintegration Das Verborgene Web (Hidden Web)

1
Informationsintegration Das Verborgene
Web(Hidden Web)

09.02.2006
Felix Naumann

2
Überblick

Motivation Be01,To01
Suche über das Web
Begriffe und Definitionen
Auffinden von Hidden Web Informationsquellen
Potentielle Hidden Web Quellen Finden BC04
Themen extrahieren
IGS01
Klassifikation nach Themen
IGS01
Anfragen an relevante Quellen des Hidden Web
Anfragen geeignet verteilen IGS01
Anfragesprache lernen BC04
(Ergebnisse integrieren)

3
Das Web
Invisible Web (unsichtbares Netz)
Surface web
Shallow web
Deep web (tiefes Netz)
Quelle To01
4
Surface Web vs. Hidden Web

Hidden Web
Keine Link-Struktur
Dokumente verborgen in DBMS
Dokumente nicht durch Internet-Suchmaschinen
indiziert
Dokumente eventl. durch Intranet-Suchemaschinen
indiziert
Anfragen auf jede Sammlung einzeln

Surface Web
Link-Struktur
Kann gecrawled werden
Dokumente durch Suchmaschinen indiziert
Anfragen auf viele Websites gleichzeitig

Quelle Folie aus IGS01
5
Hidden Web Beispiel

Suche in PubMed nach diabetes
178,975 Treffer
Google Suche diabetes sitewww.ncbi.nlm.nih.gov
nur 119 matches
Weitere Beispiele

Database Query Matches Google
PubMed diabetes 178,975 119
U.S. Patents wireless network 16,741 0
Library of Congress visa regulations gt10,000 0

Gegenbeispiel
Amazon Hilft explizit bei Verlinkung

Quelle Folie aus IGS01
6
Suche über das Web

Kataloge
Suchmaschinen
Metacrawler
Antwort Services
Unsichtbares/Tiefes/Verborgenes Web

7
Kataloge

Indices speichern URL, Titel, Kategorien, und
Zusammenfassung
Wartung durch Experten
freiwillig, bezahlt, Selbst-Registrierung
Das Web (Stand 2001)
gt5,000,000,000 Dateien
Yahoo
2,000,000 Sites
1/2500th des bekannten Webs

Quelle To01
8
Suchmaschinen

Indices speichern URL, Titel, Meta-Tags, Links,
und vollständigen Inhalt
Wartung durch Agenten (Crawler)
Das Web (Stand 2001)
gt5,000,000,000 Dateien
Google
2,469,940,685 Seiten
FAST
2,112,188,990 Seiten
HotBot (Inktomi)
500,000,000 Seiten

Quelle To01
9
Meta-Suchmaschinen

Haben keinen eigenen Katalog oder Index
Nutzer geben Suchbegriff ein, der simultan an
andere Suchmaschinen weitergeleitet wird.
Ergebnisse werden integriert und als eine Liste
zurückgegeben.
Vorteile
Eine einzige Anfrage
Geschwindigkeit (parallel statt sequentiell)
Nachteile
Time-outs und unvollständige Suche
Anfragesyntax oft reduziert auf kleinsten
gemeinsamen Nenner

Quelle To01
10
Antwort Services

Datenbank mit gespeicherten häufigen Fragen
Katalog von Ask Jeeves enthält 7,000,000 Fragen
Natürlich-sprachliche Suche
Suche in eigener DB und in fremden
Katalogen/Indices
Kennt Spezial-Daten-quellen des Hidden Web
Gewichtung anerkannter Quellen (z.B. Almanache)

Quelle To01
11
Invisible/Hidden/Deep Web
Quelle To01
12
Surface vs. Hidden Web Be01
crawling

Der Inhalt des Surface Web ist persistent auf
statischen Seiten, die mittels crawling von
Suchmaschinen entdeckt werden kann. Inhalt des
Hidden Web wird dynamisch präsentiert in Antwort
auf eine konkrete Anfrage.
der größte Anteil Inhalts des Hidden Web wird
unterhalb der Oberfläche bleiben und kann nur im
Kontext einer bestimmten Anfrage entdeckt werden.

Quelle To01
trawling
13
Das Verborgene Web

Der Teil des Webs, der nicht durch Suchmaschinen
indiziert wird.
Oft gespeichert in Datenbanken
Dynamisch generierte Web Seiten durch Anwendungen
im Server
jsp, cgi,
Sites und Seiten mit Passwort-geschütztem Inhalt
Inhalt von Dateien, die nicht in
Standard-Formaten gespeichert werden
.pdf, .ppt, .doc
Grafikformate

Quelle To01
14
Begriffe / Synonyme

Surface Web (Oberflächen-Web)
Inhalt für normale Suchmaschinen sichtbar
Shallow Web (Flaches Web)
Normale Web-Seiten, die dynamisch generiert
werden
Anfragen durch Klicken auf Links
Hidden Web (verborgenes Web)
Inhalt für normale Suchmaschinen unsichtbar
Invisible Web (unsichtbares Web)
Synonym mit Hidden web
Deep Web (tiefes Web)
nach BrightPlanet,
Synonym mit Hidden Web

Quelle To01
15
Statistiken Be01

400 to 550 fach größer als Surface Web
7,500 Terabytes Informationen im Hidden Web
19 Terabytes Information im Surface Web
550 Milliarden Dokumente im Hidden Web
1 Milliarde Dokumente im Surface Web
je nach dem, was man zählt
Dynamische Seiten...
100,000 Hidden Websites
ca. 84 sind auf Text Dokumente spezialisiert
ca. 95 des Hidden Web ist öffentlich verfügbar.

Quelle To01
16
Eigenschaften Be01

Hidden Websites haben thematisch oft
schmaleren, aber tieferen Inhalt.
Oft qualitativ bessere Informationen
Meist relevanter Inhalt
Kein Spam
Über die Hälfte aller Hidden Websites sind
thematisch spezialisiert.
Am schnellsten wachsende Kategorie neuer
Informationen im Internet

Quelle To01
17
Beispiel CompletePlanet.com
18
Überblick

Motivation Be01,To01
Suche über das Web
Begriffe und Definitionen
Auffinden von Hidden Web Informationsquellen
Potentielle Hidden Web Quellen Finden BC04
Themen extrahieren
IGS01
Klassifikation nach Themen
IGS01
Anfragen an relevante Quellen des Hidden Web
Anfragen geeignet verteilen IGS01
Anfragesprache lernen BC04
(Ergebnisse integrieren)

19
Auffinden von Hidden Web Quellen BC04

Ziel Finde Webseiten, die als Einstiegspunkt ins
Hidden Web dienen.
Seiten mit HTML Formular
Einschränkungen
Textuelle Formulare
mindestens ein Textinput
Nicht nur radio buttons, menus, checkboxen...
Anfrageformulare
Formulare, die Anfragen entgegennehmen und
Informationen liefern
Keine Login Seiten
Hidden Web Formulare
Keine Seiten mit komplexen Formularen (mehr als
ein Inputfeld)
Aufgabe Automatisches Finden und Erkennen von
Hidden Web Formularen

André Bergholz, Xerox
20
Auffinden von Hidden Web Quellen BC04

Manuell ?
Automatisches Auffinden von Formularen
Google-Suche (nach Themen)
Lokales breadth-first Crawling bis Formular
gefunden
Innerhalb einer Site
Bis zu einer festen Tiefe
Automatisches Erkennen von Hidden Web Formularen
(Heuristiken)
Testanfragen mit positiven und negativen
Suchwörtern
Positiv passende Worte
Negativ Fantasieworte
Ergebnisse negativer Suchwörter immer gleich groß
(Byte)
Ergebnisse positiver Suchworte immer größer als
negative
Berechnung der Größe durch Subtraktion von
Webseiten (als Baum)

21
Überblick

Motivation Be01,To01
Suche über das Web
Begriffe und Definitionen
Auffinden von Hidden Web Informationsquellen
Potentielle Hidden Web Quellen Finden BC04
Themen extrahieren
IGS01
Klassifikation nach Themen
IGS01
Anfragen an relevante Quellen des Hidden Web
Anfragen geeignet verteilen IGS01
Anfragesprache lernen BC04
(Ergebnisse integrieren)

Panagiotis G. Ipeirotis, NYU
22
Suche im Hidden Web Probleme

Auswahl relevanter Quellen für Anfrage
Themen extrahieren
Content summary
Nach Themen klassifizieren

Hidden Web
Hidden Web Metasearcher
PubMed
Library of Congress
ESPN
Nieren 220,000 Steine 40,000 ...
Nieren 5 Steine 40 ...
Nieren 20 Steine 950 ...
Quelle Folie aus IGS01
23
Klassifikation von Hidden Web Quellen

Klassifikation hier
Hierarchie über Kategorien und Subkategorien
Zuordnung von Quellen ist nicht immer eindeutig.
Manuell
Yahoo
InvisibleWeb (www.invisibleweb.com)
SearchEngineGuide (www.searchengineguide.com)
Hierarchien sind einsehbar.
Automatisch
Basierend auf Kategorie der Dokumente in der
Quelle

24
(No Transcript)
25
(No Transcript)
26
Content Summaries

Statistiken, die den Inhalt einer Hidden Web
Quelle beschreiben
Document-cardinality dc
Anzahl der Dokumente insgesamt
Document-frequency df(w)
Pro Wort Anzahl der Dokumente, die dieses Wort
enthalten

Beispiel

KrebsDB KrebsDB
Document cardinality 148.944 Document cardinality 148.944
Wort Document frequency
Darm 121.134
Krebs 91.688
... ...
Vorschau zur Verwendung von content
summaries Anfrage Darm-Krebs Anzahl Treffer
dc df(Darm)/dc df(Krebs)/dc 74569
27
Suche im Hidden Web Probleme

Wie extrahiert man content summaries?
Wie verwendet man content summaries?

Basketball 4 Krebs 4,532 CPU 23
Web Database
Basketball 4 Krebs 4,532 CPU 23
Web Database 1
Basketball 4 Krebs 60,298 CPU 0
Web Database 2
Metasearcher
Krebs
Basketball 6,340 Krebs 2 CPU 0
Web Database 3
Quelle Folie aus IGS01
28
Extraktion von Content Summaries Probleme

Kein direkter Zugang zu den Dokumenten ohne
konkrete Anfrage
Gebundene Variablen
Deswegen Anfrage-basiertes Dokument-Sampling
Sinnvolle Anfrage an Datenbank schicken
(focussed probing)
Ergebnisliste mit Links
(Ergebnisdokument)
Ergebnisdokumente aus Liste einholen (das
Sample)
Sample verwenden um content summary zu erstellen

Quelle Folie aus IGS01
29
Zufälliges Anfrage-basiertes Sampling

Start mit leerem content summary
Jedes Wort hat df(w) 0.
Wähle ein Wort und schicke es als Anfrage an
Hidden Web Quelle.
Wähle top-k Dokumente der Antwort (z.B. k4).
Zähle df(w) für alle w in Sample um content
summary zu füllen.
Wiederhole bis genug (z.B. 300) Dokumente
empfangen wurden

Wort Häufigkeit in Sample Krebs 150 (out of
300) aids 114 (out of 300) Herz 98 (out of 300)
Basketball 2 (out of 300)
Quelle Folie aus IGS01
30
Zufälliges Sampling Probleme

df(w) zwischen 1 und Anzahl der Dokumente
Es wird nicht Document-frequency ermittelt,
sondern Sample-frequency.
Absolute Zahlen sind nicht aussagekräftig.
Große Quellen haben ähnliche content summary wie
kleine Quellen.
Zahlen sind nur relativ zu interpretieren (als
ranking).
Viele Anfragen ohne oder nur mit kleinem Ergebnis
(Zipfs law)
Viele, seltene Worte fehlen in der content
summary.

Viele Worte erscheinen nur in ein oder zwei
Dokumenten.
Deshalb jetzt verbesserte Lösung
Quelle Folie aus IGS01
31
Zufälliges Sampling Verbesserung

Algorithmus Überblick
Trainiere Dokument-Klassifikatoren
Finde repräsentative Wörter für jede Kategorie.
Verwende Klassifikationsregeln um ein
themenspezifisches Sample aus Quelle zu erhalten.
Schätze df(w) aller entdeckten Wörter.

Quelle Folie aus IGS01
32
Fokussiertes Sampling Trainingsphase

Start mit vordefinierter Themen-Hierarchie und
bereits klassifizierten Dokumenten
Bsp Yahoo, dmoz Open Directory, Google ...
Trainiere Dokument-Klassifikatoren für jeden
Knoten der Hierarchie.
Extrahiere automatisch Regeln aus den
Klassifikatoren
ibm AND computers ? Computers
lung AND cancer ? Health
angina ? Heart
hepatitis AND liver ? Hepatitis

Root
Health
Quelle Folie aus IGS01
33
Fokussiertes Sampling

Transformiere jede Regel in eine Boolesche
Anfrage.
Für jede Anfrage
Schicke Anfrage an Quelle
Merke Anzahl der Ergebnisse
Parsing
Hole top-k Dokumente ein.
Am Ende einer Runde
Analysiere Ergebnisse für jede Kategorie
(zählen).
Wähle Kategorie zum fokussieren in nächster Runde.

Quelle Folie aus IGS01
34
Fokussiertes Sampling

Fokus nun auf Subkategorie
Neue Regelmenge, deshalb neue Anfragemenge
Vorteile
Weniger Anfragen
Fokussierte Anfragen

Quelle Folie aus IGS01
35
Fokussiertes Sampling
Aufruf für jede Kategorie und Subkategorie
Anfragen entsprechend der Regeln des
Klassifikators
Sammle Dokumente ein
Bei Ein-Wort Anfragen erlernen wir die
tatsächliche df(w)
Zähle sample-frequency für jedes Wort
Maße zur Berechnung des Grades der Zugehörigkeit
zu einer Kategorie
Falls hinreichend zu einer Subkategorie zugehörig
Wiederhole für Subkategorie
Vereinige gesammelte Metadaten
Quelle IG02
36
Zugehörigkeit von Hidden Web Quellen zu Kategorien

Coverage (Abdeckung) basierte Klassifikation
Quelle D wird allen Kategorien Ci zugeordnet, für
die D hinreichend viele Dokumente enthält.
Specificity (Spezifizität) basierte
Klassifikation
Quelle D wird allen Kategorien Ci zugeordnet, die
eine hinreichende Menge von Dokumenten in D
abdecken.
Wahl der Schwellwerte beeinflusst Klassifikation
Hohe Specificity sammelt spezialisierte (kleine)
Quellen
Hohe Coverage sammelt allgemeinere (große) Quellen

Beispielkategorie Fußball
Sport.de vs. Frauenfussball.de
Sport.de
Hohe coverage
Alles über Fußball
Niedrige specificity
Auch viel über andere Sportarten
Frauenfußball
Niedrige coverage
Nur Teilausschnitt der Fußballwelt
Hohe specificity
Nur Fußball

Quelle Folie aus IGS01
37
Sample-frequency vs. Document-frequency

Motivation
Sample-frequencies sind nur relativ.
Quelle mit ähnlichem Inhalt aber
unterschiedlicher Größe haben gleiche content
summary.
Sample Frequencies
Leber erscheint in 200 von 300 Dokumenten im
Sample.
Niere erscheint in 100 von 300 Dokumenten im
Sample.
Hepatitis erscheint in 30 von 300 Dokumenten im
Sample.
Document-frequencies
Anfrage Leber ergibt 140,000 Matches.
Anfrage Hepatitis ergibt 20,000 Matches.
Niere war kein Trainingswort
Darm und Krebs waren zwar Trainingsworte,
aber nur gemeinsam.

Zur Abschätzung der (besseren) Document-frequencie
s werden Infos der Ein-Wort Anfragen verwendet.
Quelle Folie aus IGS01
38
Abschätzen der Document-frequencies

Bekannt aus Algorithmus
Ranking r der Worte nach Sample-frequencies
Document-frequency f der Worte aus Ein-Wort
Anfragen
Mandelbrots Formel verfeinert Zipfs Formel
f P (rp)-B
P, p und B sind Parameter der Quelle
Niedriger rank ergibt hohe frequency
Dann Kurvenanpassung
z.B. P 8105, p .25, B 1.15

f
r
Quelle Folie aus IGS01
http//www.math.yale.edu/mandelbrot/web_pdfs/9_E7r
ankSizePlots.pdf
39
Abschätzen der Document-frequencies

Algorithmus
Sortiere Wörter absteigend nach Sample-frequency
Ermittle P, p und B durch Fokus auf Wörter mit
bekannter Document-frequency. (Kurvenanpassung)
Berechne df(wi) P (rip)-B für alle anderen
Wörter.

Quelle Folie aus IGS01
40
Vorteile des Fokussierten Sampling

Wenige Anfragen (Fokus auf Thema)
Vielversprechende Anfragen
Klassifikation along the way
Nützlich für Auswahl relevanter Quellen
Schätzung Document-frequency statt nur
Sample-frequency.

Quelle Folie aus IGS01
41
Überblick

Motivation Be01,To01
Suche über das Web
Begriffe und Definitionen
Auffinden von Hidden Web Informationsquellen
Potentielle Hidden Web Quellen Finden BC04
Themen extrahieren
IGS01
Klassifikation nach Themen
IGS01
Anfragen an relevante Quellen des Hidden Web
Anfragen geeignet verteilen IGS01
Anfragesprache lernen BC04
(Ergebnisse integrieren)

42
Suche im Hidden Web Probleme

Wie extrahiert man content summaries?
Wie verwendet man content summaries?

Basketball 4 Krebs 4,532 CPU 23
Web Database
Basketball 4 Krebs 4,532 CPU 23
Web Database 1
Basketball 4 Krebs 60,298 CPU 0
Web Database 2
Krebs
Metasearcher
Basketball 6,340 Krebs 2 CPU 0
Web Database 3
43
Quellenauswahl und Content Summaries

Quellenauswahl nimmt vollständige content
summaries an.
Falls unvollständig (das Suchwort fehlt), kann
nicht entschieden werden, ob die Quelle relevant
ist.
Content summaries aus Sampling sind immer
unvollständig.
Idee Klassifikation verwenden
Quellen gleicher Kategorie sollten auch ähnlich
content summary haben.
Content summaries verschiedener Quellen gleicher
Kategorie können sich komplementieren.

44
Content Summaries für Kategorien (statt für
Quellen)
Anzahl der Quellen
Category Cancer
NumDBs 2
Anzahl der Dokumente (Summe)
Number of Documents 166,272

...
breast
133,680

...
cancer
101,423
Document-frequencies (Summe)

...
diabetes
11,344

metastasis
3,569
CANCERLIT
CancerBACUP
Somit kann jede Kategorie als Hidden Web Quelle
angesehen werden.
Number of Documents 17,328
Number of Documents 148,944

...

...
breast
121,134
breast
12,546

...

...
cancer
91,688
cancer
9,735

...

...
diabetes
11,344
diabetes
ltnot foundgt

metastasis
ltnot foundgt
metastasis
3,569
Quelle Folie aus IGS01
45
Hierarchische Quellenauswahl Beispiel
Quelle Folie aus IGS01
46
Überblick

Motivation Be01,To01
Suche über das Web
Begriffe und Definitionen
Auffinden von Hidden Web Informationsquellen
Potentielle Hidden Web Quellen Finden BC04
Themen extrahieren
IGS01
Klassifikation nach Themen
IGS01
Anfragen an relevante Quellen des Hidden Web
Anfragen geeignet verteilen IGS01
Anfragesprache lernen BC04
(Ergebnisse integrieren)

47
Anfragen an Quellen des Hidden Web

Hidden Web Quellen verwenden unterschiedliche
Anfragesprachen (Schnittstellen-Heterogenität)
Suchwörter
Phrasen
Boolesche Kombinationen

Es gilt, solche Anomalien automatisch zu
entdecken.
Quelle BC04
48
Anfragesprache an Quellen des Hidden Web

Mögliche Operatoren
O CASE, STEM, PHRASE, AND, OR, NOT
Mögliche Syntax
S wort, , _, , AND, OR, NOT,
, -
Ziel
Automatische Erkennung der unterstützten
Operatoren
Automatische Erkennung der Interpretation der
Syntax

49
Maschinelles Lernen für Syntax

Zielfunktion TS ? O
Zuordnung von Ausdrücken zu Operatoren
Problem Nicht jede Syntax wird unterstützt
Erweiterung von O zu O
O CASE, STEM, PHRASE, AND, OR, NOT
O O ? ignored, literal, unknown
Beispiel Google
Wort ? CASE, STEM
? ignored
_ ? AND
? PHRASE
AND ? AND
OR ? OR
NOT ? ignored
? AND
- ? NOT
? ?literal, unknown

Google kann natürlich noch viel mehr ?
SYNONYM
50
Maschinelles Lernen für Syntax

Idee
Testanfragen verschicken und Ergebnisgrößen
untersuchen.
Machine Learning Methoden verwenden.
Wichtige Annahme Man kann Ergebnisgröße
herausparsen.
Training
Hidden Web Quellen mit bekannter Syntax und
bekannten Operatoren
Testanfrage verschicken und Eigenschaften der
Ergebnisse (insbesondere Ergebnisgröße)
beobachten.
Testing
Unbekannte Hidden Web Quelle
Gleiche Testanfragen verschicken und
Eigenschaften vergleichen.
Welche Testanfragen?
Welche Eigenschaften?

51
Testanfragen

Beispiele
caSaBlancA (template RandomCase(A))
Einzelnes Wort
Bogart AND (template B AND)
Nicht wohlgeformt
Casablanca Bogart (template A B)
Kombination von Worten
Variationen
Bogart Casablanca (template B A)
In BC04 22 templates
Templates füllen mit drei Sorten von Wortpaaren
Phrasen A information, B retrieval
Co-occurrence A information, B knowledge
Nicht verwandte Worte A China, B Käse

Quelle BC04
52
Eigenschaften der Ergebnisse (Features)

Für jede Anfrage qi
Extraktion der Trefferanzahl m(qi)
Für jedes Paar von Anfragen qi, qj (231 Stück)
merke (zur Normalisierung)
-1 falls m(qi) lt m(qj)
0 falls m(qi) m(qj)
1 falls m(qi) gt m(qj)
Dies sind dreiwertige Machine Learning Features.
Nun Beliebiger Algorithmus für Maschinelles
Lernen verwenden
Decision Trees, k-Nearest Neighbour,
Support-Vector-Machines

Quelle BC04
53
Weitere Probleme

Stop-Wörter
a, the, on, in, ...
Kontextsensitive Stop-Wörter
Google www vs. www database
Dynamische Interpretation
CiteSeer www databases
(i) entspricht www AND databases
(ii) entspricht www OR databases falls (i) leer
Ergebnisgröße oft nur geschätzt.

54
Rückblick

Motivation Be01,To01
Suche über das Web
Begriffe und Definitionen
Auffinden von Hidden Web Informationsquellen
Potentielle Hidden Web Quellen Finden
Themen extrahieren
Klassifikation nach Themen
Anfragen an relevante Quellen des Hidden Web
Anfragen geeignet verteilen
Anfragesprache lernen

Basketball 4 Krebs 4,532 CPU 23
Web Database
O CASE, STEM, PHRASE, AND, OR, NOT
Klassifikation
S wort, , _, , AND, OR, NOT,
, -
55
Integrierte Informationssysteme
Anfrage
Design time
Run time
Integriertes Informations- system
Architekturen
Datenfusion / ETL
Anfragesprache
Anfrageplanung
Schemamanagement
Optimierung
Wrapper
Anfrageausführung
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
56
Semesterrückblick
57
Prüfungshinweise

Bereiten Sie ein Einstiegsthema vor.
Besser Bereiten Sie alle Themen vor.
Alle Referenzen schicke ich gerne per pdf zu bzw.
verleihe das Buch.
Aufsätze zu ausgewählten Themen
http//www.informatik.hu-berlin.de/mac/lehre/WS04/
VL_WS04_Informationsintegration.html
Prüfungsprotokolle
http//fachschaft.informatik.hu-berlin.de/pruefung
sprotokolle/index.php
Selber schreiben!
Sprechstunde Donnerstags 15 Uhr

58
Organisatorisches Werbung

Veranstaltungen im kommenden Semester
Ringvorlesung
Seminar Schema Matching
Bei anderen
Prof. Freytag
Implementierung von Datenbanksystemen DBS II
(HK)
Informationssysteme gestern, heute, morgen (HK)
Prof. Schweikardt Datenbanktheorie (HK)
Studien- und Diplomarbeiten
Praktika
Fuzzy Workshop
25.7. 27.7. 2006

59
Evaluation
60
Literatur

Wichtigste Literatur
IGS01 Probe, Count, and Classify. P.G.
Ipeirotis, L. Gravano, and M. Shami. SIGMOD 2001
BC04 A. Bergholz and B. Chidlovskii. Learning
Query Languages of Web Interfaces, SAC04
Weiteres
Be01 The Deep Web Surfacing Hidden Value
Michael K. Bergman, Whitepaper at
http//www.completeplanet.com/Tutorials/DeepWeb/in
dex.asp
To01 Foliensatz von Dawne Tortorella (BellCow)
nach Be01
IG02 Distributed Search of the Hidden Web
Hierarchical Data Sampling and Selection. P.G.
Ipeirotis and L. Gravano in VLDB 2002.