die Seminargruppen, die am EDOC-Projekt mitgearbeitet habe - PowerPoint PPT Presentation

1 / 75
About This Presentation
Title:

die Seminargruppen, die am EDOC-Projekt mitgearbeitet habe

Description:

die Seminargruppen, die am EDOC-Projekt mitgearbeitet haben und mitarbeiten: ... 155.126 - - [29/Mar/2003:00:02:00 0100] 'GET /favicon.ico HTTP/1.1' 200 1406 ' ... – PowerPoint PPT presentation

Number of Views:303
Avg rating:3.0/5.0
Slides: 76
Provided by: drkarlgeor
Category:

less

Transcript and Presenter's Notes

Title: die Seminargruppen, die am EDOC-Projekt mitgearbeitet habe


1
Wissen im Web Semantic Web Mining und die
Motivation Freiwilliger
  • Bettina Berendt
  • Humboldt University Berlin,
  • Institute of Information
  • Systems
  • www.wiwi.hu-berlin.de/berendt

2
Dank an ...
  • meine KoautorInnen (die auf den folgenden Folien
    gewürdigt sind)
  • und
  • die Seminargruppen, die am EDOC-Projekt
    mitgearbeitet haben und mitarbeiten
  • Hanna Brekenfeld, Noppawan Bunyongasena, Thomas
    Dammeier, Gebhard Dettmar, Kai Dingel, Michael
    Ferber, Christoph Hanser, Oleg Ishenko, Beate
    Krause, Altug Kul, Toni Lohde, Egor Nikitin,
    Thomas Posner, Derya Saki, Mert Sengüner, Daniel
    Trümper

3
Semantic Web Mining Semantic Web Mining
Semantic Web Mining
4
Agenda Makrokosmos Begriffe Semantic Web
Mining Semantic Web Mining Semantic Web
Mining Mikrokosmos Beispiele Semantics ?
Mining Semantics ? Mining
5
Makrokosmos World Wide Web
6
Das Potenzial
7
Sehr viel Wissen, für Menschen zugänglich.
8
Die Probleme
9
Sehr viel Wissen, für Menschen zugänglich.
10
Web Mining
11
Formen
  • Knowledge discovery (aka Data mining)
  • the non-trivial process of identifying valid,
    novel, potentially useful, and ultimately
    understandable patterns in data. 1
  • Web Mining
  • die Anwendung von Data-Mining-Techniken auf
    Inhalt, (Hyperlink-) Struktur und Nutzung von
    Webressourcen.

Webmining-Gebiete Web content mining
1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P.,
Uthurusamy, R. (Eds.) (1996). Advances in
Knowledge Discovery and Data Mining. Boston, MA
AAAI/MIT Press
12
Web Mining Beispiele
Webmining-Gebiete Web content mining
Web structure mining
Web usage mining
13
Das Hauptproblem des Web Mining
14
Das Wikipedia 300 Component Model, generiert mit
diskreter PCA http//cosco.hiit.fi/search/H300.ht
ml/topic_list
  • Common phrases of selected components0
  • process water air pressure gas body of
    water natural gas high pressure hot water
    fresh water1
  • Mark Gospel Matthew Luke Rose Virgin Virgin
    Mary Gospel of John Gospel of Mark Gospel of
    Luke2
  • part text Britannica entry Encyclopedia
    Britannica Encyclopdia Britannica
    Encyclopaedia Britannica domain Encyclopdia
    Britannica public domain Encyclopdia
    Britannica public domain text3
  • property theorem elements proof subset
    axioms proposition natural numbers fundamental
    theorem mathematical logic4
  • Dove AMD Dove Streptopelia imperial crown
    Imperial army imperial court imperial family
    Collared Dove Streptopelia Imperial Russia5
  • side feet long time long period right side
    left side long distances different types short
    distance opposite side6
  • David bill Bob Jim Allen Dave Current
    stars former members Bill Clinton former
    President7
  • magazine newspaper political parties public
    domain text public opinion political career
    public schools own right political life public
    service8
  • way things boy cat long time same way same
    thing only way different ways good thing11
  • problems zero sum digits natural numbers
    positive integer mathematical analysis decimal
    digits natural logarithm12
  • population density couples races total area
    makeup Demographics median age income
    density housing units
  • Torres Iraqi KASUMI KHAZAD Khufu Granada Spa
    Fra General information General Public License
    General Bernardo New Granada Torres Strait
  • love Me Rolling Stones love songs Rolling
    Stone magazine Love Me Fall in Love Meet Me
    love story professional wrestler

Zusammenfassend Schwächen rein statistischer
Ansätze Interpretation der Resultate? Existenz
von Resultaten? Korrektheit? Inferenzen?
15
Semantic Web
16
Das Semantic Web
  • The Semantic Web is an extension of the current
    web in which information is given well-defined
    meaning, better enabling computers and people to
    work in co-operation. 1
  • The Semantic Web provides a common framework
    that allows data to be shared and reused across
    application, enterprise, and community
    boundaries. It is a collaborative effort led by
    W3C with participation from a large number of
    researchers and industrial partners. It is based
    on the Resource Description Framework (RDF),
    which integrates a variety of applications using
    XML for syntax and URIs for naming. 2

1 Berners-Lee, T., Hendler, J., Lassila, O.
(2001). The Semantic Web. Sci. American, May. 2
http//www.w3.org/2001/sw/ 3 Berners-Lee, T.
(2000). Semantic Web XML2000. www.w3.org/2000/Talk
s/1206-xml2k-tbl/
17
Category structure ltRDF xmlnsr"http//www.w3.or
g/TR/RDF/" xmlnsd"http//purl.org/dc/e
lements/1.0/" xmlns"http//directory.
mozilla.org/rdf"gt ltTopic rid"Top"gt lttag
catid"1"/gt ltdTitlegtToplt/dTitlegt ltnarrow
rresource"Top/Arts"/gt .... lt/Topicgt ltTopic
rid"Top/Arts"gt lttag catid"2"/gt
ltdTitlegtArtslt/dTitlegt ltnarrow
rresource"Top/Arts/Books"/gt ... ltnarrow
rresource"Top/Arts/Artists"/gt ltsymbolic
rresource"TypographyTop/Computers/Fonts"/gt lt/To
picgt .... lt/RDFgt
Resources ltRDF xmlnsr"http//www.w3.org/TR/RDF/
" xmlnsd"http//purl.org/dc/elements/1.0/"
xmlns"http//directory.mozilla.org/rdf"gt
... ltTopic rid"Top/Arts"gt lttag catid"2"/gt
ltdTitlegtArtslt/dTitlegt ltlink
rresource"http//www3...ca/./file.html"/gt lt/Top
icgt ltExternalPage about"http//wwwca/file
.html"gt ltdTitlegtJohn phillips Blown
glasslt/dTitlegt ltdDescriptiongtA small display
of glass by John Phillipslt/dDescriptiongt lt
/ExternalPagegt ltTopic rid"Top/Computers"gt
lttag catid"4"/gt ltdTitlegtComputerslt/dTitlegt
ltlink rresource"http//www.cs.tcd.ie/FME/"/gt
ltlink rresourcehttp//foo.asdfsa.."/gt lt/Topicgt
lt/RDFgt
Semantic Web Beispiel
18
Warum Semantic Web?Bsp. strukturierte Suche (1)
Metadaten gemäß DC
19
Semantische Suche Bsp. 2 Metadaten gem. DC
Domänenontologie
20
Was ist eine Ontologie?
An ontology is an explicit specification of a
shared conceptualisation. (Gruber, 1993)
Gruber, T.R. (1993). Towards principles for the
design of ontologies used for knowledge sharing.
In N. Guarino R. Poli (Eds.), Formal Ontologies
in Conceptual Analysis and Knowledge
Representation Deventer, NL Kluwer.
Bozsak, Ehrig, Handschuh, Hotho, Maedche, Motik,
Oberle, Schmitz, Staab, Stojanovic, Stojanovic,
Studer, Stumme, Sure,Tane, Volz, Zacharias
(2002). KAON - Towards a Large Scale Semantic
Web. In Kurt Bauknecht, A. Min Tjoa, Gerald
Quirchmayr (Eds.), E-Commerce and Web
Technologies, Third International Conference,
EC-Web 2002, Aix-en-Provence, France, September
2-6, 2002, Proceedings (pp. 304-313). Springer
LNCS 2455
21
  • cooperateswith(X,Y)
  • cooperateswith(Y,X)

Ontologie-basierte Website-Modellierung
OBJECT
NAME
PERSON
PERSON
TITLE
PROJECT
COOPERATES
--
COOPERATES
--
WITH
WITH
Ontology
WORKS-IN
RESEARCHER
RESEARCHER
Semantic Web Mining
Andreas Hotho
WORKS-IN
DAMLPROJ
URI-SWMining
-
Relational Metadata
URI-AHO
WORKS-IN
COOPERATES
-
COOPERATES
-
WITH
WITH
URI-GST
WWW
22
Das Hauptproblem des Semantic Web
Wer soll das alles machen?
  • ltHTMLgtltHEADgt
  • ltMETA NAME"DC.Creator" CONTENT"(SchemeFreetext)
    Thomas Seilnacht ltseilnach_at_i-st.netgt"gt
  • ltMETA NAME"DC.Title" CONTENT"(SchemeFreetext)
    10 Schritte zum Bau der eigenen Homepage"gt
  • ltMETA NAME"DC.Date.Created" CONTENT"(SchemeFree
    text) 1998-10-02"gt
  • ltMETA NAME"DC.Form" CONTENT"(SchemeIMT)
    text/html"gt
  • ltMETA NAME"DC.Identifier" CONTENT"(SchemeURL)
    http//www.seilnacht.tuttlingen.com/HTML/Homepage.
    htm"gt
  • ltMETA NAME"DC.Description" CONTENT"(SchemeFreet
    ext) Anleitung zum Bau einer Homepage mit dem
    Netscape Communicator"gt
  • ltMETA NAME"DC.Subject.Keywords"
    CONTENT"(SchemeFreetext) Homepage, HTML,
    Internet, FTP, Polyview, Programmieren, Frames,
    JavaScript, CGI-Script, Grundbegriffe, Grafik,
    Freeware, INFORMATISCHE GRUNDBILDUNG"gt
  • ltMETA NAME"DC.Type" CONTENT"Kurs/Onlinekurs/Virt
    uelles Seminar"gt
  • ltMETA NAME"DC.Language" CONTENT"Deutsch"gt
  • ltMETA NAME"DC.Description" CONTENT"(SchemeURL
    ) http//dbs.schule.de/db/mlesen.html?Id7915KATE
    GORIEmedien"gt

23
Strategien zur Schaffung des Semantic Web
  • institutionell Zwang / extrinsische Motivation
  • sozial Verteilte Autorenschaft à la Open
    Source (example dmoz.org) / intrinsische
    Motivation
  • informatisch / HCI Tool-Support
  • informatisch / Informationsverarbeitung

24
... Semantic Web Mining
25
Semantic Web Mining Eine Definition
  • Mining of the Semantic Web
  • Mining for the Semantic Web
  • The iterative process of (1) and (2), in which
    the semantics obtained by mining are re-used for
    mining again.

Berendt, Stumme, Hotho, Proc. ISWC 2002
Stumme, G., Hotho, A., Berendt, B. (submitted).
Semantic Web Mining State of the Art and Future
Directions.
26
Mikrokosmos EDOC
27
Wissensbeiträge Daten und Metadaten
  • ltBIBLIOGRAPHYgtltFLOATgtltPAGENUMBERgt136lt/PAGENUMBERgtlt
    /FLOATgt
  • ltHEADgtLiteraturverzeichnislt/HEADgt
  • ...
  • ltCITATION WORKTYPE"journal" PUBLISHED"PUBLISHED"
    gt
  • ltCUT ID"bib-45-"gt2 lt/CUTgtltWORKAUTHORgtAlbrecht,
    T. F. Bott, K. Meier, T. Schulze, A. Koch,
    M. Cundiff, S. T. Feldmann, J. Stolz, W.
    Thomas, P. Koch, S. W. Goumlbel E.
    O.lt/WORKAUTHORgt ltARTICLETITLEgtDisorder mediated
    biexcitonic beats in semiconductor quantum
    wellslt/ARTICLETITLEgt, ltWORKTITLEgtPhys. Rev.
    Blt/WORKTITLEgt, ltPUBDATEgt1996lt/PUBDATEgt,
    ltNUMBERgt54lt/NUMBERgt, ltPAGESgt4436lt/PAGESgt,
  • lt/CITATIONgt ...

http//edoc.hu-berlin.de/diml/dtd/xdiml.dtd
28
Dissertation Markup Language DiMLhttp//edoc.hu-b
erlin.de/diml/dtd/xdiml.dtd
  • ...
  • lt!ELEMENT citation (PCDATA email url note
    workauthor worktitle articletitle
    serialtitle address editor publisher
    edition volume number version pages
    pubdate bible court law cut
    pagenumber)gt
  • lt!ATTLIST citation
  • id ID IMPLIED
  • label CDATA IMPLIED
  • workType (Book Journal Misc) IMPLIED
  • published (yesno) 'yes'gt
  • lt!ELEMENT note (PCDATA em u strong br
    sup tt sub link name email
    organization term foreign url footnote
    endnote glossref indexref pagenumber q
    citation imath im)gt
  • lt!ATTLIST note
  • id ID IMPLIEDgt
  • lt!ELEMENT workauthor (PCDATA given surname
    suffix organization)gt
  • lt!ATTLIST workauthor
  • role CDATA IMPLIED
  • ref IDREF IMPLIED
  • id ID IMPLIEDgt
  • ...
  • lt!ELEMENT worktitle (PCDATA em u strong
    br sup tt sub pagenumber)gt

29
Das Potenzial
30
Wenn es diese Daten und Metadaten einmal gibt ...
  • ... dann unterstützen sie leistungsfähige Suchen
    in verteilten Archiven (z.B.) elektr.
    Abschlussarbeiten u. Dissertationen (ETDs)
  • i.d.R. mit OAI-Metadaten-Harvesting
  • Beispiele
  • www.ndltd.org
  • z.Z. 154 Mitglieder / Repositorien
  • http//www.cybertesis.net
  • z.Z. 27 Mitglieder / Repositorien
  • Vorteile für die Autoren
  • Kostenfreie Publikation, hochwertige Archivierung
  • Garantie der langfristigen Lesbarkeit (50 Jahre)
  • Authentizität Integrität
  • Semantische Durchsuchbarkeit

31
... aber wie bekommt man die (Meta)Daten?
32
Die Probleme
33
Befragung
34
Problem 1 Es ist nicht einfach (und es macht
keinen Spaß)
  • Seit Beginn von EDOC (1997) Anteil der
    Online-Diss. 20 (13 incl. Medizinische
    Fakultät)
  • Befragung aller DoktorandInnen und
    HabilitandInnen (knapp 2500 Personen, 12-14
    antworteten)
  • Hauptergebnisse bzgl. Bekanntheit und Nutzung von
    EDOC-Diensten
  • Probleme im Informationsfluss ? Marketing und
    Service
  • Die Erstellung der Metadaten wird als mühselig
    und schwierig empfunden insbesondere die I.d.R.
    nachträglich vorgenommene Literatur-Formatierung

Berendt, Brenstein, Li, Wendland, Proc. ETD
2003 Berendt, Proc. AAAI Spring Symposium KCVC,
2005
35
und das hat Folgen
  • ltBIBLIOGRAPHYgtltFLOATgtltPAGENUMBERgt136lt/PAGENUMBERgtlt
    /FLOATgt
  • ltHEADgtLiteraturverzeichnislt/HEADgt
  • ltCITATION WORKTYPE"journal" PUBLISHED"PUBLISHED
    "gt
  • ltCUT ID"bib-15-"gt1 lt/CUTgtltWORKAUTHORgtAgarwal,
    R. Krueger, B. P. Scholes, G. D. Yang, M.
    Yom, J. Mets, L. Fleming, G. R.lt/WORKAUTHORgtUltAR
    TICLETITLEgtltrafast energy transfer in LHC-II
    revealed by three-pulse photon echo peak shift
    measurementslt/ARTICLETITLEgt, ltWORKTITLEgtJ. Phys.
    Chem. Blt/WORKTITLEgt, ltPUBDATEgt2000lt/PUBDATEgt,
    ltNUMBERgt104lt/NUMBERgt, ltPAGESgt2908lt/PAGESgt,
  • lt/CITATIONgt
  • ...

36
Warum ist das ein Problem?
Cardona, M., Marx, W. (2004).Verwechselt,vergess
en,wiedergefunden. Referenzendas fehlerhafte
Gedächtnis... Physik Journal, 3 (11), 27-29.
37
Semantics ? Mining / usage mining
38
Q Wissensbereitstellung als Nebeneffekt anderer
Aktivitäten? (hier Websuche)
  • Ein 3. Hauptergebnis der Befragung
  • weitgehend unbekannt und ungenutzt sind
  • strukturiertes Schreiben
  • strukturierte Suche
  • ? Frage Macht die Site Leser zu Autoren?
  • Daten aus dem Webserver-Log
  • 10,992 Sessions (210,655 Seiten) aus einer Woche
    2003 (gegen Ende der ersten Befragung)
  • Methoden semantische Anreicherung,
    Assoziationsregel- und Sequenzmining (Tools
    WEKA, WUM) Clustering, Klassifikation

39
Non-semantic Web Usage Mining
  • 80.136.155.126 - - 29/Mar/2003000200 0100
    "GET /favicon.ico HTTP/1.1" 200 1406 "-"
    "Mozilla/5.0 (Windows U Win 9x 4.90 de-DE
    rv1.0.1) Gecko/20020823 Netscape/7.0"
  • 80.136.155.126 - - 29/Mar/2003000200 0100
    "GET /dissertationen/style/did.css HTTP/1.1" 200
    10301 "http//edoc.hu-berlin.de/conferences/conf2/
    Kuehne-Hartmut-2002-09-08/HTML/kuehne-ch1.html"
    "Mozilla/5.0 (Windows U Win 9x 4.90 de-DE
    rv1.0.1) Gecko/20020823 Netscape/7.0"
  • 66.196.72.44 - - 29/Mar/2003000238 0100
    "GET /../projekte/epdiss/kolloqu/schu/slide4.html
    HTTP/1.0" 400 379 "-" "Mozilla/5.0 (Slurp/cat
    slurp_at_inktomi.com http//www.inktomi.com/slurp.ht
    ml)"
  • 66.196.72.44 - - 29/Mar/2003000309 0100
    "GET /humboldt-vl/hofmann-hasso/PDF/Hofmann.pdf
    HTTP/1.1" 200 94881 "-" "Mozilla/4.0 (compatible
    MSIE 6.0 Windows 98 Q312461)"
  • 66.196.72.21 - - 29/Mar/2003000414 0100
    "GET /dissertationen/biologie/kernekewisch-michael
    a/HTML/kernekewisch-vita.html HTTP/1.0" 200 7418
    "-" "Mozilla/5.0 (Slurp/cat slurp_at_inktomi.com
    http//www.inktomi.com/slurp.html)"
  • 64.68.82.27 - - 29/Mar/2003000421 0100 "GET
    /download/kume/r-lailach-hesse.PDF HTTP/1.0" 200
    179357 "-" "Googlebot/2.1 http//www.googlebot.co
    m/bot.html)"
  • 193.7.255.242 - - 29/Mar/2003000708 0100
    "GET /dissertationen/radspieler-alexander-2000-09-
    20/HTML/radspieler-ch2.html HTTP/1.1" 304 - "-"
    "Firefly/1.0 (compatible Mozilla 4.0 MSIE 5.5)"

Problem URLs sind nicht semantisch. ? Eine
Analyse der Daten in dieser Form bringt keine
Erkenntnis!
40
Ontologie-basierte Verhaltensmodellierung URLs
und Anwendungsereignisse
URL
Webseite mit Inhalt
Gewünschter Dienst
Erhaltener Inhalt
Berendt, B., Stumme, G., Hotho, A. (2004).
Usage mining for and on the Semantic Web. In H.
Kargupta, A. Joshi, K. Sivakumar, Y. Yesha
(Eds.), Data Mining Next Generation Challenges
and Future Directions. Menlo Park, CA AAAI/MIT
Press.
41
Datenvorbereitung Semantische Anreicherung
TOP
HOME
AUTHOR
SEARCH
DOC
OTHER
OAI
OTHER
DISS
FULLTEXT
META
PROJECT
OTHER DOC
HINWEISE
RESULT
ADVICE
LIST
MASTER


DNB
ABSTRACT
TEMPLATE

AUTHOR
ACCESS
README
KEYWORD
CONFERENCE
ABSTRACT

FAQ
ACCESS


LATEX
PUBLIC READ
regexpr.txt mapping from URLs to concepts HOME
edoc\.hu-berlin\.de\/ AUTHOR-START
\/e_autoren_en\/ DISS-ABSTRACT
\/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE
\/e_autoren\/hinweise\.php\?nav. AUTHOR-ADVICE
\/e_rzm\/hinweise\.php. ...

DIML

STUDY


CMS
42
Resultat der Datenvorbereitung Datenmodellierung
  • Ein Zugriff (request) entspricht dem Interesse
    an
  • einem Konzept
  • einer (Multi-)Menge von Konzepten
  • einer strukturierten Menge von Konzepten
  • Ein Merkmalsträger ist
  • eine Session, betrachtet als eine (Multi-)Menge
    von Zugriffen
  • eine Session, betrachtet als eine Sequenz von
    Zugriffen
  • eine Session, betrachtet als ein Graph von
    Zugriffen
  • ein Nutzer, modelliert durch
  • (ggf. aggregierte) Attribute seiner Session(s)
  • ggf.
  • andere Attribute (z.B. Wohnort, Einkommen,
    Transaktionshistorie)

A
B
C
A
B
A
C
A
B
C
43
Semantic Web Usage Mining Schritt 2
Musterentdeckung Bsp. Sequenzmining
  • Find out pages that are usually visited together
    and inspect the navigation paths between them.
  • ? Sequence miner WUM (http//www.hypknowsys.de)
  • select t from node as a b, template _ a b as
    t
  • where a.accesses gt 100 and a.support gt 100
  • and b.accesses gt 50 and b.support gt 50
  • and ( b.support / a.support ) gt 0.5

- only paths starting from author-relevant
content
and a.url startswith AUTHOR
44
Beliebte Eintrittspunkte und 1. Schritte
  • ? Leser gehen direkt zu Dissertationen u.
    bleiben dort.

45
Pfade zur Formatvorlage
  • ? Autoren bleiben bei Autoren-Inhalten.

46
  • Leser und Autoren sind unterschiedliche Gruppen
    Leser werden nicht zu Autoren (jedenfalls nicht
    in einer Session)
  • Nur wenige Besucher nutzen die interne
    Suchmaschine, und sie erfahren die strukturierte
    Suche nicht als effektive oder effiziente
    Suchoption.
  • Eine separate Fragebogenstudie unterstützt diesen
    Befund.
  • Die Nutzung externer Suchmaschinen macht den
    Zugang zu Dissertations-Volltexten
    wahrscheinlicher.

? Problem 2 Wissensbereitstellung ergibt sich
nicht als Nebeneffekt anderer Aktivitäten (hier
Websuche)
47
Exkurs Analyse bei gegebener Domänen-Ontologie
ka2portal.aifb.uni-karlsruhe.de
Gibt es verschiedene Suchtypen in diesem
Onlinekatalog? Welche (Kombinationen von)
Suchoptionen sind populär? Was signalisiert
dieses über das inhaltliche Interesse der Nutzer?
48
Semantics of requests Step 1 Domain ontology
  • community portal ka2portal.aifb.uni-karlsruhe.de
  • ontology-based
  • Knowledge base in F-Logic
  • Static pages annotations
  • Dynamic pages generated from queries
  • Queries also in F-Logic
  • Logs contain these queries

Oberle, Berendt, Hotho, Gonzalez, Proc. AWIC
2003
49
Semantics of requests Step 2 Modelling
requests and sessions-as-sets
  • RESEARCHER
  • PERSON
  • PROJECT
  • PUBLICATION
  • RESEARCHTOPIC
  • EVENT
  • ORGANIZATION
  • RESEARCHINTEREST
  • LASTNAME
  • TITLE
  • ISABOUT
  • EVENTS
  • EVENTTITLE
  • WORKSATPROJECT
  • AUTHOR
  • AFFILIATION
  • ISWORKEDONBY
  • PROGRAMCOMMITTEE
  • EMPLOYS

An example query with concepts and relations
FORALL N,PEOPLE lt-PEOPLE Employeeaffiliation-gt
gt "http//www.anInstitute.org" and
PEOPLEPersonlastName-gtgtN.
Query feature vector of concepts
relations ? Session feature vector of
concepts relations, summed over all queries in
the session
Clustering, Association rules, Classification, ...
50
Der Lösungsansatz
51
Mach es einfacher
52
Semantics ? Mining / content mining
53
Welche Art von Programmen und Nutzungsschnittstell
en unterstützen Autoren und motivieren sie zur
Mitarbeit?
  • ... Und wie können weitere Daten gesammelt
    werden, um den Schreibprozess zu verstehen und zu
    unterstützen?
  • Ein intelligentes Autorentool zur Schaffung von
    Semantik
  • Prototyp Fokus auf Bibliographie-Annotation
  • Kern fehleranfälligster Teil der
    Formatvorlagen-Benutzung in EDOC
  • Basierend auf Informationsextraktion

Berendt, Proc. AAAI Spring Symposium KCVC, 2005
54
System-Architektur
55
Nutzungsschnittstelle
corrected, XML annotated, and formatted
56
Informationsextraktion Referenz-Parsing in 3
Tools
57
Paratools-Zitations-Parsinghttp//paracite.eprint
s.org
  • Eine Datenbank von Templates der Form
  • '_AUTHORS_ (_YEAR_). _TITLE_. _PUBLICATION_,_VOLUM
    E_(_ISSUE_)_PAGES_'
  • jedes _XXX_ ist assoziiert mit einem regulären
    Ausdruck
  • Bsp. _YEAR_ ? (digit4)
  • 2 Gewichtungsfaktoren
  • reliability syntaktische Festgelegtheit eines
    regulären Ausdrucks
  • Ex. _URL_ gt _TITLE_
  • concreteness Anzahl fixierter Symbole
  • Ex. '_AUTHORS_,_PUBLICATION_, in press' gt
    '_AUTHORS_, _PUBLICATION_'
  • Templates werden gegen die Referenz gematcht.
  • Wähle das Template mit der höchsten reliability,
    oder (wenn diese gleich sind) mit der höchsten
    concreteness.

58
Mach es lohnender
59
Semantics ? Mining / content structure mining
RDI Rosetta
Bradshaw, S. (2003). Reference Directed Indexing
Redeeming Relevance for Subject Search in
Citation Indexes. In Proceedings of the 7th
European Conference on Research and Advanced
Technology for Digital Libraries. Bradshaw, S.,
Hammond, K. (2000). Guiding people to
information Providing an interface to a digital
library using Reference as a basis for indexing.
In Proceedings of the Fifth International ACM
Conference on Intelligent User Interfaces.
60
(No Transcript)
61
Versteh es richtig
62
Semantics ?? Mining / content structure
mining SSI
R. Navigli P. Velardi. Structural Semantic
Interconnections a knowledge-based approach to
word sense disambiguation. IEEE Transactions on
Pattern Analysis and Machine Intelligence (27-7),
July, 2005.
63
(No Transcript)
64
(No Transcript)
65
Basic idea graphs of meanings induced by WordNet
Using SSI for word sense disambiguation (The
driver turned on his heel and went back to the
truck.)
66
(No Transcript)
67
Zusammenfassung und Ausblick
  • Um Freiwillige zu motivieren, müssen
    informatische, motivationale und institutionelle
    Aspekte berücksichtigt werden!
  • Erweiterung des Intelligenten Autoren-Tools
  • Erweiterung der Leistungsfähigkeit
    (Zitationsstile, ...)
  • Integration weiterer Information-Retrieval- und
    Mining-Verfahren
  • Laborstudien zur ersten Evaluation
  • Usage-Mining zur fortlaufenden Evaluation
  • Verstärkung des Community-Elements!

68
Ausblick 1 Stärkere Einbeziehung der Community
69
bibster.semanticweb.org
Recommendations based on items semantics and
their ... similarity to the users expertise ?
measured by previous externalisations (content of
personal database) ... similarity to relevant
items ? measured by previous internalisations
(answers to a query) and combinations (addition
to the personal database)
Haase, Ehrig, Hotho, Schnizler, 2004
70
www.bibserv.org
71
Ausblick 2 Spaß!
72
(No Transcript)
73
(No Transcript)
74
(No Transcript)
75
Danke für die Aufmerksamkeit!
Write a Comment
User Comments (0)
About PowerShow.com