Semantisk opm - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Semantisk opm

Description:

Title: SCARRIE A high-quality proof-reading tool for the Scandinavian publishing industry Author: Patrizia Paggio Last modified by: Administrator – PowerPoint PPT presentation

Number of Views:94
Avg rating:3.0/5.0
Slides: 40
Provided by: Patrizi76
Category:

less

Transcript and Presenter's Notes

Title: Semantisk opm


1
Semantisk opmærkning
  • Bolette Sandford Pedersen
  • Center for Sprogteknologi

2
Indhold
  • semantisk opmærkning af tekstkorpus
  • (opmærkningssprog xml -
  • projekt Senseval)
  • semantiske ordbøger beskrevet med
    opmærkningssprog
  • (opmærkningssprog sgml - projekt SIMPLE)
  • Eksempel på anvendelse af semantisk opmærkning i
    applikation
  • Indholdsbaseret søgning (projekt OntoQuery)

3
Semantisk opmærkning af tekstkorpus Senseval
  • Formål at opbygge semantisk opmærkede korpora på
    forskellige sprog Gold Standards
  • Hvorfor for at muliggøre test af værktøjer til
    entydiggørelse af flertydige ord på de samme
    tekster
  • Projektstatus verdensomspændende ufinansieret
    projekt hvor man deltager på frivillig basis der
    igangsættes løbende konkurrencer

4
Senseval
  • Initiativtagere
  • Scott Cotton, University of Pennsylvania
  • Phil Edmonds, Sharp Laboratories of Europe
  • Adam Kilgarriff, ITRI, University of Brighton
  • Martha Palmer, University of Pennsylvania
  • web-site http//www.sle.sharp.co.uk/senseval2/

5
Fælles referenceramme XML
  • Projekthjemmeside hvor alle krav er specificeret
  • Document type definition (dtd)
  • tilgængelig på nettet
  • eksempler på de filer der skal genereres på hvert
    sprog
  • krav for deltagelse producer disse filer i
    parset format for eget sprog og få dem oploadet
    på hjemmesiden inden deadline

6
Dansk deltagelse i Senseval
  • Center for Sprogteknologi
  • Institut for Datalingvistik, Handelshøjskolen i
    København
  • Vi afsluttede opmærkningen i 2001
  • Data er (endnu) ikke blevet anvendt til
    entydiggørelse, men korpus er tilgengængeligt på
    http//cst.ku.dk/senseval/index.html
  • Steder hvor der arbejdes med automatisk
    entydiggørelse
  • http//ilk.kub.nl/ (Tilburg)
  • http//trec.nist.gov/pubs/trec10/t10_sysdes/insigh
    tsoft/insight.html
  • http//svenska.gu.se/7Esvedk/software.html)

7
Dansk deltagelse i Senseval
  • Det danske trænings- og evalueringsmateriale
    indbefatter betydningsopmærkede
  • korpuseksempler for 100 flertydige ord på
    dansk, heraf
  • 50 substantiver,
  • 25 adjektiver
  • 25 verber.
  • For hvert ord er der betydningsopmærket
    gennemsnitligt 150 eksempler - afhængigt af hvor
    flertydigt ordet er.

8
Beregningsfaktor
  • hvis et ord har n betydninger i en
    mellemstørrelsesordbog (Nudansk) så undersøg
    100 15n korpuseksempler med dette ord (f.eks.
    120 eksempler for et ord med 3 betydninger)
  • f.eks. røre 8 betydninger i Nudansk Ordbog giver
    100 120 220 korpuseksempler,
    underbetydninger og idiomatiske udtryk tælles med

9
Semantiske ordbøger beskrevet med
opmærkningssprog
  • vi taler her om sprogteknologiske ordbøger som
    har computeren som primær bruger (men naturligvis
    mennesker som sekundære brugere)
  • skal udformes i et formelt sprog
  • opmærkningssprog som sgml og xml er velegnede
    hertil
  • fælles referenceramme for den semantiske ordbog
    sgml

10
Om SIMPLE
  • SIMPLE-projektet var et EU-projekt som blev
    afsluttet i 2000
  • Formål at udarbejde harmoniserede semantiske
    ordbøger for 12 EU sprog (Semantic Information
    for Multifunctional, Plurilingual Lexica)
  • 10.000 betydninger for hvert sprog
  • på basis af en fælles ontologi, SIMPLE-ontologien
    (Lenci et al. 2001)

11
Hvorfor skal der være semantik i en
sprogteknologisk ordbog ?
  • Niveau 1 f.eks. maskinoversættelse kræver at
    maskinen kan entydiggøre ord som kan betyde flere
    ting
  • Kosten var velsmagende
  • tiden går

12
Semantik
  • Niveau 2 F.eks. avanceret informationssøgning
    kræver at maskinen i en vis forstand kan fortolke
    ord
  • Søgeudtryk støtte til solvarme
  • Finde tekster med tilskud til energibesparende
    foranstaltning
  • støtte og tilskud er synonymer
  • solvarme er underbegreb til energibesparende
    foranstaltning

13
Semantik
  • Niveau 3 Fuld maskinel fortolkning til
    programmer som skal forstå naturligt sprog
  • Hans dansede med sin borddame
  • For at maskinen skal kunne identificere hvem
    der refereres til med ordet borddame - skal den
    vide at det er den kvinde han sad ved siden af
    under middagen.

14
Hvor står semantikken i almindelige ordbøger?
  • NUDANSK ORDBOG
  • Puslespil
  • ORDKLASSE subst.BØJNING puslespillet, plur.
    puslespil, puslespilleneBETYDNING et spil med
    træ- el. papbrikker i forskellige faconer som
    skal lægges sammen så de danner et heleEKSEMPEL
    lægge puslespil på 2.000 brikkerSAMMENSÆTNING
    puslespilsbrik

15
puslespil som flerdimensionel type
  • et spil med træ- el. papbrikker i forskellige
    faconer som skal lægges sammen så de danner et
    heleoverbegreb dele formål oprindelse
  • spil træbrikker samles til et hele
    udskære
  • papbrikker
  • puslespil

16
En ordbogsindgang med semantik
  • Semantic Unit puslespil
  • Definition et spil med træ- el. papbrikker i
    forskellige faconer som skal lægges sammen så
    de danner et hele (NDO)
  • Corpus examplenu var hun næsten ved at være
    færdig med det puslespil, hun var begyndt på
    lige efter påske
  • Ontological typeArtifact
  • Unification Path Concrete_EntityAgentiveTelic
  • Domain General
  • Formal quale is_a spil
  • Agentive quale created_by udskære
  • Telic quale used_for samle til et hele
  • Constitutive qualehas_as_partstræbrikker OR
    papbrikker

17
Eksempel på anvendelse af semantisk opmærkning i
applikation
  • Indholdsbaseret søgning er en applikationstype
    hvor sprogteknologi har en funktion

18
Problemer ved informationssøgning - kort fortalt
  • for mange informationer
  • ord kan betyde flere ting de er flertydige
  • ca. 23 af alle ord der søges på er flertydige
  • ca. 10 af alle navne der søges på er flertydige)
  • Torkildsen, Holen og Johannessen 2000
  • for få informationer
  • vi har flere ord for de samme begreber, synonymer
    og synonyme udtryk

19
Problemer ved informationssøgning
  • vi får for mange informationer som ikke er
    prioriteret godt nok og som derfor er vanskelige
    at holde rede på idet meget af det er irrelevant
  • vi får for få informationer i forhold til hvad
    der rent faktisk er tilgængeligt på nettet fordi
    vi ikke har ramt den rigtige formulering i
    forespørgslen
  • begge problemer vil delvist kunne afhjælpes hvis
    søgesystemerne har en større sproglig viden

20
Sproglig viden til informationssøgning
  • sproglige problemer på basisniveau
  • vi har mere eller mindre den sproglige viden -
    også for dansk og i en formaliseret version - men
    den er ikke indarbejdet i alle søgesystemer
  • sproglige problemer der kræver mere
    indholdsmæssig viden
  • de sproglige ressourcer skal udvikles
  • problem nye tekster - nyt indhold

21
Sproglige problemer på basisniveau
  • ordene kan antage flere former
  • orlovsordninger, orlovsordningen,
    orlovsordningerne
  • reduktion til grundformer (lemmatisering) kan
    afhjælpe dette problem
  • simpel flertydighed ordene kan tilhøre
    forskellige ordklasser
  • klager/NU over/PRÆP ADV læger/NU
  • syntaktisk tagger kan afhjælpe problemet
  • efter tagging klager/N over/PRÆP læger/N

22
Sproglige problemer der kræver mere
indholdsmæssig viden
  • flertydighed inden for samme ordklasse
  • vitaminrig kost/ fejekost - mad
  • flere indholdsmæssige forhold kan afhjælpe
    flertydighedsproblemet
  • domæneviden hvis vi kender domænet, kan vi vælge
  • viden om ordenes interne struktur hvis vi ved
    noget om kosts nærende funktioner, kan vi vælge
  • kost og sygdomme
  • klager/NU over/PRÆP ADV læger/NU
  • syntaktisk tagger kan afhjælpe problemet
  • efter tagging klager/N over/PRÆP læger/N
  • begge problemer vil delvist kunne afhjælpes hvis
    søgesystemerne har en større sproglig viden
  • sproglige problemer på basisniveau
  • sproglige problemer der kræver indholdsmæssig
    viden

23
Sproglige problemer der kræver mere
indholdsmæssig viden
  • synonymi - flere betegnelser for det samme kan
    betyde at vi får for få søgeresultater
  • forældreorlov - børnepasningsorlov
  • støtte - tilskud / computer - datamat /
    diabetes - sukkersyge
  • anvendelse af synonymiordbog kan afhjælpe
    problemet

24
Ontologisk viden
  • underbegreber kan være relevante
  • vitaminer har_som_underbegreber
  • k-vitamin, c-vitamin, d-vitamin, thiamin
  • overbegreber kan være relevante
  • solvarme har_som_overbegreb
  • energibevarende foranstaltning

25
Ontologisk viden er central
  • ontologisk viden kan danne baggrund for en
    semantisk beregning sådan at søgeresultater
    prioriteres på basis af sprogligt indhold
  • den semantiske afstand mellem søgeudtryk og
    søgeresultat beregnes f.eks. ud fra hvor mange
    niveauer man skal ned i en given ontologi for
    at finde resultatet
  • søgeudtryk sygdom
  • tekst1 sygdom tekst2 kræft tekst3 lungekræft

26
Forskningsområde hvor vigtig er relationerne
ml. ordene?
  • Traditionelle søgemaskiner ser på nærhed ml.
  • søgeordene men ikke på relationerne
  • forespørgsel hvilke sygdomme har at gøre med
    mangel på vitamin i kosten ?
  • googlesvar alkoholforbrug og mangel på fysisk
    aktivitet ... hvordan kosten er sammensat
  • kilde Paggio, Pedersen Haltrup (forthcoming)

27
SIMPLEs anvendelse i indholdsbaseret søgning
  • OntoQuery Ontology-based Querying
  • Et dansk samarbejdsprojekt 1999-2004
  • Partnere
  • Roskilde Universitet
  • Danmarks Tekniske Universitet
  • Handelshøjskolen i København
  • Syddansk Universitet
  • Center for Sprogteknologi

28
Formålet med OntoQuery- projektet
  • At udvikle en metode til indholdsbaseret søgning
  • at gå videre end mønstergenkendelse ved at lave
    en rå lingvistisk analyse på baggrund af en
    ontologi
  • der produceres en rå semantisk analyse af tekst
    og af forespørgsel
  • søgning foregår ved at sammenligne beskrivelser
    og finde det bedste match mellem forespørgsel
    og tekst på basis af ontologien dels på
    begreberne alene, dels på relationerne mellem
    begreberne

29
SystemOverview
Text fragment
Query
Description Generator
Lexicons Ontology
Linguistic Analysis
Mapping to description
Text database
OntoLog descriptions
Query Engine
30
Eksempel fra SIMPLE-ontologien
  • kanin - 3 betydninger 1. animal, 2. meat, 3.
    material
  • kanin
  • kød
  • mad
  • Substance Food
  • Food
  • Telic
  • Top
  • Concrete entity
  • Entity
  • Top

31
Ernæringsontologien
  • lavet på baggrund af Den Store Danske Encyklopædi
  • enkelte knuder er etableret for at strukturere
    ontologien,f.eks. stof-i-krop
  • ernæringsontologien er organiseret under 2
    forskellige knuder i SIMPLE-ontologien

32
Eksempel fra ernæringsontologien
  • A-vitamin
  • fedtopløseligt vitamin
  • vitamin
  • mikronæringsstof
  • næringsstof
  • Natural Substance
  • Substance
  • Concrete entity
  • Entity
  • Top

33
Anvendelse af ontologienanalyse af tekst og
forespørgsler
  • Tekster og forespørgsler (NPer) analyseres
  • mangel på vitaminer i kosten
  • ?
  • (mangel x (WRT vitamin) x (LOC diet))

34
Opmærkning af teksterne
  • Der bygges begrebsrepræsentationer på basis af
  • POS-tagging
  • NP-genkendelse
  • semantisk opnmærkning

35
Lingvistiske komponenter
Hvilke sygdomme har at gøre med mangel på
vitaminer i kosten?
POS-Tagger
hvilke/PRON sygdomme/N har/V_PRES at /UNIK
gøre/V_INF med/PRÆP mangel/N på/PRÆP
vitaminer/N i/PRÆP kosten/N ?/TEGN
NP recogniser
NP hvilke sygdomme har at gøre med NP mangel
på vitaminer i kosten.
NP parser
Sem
...
NP
CONCEPT mangel REL wrt REL loc
ARG vitamin ARG kost
N
PP
P
NP
Mapping to Descriptions
N
PP
(mangel x (WRT vitamin) x (LOC kost))
36
Test af 1. prototype
37
Test af 1. prototype
38
Test af 1. prototype
39
OntoQuerys hypotese
  • Hvis vi kan identificere den semantiske relation
    der
  • holder mellem 2 begreber kan vi prioritere gode
  • hits bedre og vi kan genkende det samme eller
  • lignende begreber i forskellig forklædning,
    f.eks.
  • overvægtige børn, børn med overvægt, fede børn
  • børn med fedmeproblemer, børn der har
  • fedmeproblemer
Write a Comment
User Comments (0)
About PowerShow.com