Title: Namn- och termigenk
1Namn- och termigenkänning i specialiserade texter
- Cecilia Hemming
- Högskolan i Skövde
- Institutionen för Kommunikation och Information
- Datalingvistik
2Namn- och termigenkänning
- Automatisk sammanfattning
- plocka ut det väsentliga ur en text
- Informationsextrahering (IE)
- hitta och presentera relevant information
- Informationsåtkomst (IR)
- hitta och presentera relevanta dokument
- Frågebesvarande system
- Maskinöversättning
3Namn och översättning
Jag mötte Usama slänga i soptunnan Laden
I met Usama bin Laden
4Vad är ett namn?
- Ett eller flera ord som betecknar
- person, organisation, plats, datum, tid, valuta,
procentuttryck. - Inte specifikt för en viss domän
5Namnigenkänning
- Hitta datum-/tid-/måttsuttryck, telefon/e-post,
- Identifiera namn och dela in i relevanta
kategorier - Namn på personer, organisationer, platser,
- Hitta domänspecifika termer
- namn på biologiska objekt (gener, proteiner,)
- namn på tekniska objekt (maskiner, maskindelar,
)
6Problem
- Metonymi mer än bara egentlig betydelse
-
- Polysemi
- Maj person eller månad (maj)?
- Namn eller vanligt ord?
- Stig Flod
- Interpunktion, stavning, mellanrum, formatering
- Olika i olika språk och typer av text
- Högskolan i Skövde, 541 45 Skövde
, Volvo satsar i Polen
, släpp av mig på Volvo
plats
produkt
organisation
7Hur kan namn hittas?
- Namndatabaser och namnlistor
- enkelt, snabbt, språkoberoende, anpassningsbart
- samla/underhålla, hanterar inte
ambiguitet/varianter - Även titta på ords inre struktur
- Förnamn Ord -gt person (Ola Person)
- Ord AB, HB, KB, -gt organisation (Bala AB)
8Databaser/namnlistor ytparsning
(forts.)
- Dessutom titta på kontexten
- Ord är enett Adj Plats
- Göteborg är en trevlig stad.
- Problem med ytparsning
- Charles de Gaulle namn, flygplats?
- Svenska Britt Ekland gör ny film.
- Högskolan i Skövde Föräldrarna i Bullerbyn
9Namnigenkänning (engelsk nyhetstext)
The
English-language
Arab
News
reported
on
Monday
that
Prince
refused
to
answer
Nayef
reporters
questions
on
the
arrest
of
Hani
Abdel-Rahim
Hussein
al-Sayegh
English-language
Arab
News
Prince
Nayef
Hani
Abdel-Rahim
Hussein
al-Sayegh
10Termer
- lexikal enhet huvudsakligen använd inom specifik
domän Kageura 2002 - Ofta sammansättningar
- Ett eller flera ord
- Ofta okända (inte i termdatabaser/-listor)
11Termer och översättning
oil management foothold
oljeledningsfäste
12Problem med termer exempel från
biomedicinska texter
- Olika benämningar/kortversioner för samma sak
- Interleukin-1 beta ? interleukin
- NF-IL6-beta ? NF IL
- Samma benämning på flera olika saker
- Ingen enhetlig standard
- på hur termer byggs upp
- TR2
- interferon alpha-D
- hur termer skrivs
- namn, term eller vanlig nominalffras?
- Enkla termer, minst 6 olika skrivsätt
- EGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1
13Komplexa termer
- -- NF Kappa B
- alltid stor inledande bokstav och mellanslag
- -- NF kappa B --
- ingående ord skrivs med liten bokstav
- -- NF kappaB --
- vissa delar av namnet skrivs ihop
- -- NFkappaB --
- alla delar skrivs ihop
14Länka akronymer till namn på biologiska objekt
From previous
procedure
Is the acronym
Mark the words inside
followed by ( and a
Place pointer at the first
Find next acronym
the () as Named Entity
Yes
No
word beginning whith
word in the sentence
and link to the acronym
L1
No
Find the Nth word beginning
L1 First Letter in the
in L1 to the left of the
acronym
Within
parentheses and mark that
Found?
N Number of
Yes
Yes
Yes
parentheses
word and the rest of the left
occurrences of L1 in the
side context as Named Entity
acronym
and link to the acronym
No
To next procedure
(Named Entity Recognition
shown in Figure 4)
p16INK4a
(
)
There
are
aslo
tumorrelated
genes
like
NF2
neurofibromatose of type 2
.
(
)
belongs
to
a
group
cell
cycle
regulator
called
cyclin
dependent
kinase
inhibitors
CDKI
.
15 16Syntaktiska termbildningsmönster
- Språkspecifika bildningsmönster
- svenska nounnoun -gt
- franska noun prep noun/verb
- Swedish noun-2noun-1 (modifierarehuvud) -gt
- French noun-1 prep noun-2 (huvud prep
modifierare) - oljekanal canalisation à huile
- bränsleledning conduite de carburant
17Semantiska koncept
- Term lingvistisk representation för ett
domänspecifikt koncept - Viktiga semantiska koncept för en domän ?
relevanta termer för domänen - För att kunna översätta en sammansatt term krävs
korrekt semantisk tolkning - t.ex. val av preposition
- de om modifierande substantiv uttrycker vad ngt
är avsett för