Title: Text Encoding Initiative
1Text Encoding Initiative
Mats Dahlström Digitalisering av kulturarvet
Januari 2008
2TEI bakgrund
- Behov av uniformt system för textkodning och
utbyte inom humaniora - Till 80-talet användes proprietära
representationssystem - Behov av
- Återanvändbarhet
- Interoperabilitet
- Plattforms, hård- och mjukvaruoberoende
- Portabilitet
- Kollaborationsmöjligheter
- Ett verktyg för flera discipliner / vetenskaper
inom humaniora - TEI-konsortiet lthttp//www.tei-c.orggt
3TEI utveckling
- 1986 SGML / ISO
- 1987 Poughkeepsie principles
- 1990 P1 (SGML)
- 1992 P2
- 1994 P3 600 element
- 1995 TeiLite 121 element
- 1999 P3rev
- 2000 TEI Consortium
- 2001 P4 XML (viss SGML)
- 2001 TeixLite XML
- 2005 XML Schema
- 2005-2008(?) P5 (ingen SGML) -500 element
4Hur används TEI?
- För kodning av
- texter på olika språk, av olika ålder och epoker,
i olika litterära och bibliografiska genrer
(texttyper) - såväl continuous material som discontinuous
material (t.ex. lexika och korpora)
5Varför så omfattande?
- TEI uppbyggt kring riktlinjer, regler och
rekommendationer istället för standard eftersom - Textkodning innebär representation och tolkning
- Frihet för forskaren att uttrycka sin teori om
texten genom att göra olika val - Riktlinjerna att betrakta som referensmanual
6Vad innehåller TEI?
- Inte en enda given DTD, utan en mängd
DTD-fragment (tag sets), som kan kombineras - Vissa nödvändiga (required), andra grundläggande
(basic) och vissa valfria (optional)
7Sugen på pizza?
- Core tag sets
- Base tag sets
- Additional tag sets
http//www.tei-c.org/pizza.html
8Core tag set
- Nödvändigt
- Innefattar bl.a. ltteiHeadergt (kapitel 5 i
Guidelines) - Jämförbart med titelsidan i tryckt bok
- Gemensamma element för alla TEI-dokument (kapitel
6)
9Base tag sets
- Prose
- Verse
- Drama
- Speech
- Dictionaries
- Terminology
- General base
- Mixed base
10Additional tag sets
- Urvalsförfarande och ej nödvändiga
- Länkar
- Figurer
- Analyselement (mycket enkla)
- Textkritiska möjligheter (apparat)
- Namn och datum
11(No Transcript)
12Prologen
- XML-deklaration
- lt?xml version1.0 encodingISO-8859-1
standaloneno?gt - Dokumenttypsdeklaration
- lt!DOCTYPE TEI.2 PUBLIC -//TEI P4//DTD Main
Document Type//EN - http//www.adm.hb.se/mg/dig/XMLLab/masterx.dtdgt
13- ltTEI.2gt
- ltteiHeadergt Metadata lt/teiHeadergt
- lttextgt
- ltfrontgt Preliminärer, t.ex. titelsidans text
och förord lt/frontgt - ltbodygt Huvudtexten lt/bodygt
- ltbackgt Subsidiärer, t.ex. appendix, epilog
och liknande lt/backgt - lt/textgt
- lt/TEI.2gt
14I ett TEI-dokument ingår alltid
- rotelementet exv. lttei.2gt
- teiHeader
- text
- body
- Dessa kan inte innehålla text (PCDATA)
15TEI Lite
- Den mest populära DTDn är TEI Lite
- 121 fasta element
- Med bara 20 av elementen täcks 90 av
TEI-användarnas behov i 90 av fallen - 80 av projekten
- TeixLite den XML-kompatibla versionen
- http//www.tei-c.org/Lite/
16TEI Lite prolog, t.ex.
- lt?xml version"1.0"?gt
- lt!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML
ver. 1//EN" "teixlite.dtd"gt
17med rotelement, header och text
- lt?xml version"1.0"?gt
- lt!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML
ver. 1//EN" "teixlite.dtd"gt - ltTEI.2gt
- ltteiHeadergt...ltteiHeadergt
- lttextgt...lttextgt
- ltTEI.2gt
18lttextgt
- lttextgt
- ltfrontgt...lt/frontgt
- ltbodygt...lt/bodygt
- ltbackgt...lt/backgt
- lt/textgt
19ltgroupgt
- ltgroupgt
- lttextgt...lt/textgt
- lttextgt...lt/textgt
- lttextgt...lt/textgt
- lt/groupgt
- lttextgt innehåller ingen text, utan andra element
20TEIs textstruktur
er
21ltbodygt
- body kan inte innehålla text, dvs PCDATA
(parsed character data). - I normalfallet innehåller body ett antal
avsnitt, innehållna i ett antal div-element,
vilka i sin tur vanligen innehåller ett antal
stycken. - Kap. 35 i Guidelines specificerar vilka element
som är tillåtna, eller nödvändiga, i vilka
element.
22ltfrontgt
- Preliminärer ss titelsidor, förordstexter osv
dvs den explicita informationen i förlagan - ltfrontgt
- lttitlePagegt
- ltdocTitlegt
- lttitlePart type"main"gt
- ...
- lt/titlePartgt
- ltdocAuthorgt...lt/docAuthorgt
- ltdocDategt...lt/docDategt
- ltdocEditiongt...lt/docEditiongt
- ltdocImprintgt...lt/docImprintgt
- ltepigraphgt...lt/epigraphgt
- lt/docTitlegt
- lt/titlePagegt
- lt/frontgt
23sektionsindelning av textltdivgt
- lttextgt
- ltfrontgt lt!-- titlepage etc here --gt lt/frontgt
- ltbodygt
- ltheadgtBok 1lt/headgt
- ltdiv type"chapter" n"1" id"b0101"gt
- ltheadgtKapitel 1lt/headgt
- lt! resten av kapitel 1 --gt
- lt/divgt
- ltdiv type"chapter" n"2" id"b0102"gt
- ltheadgtKapitel 2lt/headgt
- lt!-- resten av kapitel 2 --gt
- lt/divgt
- lt/bodygt
- lt/textgt
24Attribut i ltdivgt
- Elementet div är mångtydigt, vi vet inte
(utifrån uppmärkningen blott och bart) vad för en
typ av avsnitt det handlar om. . . - Vi kan också vilja indikera en kapitelnumrering.
. .
25//...// ltdiv typechapter n2gt ltpgt//...//lt/pgt
ltpgt//...//lt/pgt ltdiv typechapter
n3gt ltpgt//...//lt/pgt ltpgt//...//lt/pgt
26sektionsindelning av textltdivgt
- lttextgt
- ltfrontgt lt!-- titlepage etc here --gt lt/frontgt
- ltbodygt
- ltdiv1 type"book" n"1" id"b0100"gt
- ltheadgtBok 1lt/headgt
- ltdiv2 type"chapter" n"1"
id"b0101"gt - ltheadgtKapitel 1lt/headgt
- lt! resten av kapitel 1 --gt
- lt/div2gt
- ltdiv2 type"chapter" n"2"
id"b0102"gt - ltheadgtKapitel 2lt/headgt
- lt!-- resten av kapitel 2 --gt
- lt/div2gt
- lt/div1gt
- lt/bodygt
- lt/textgt
27Globala attribut
- Kan tilldelas alla element
- id för unik identifikation
- n för (icke-unikt) namn eller nummer
- rend för återgivning
- lang för språk
28under ltdivgt
- Prose stycken (ltpgt)
- Verse rader (ltlgt), ibland grupperade hierarkiskt
(ltlggt) - Drama repliker (ltspgt) som innehåller t.ex. ltpgt,
ltlgt och ltstagegt
29prosaexempel ltpgt
- ltpgt Skulle vi ha valt HTML som märkspråk för
textkodningen hade du visserligen fått en
snabbare och mer direkt väg från uppmärkning till
publicering. Men den hade också varit mindre ut-
och påbyggbar. lt/pgt
30poesiexempel 1
- Summer grass
- all that's left
- of warriors' dreams.
31poesiexempel 1
- ltlg type'haiku'gt
- ltlgtSummer grass mdashlt/lgt
- ltlgtall that's leftlt/lgt
- ltlgtof warriors' dreams.lt/lgt
- lt/lggt
32poesiexempel 2
- This Be The Verse
- They fuck you up, your mum and dad.
- They may not mean to, but they do.
- They fill you with the faults they had
- And add some extra, just for you.
33poesiexempel 2
- ltlg type"poem"gt
- ltheadgtThis Be The Verselt/titlegt
- ltlg type"stanza"gt
- ltlgtThey fuck you up, your mum and dad.lt/lgt
- ltlgtThey may not mean to, but they do.lt/lgt
- ltlgtThey fill you with the faults they hadlt/lgt
- ltlgtAnd add some extra, just for you.lt/lgt
- lt/lggt
- lt! ytterligare strofer --gt
- lt/lggt
34Anförande
35Anförande
- Använd attributet who för att ange vem som talar
- Anföranden kan nästas i andra anföranden ...
- .. men inte över styckegränser (överlappning!)
36Namn och andra refereringar
- Elementet ltrsgt (referring string) kan användas
för namn eller referens
37Namn och andra refereringar
- Elementet ltrsgt (referring string) kan användas
för namn eller referens
38BÃ¥de ltnamegt och ltrsgt
Mr. Joseph Andrews, the hero of our ensuing
history, was esteemed to be ...
39BÃ¥de ltnamegt och ltrsgt
ltpgtltnamegtMr. Joseph Andrewslt/namegt, ltrsgtthe hero
of our ensuing historylt/rsgt, was esteemed to be
...
40sid- och radbrytningar
- And bathed every veyne in swich licour
- Of which vertu engendred is the flour
- ------------------------
- s. 23
- Whan Zephirus eek with his sweete breeth
41sid- och radbrytningar
- ltpb /gt sidbrytning
- ltlb /gt radbrytning
- And bathed every veyne in swich licourltlb /gt
- Of which vertu engendred is the flourltlb /gt
- ltpb ed"riverside" n"23" /gt
- Whan Zephirus eek with his sweete breethltlb /gt
42ltdategt
- attribut kan precisera ltdategt och ltdateRangegt
- dito med lttimegt, lttimeRangegt och ltnumgt
43Överlappande hierarkier
- Välformad XML
- Men dokument är komplexa saker och flera
parallella hierarkier kan identifieras, t.ex. - kapitel/ sektion / stycke / fras
- ark / blad / sida / kolumn
- Repliker och versrader
44(Å) Peer, du lyver! (P) Nei, jeg gjør ei! (Å)
Nå, så bann på det er sant! (P) Hvorfor banne?
(Å) Tvi, du tør ei! Alt i hop er tøv og tant!
45- ltsp who"A"gtPeer, du lyver!lt/spgtltsp who"P"gtNei,
jeg gjoslashr ei!ltml/gtlt/spgtltsp
who"A"gtNaring, saring bann paring det er
sant!ltml/gtlt/spgtltsp who"P"gtHvorfor
banne?lt/spgtltsp whoA"gtTvi, du toslashr
ei!ltml/gtAlt i hop er toslashv og
tant.ltml/gtlt/spgt
46to get lthigt or not
- Återge emfatiskt markerade ord med lthigt när du
inte kan eller vill specificera anledningen till
emfasen. - Men om du kan identifiera varför ordet är
betonat, bör du tillgripa ett mer specifikt
element, t.ex. ltemphgt, ltforeigngt, lttitlegt, lttermgt
47Validering
- Hur vet vi att vi använt TEI Lite, eller vår egen
TEI-tillämpning, på ett syntaktiskt korrekt sätt? - Online XML-validatorer Brown University
http//www.stg.brown.edu/service/xmlvalid/ - Editorer med inbyggd validering JEDIT, OXYGEN m
fl - Hur vet vi att vi använt TEI Lite, eller vår egen
TEI-tillämpning, på ett semantiskt korrekt sätt? - Genom dokumentation!
48Behovspröva alltid
- Är det motiverat med textdigitalisering och
sofistikerad uppmärkning? Varför? Vilka
alternativ finns? - Är det motiverat med just TEI? Varför? Vilka
alternativ finns? - Är det motiverat med TEI Lite, eller behöver jag
producera ngn annan delmängd av TEI för mina
ändamål?
Lavagnino 2006