Text Encoding Initiative - PowerPoint PPT Presentation

1 / 48
About This Presentation
Title:

Text Encoding Initiative

Description:

Title: Walkmanboken Subject: r framtidens bok elektronisk? Author: Mats Dahlstr m Last modified by: MAD Created Date: 7/5/1995 2:07:50 PM Document presentation format – PowerPoint PPT presentation

Number of Views:281
Avg rating:3.0/5.0
Slides: 49
Provided by: MatsDa6
Category:

less

Transcript and Presenter's Notes

Title: Text Encoding Initiative


1
Text Encoding Initiative
Mats Dahlström Digitalisering av kulturarvet
Januari 2008
2
TEI bakgrund
  • Behov av uniformt system för textkodning och
    utbyte inom humaniora
  • Till 80-talet användes proprietära
    representationssystem
  • Behov av
  • Ã…teranvändbarhet
  • Interoperabilitet
  • Plattforms, hÃ¥rd- och mjukvaruoberoende
  • Portabilitet
  • Kollaborationsmöjligheter
  • Ett verktyg för flera discipliner / vetenskaper
    inom humaniora
  • TEI-konsortiet lthttp//www.tei-c.orggt

3
TEI utveckling
  • 1986 SGML / ISO
  • 1987 Poughkeepsie principles
  • 1990 P1 (SGML)
  • 1992 P2
  • 1994 P3 600 element
  • 1995 TeiLite 121 element
  • 1999 P3rev
  • 2000 TEI Consortium
  • 2001 P4 XML (viss SGML)
  • 2001 TeixLite XML
  • 2005 XML Schema
  • 2005-2008(?) P5 (ingen SGML) -500 element

4
Hur används TEI?
  • För kodning av
  • texter pÃ¥ olika sprÃ¥k, av olika Ã¥lder och epoker,
    i olika litterära och bibliografiska genrer
    (texttyper)
  • sÃ¥väl continuous material som discontinuous
    material (t.ex. lexika och korpora)

5
Varför så omfattande?
  • TEI uppbyggt kring riktlinjer, regler och
    rekommendationer istället för standard eftersom
  • Textkodning innebär representation och tolkning
  • Frihet för forskaren att uttrycka sin teori om
    texten genom att göra olika val
  • Riktlinjerna att betrakta som referensmanual

6
Vad innehåller TEI?
  • Inte en enda given DTD, utan en mängd
    DTD-fragment (tag sets), som kan kombineras
  • Vissa nödvändiga (required), andra grundläggande
    (basic) och vissa valfria (optional)

7
Sugen på pizza?
  • Core tag sets
  • Base tag sets
  • Additional tag sets

http//www.tei-c.org/pizza.html
8
Core tag set
  • Nödvändigt
  • Innefattar bl.a. ltteiHeadergt (kapitel 5 i
    Guidelines)
  • Jämförbart med titelsidan i tryckt bok
  • Gemensamma element för alla TEI-dokument (kapitel
    6)

9
Base tag sets
  • Prose
  • Verse
  • Drama
  • Speech
  • Dictionaries
  • Terminology
  • General base
  • Mixed base

10
Additional tag sets
  • Urvalsförfarande och ej nödvändiga
  • Länkar
  • Figurer
  • Analyselement (mycket enkla)
  • Textkritiska möjligheter (apparat)
  • Namn och datum

11
(No Transcript)
12
Prologen
  • XML-deklaration
  • lt?xml version1.0 encodingISO-8859-1
    standaloneno?gt
  • Dokumenttypsdeklaration
  • lt!DOCTYPE TEI.2 PUBLIC -//TEI P4//DTD Main
    Document Type//EN
  • http//www.adm.hb.se/mg/dig/XMLLab/masterx.dtdgt

13
  • ltTEI.2gt
  • ltteiHeadergt Metadata lt/teiHeadergt
  • lttextgt
  • ltfrontgt Preliminärer, t.ex. titelsidans text
    och förord lt/frontgt
  • ltbodygt Huvudtexten lt/bodygt
  • ltbackgt Subsidiärer, t.ex. appendix, epilog
    och liknande lt/backgt
  • lt/textgt
  • lt/TEI.2gt

14
I ett TEI-dokument ingår alltid
  • rotelementet exv. lttei.2gt
  • teiHeader
  • text
  • body
  • Dessa kan inte innehÃ¥lla text (PCDATA)

15
TEI Lite
  • Den mest populära DTDn är TEI Lite
  • 121 fasta element
  • Med bara 20 av elementen täcks 90 av
    TEI-användarnas behov i 90 av fallen
  • 80 av projekten
  • TeixLite den XML-kompatibla versionen
  • http//www.tei-c.org/Lite/

16
TEI Lite prolog, t.ex.
  • lt?xml version"1.0"?gt
  • lt!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML
    ver. 1//EN" "teixlite.dtd"gt

17
med rotelement, header och text
  • lt?xml version"1.0"?gt
  • lt!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML
    ver. 1//EN" "teixlite.dtd"gt
  • ltTEI.2gt
  • ltteiHeadergt...ltteiHeadergt
  • lttextgt...lttextgt
  • ltTEI.2gt

18
lttextgt
  • lttextgt
  • ltfrontgt...lt/frontgt
  • ltbodygt...lt/bodygt
  • ltbackgt...lt/backgt
  • lt/textgt

19
ltgroupgt
  • ltgroupgt
  • lttextgt...lt/textgt
  • lttextgt...lt/textgt
  • lttextgt...lt/textgt
  • lt/groupgt
  • lttextgt innehÃ¥ller ingen text, utan andra element

20
TEIs textstruktur
er
21
ltbodygt
  • body kan inte innehÃ¥lla text, dvs PCDATA
    (parsed character data).
  • I normalfallet innehÃ¥ller body ett antal
    avsnitt, innehållna i ett antal div-element,
    vilka i sin tur vanligen innehåller ett antal
    stycken.
  • Kap. 35 i Guidelines specificerar vilka element
    som är tillåtna, eller nödvändiga, i vilka
    element.

22
ltfrontgt
  • Preliminärer ss titelsidor, förordstexter osv
    dvs den explicita informationen i förlagan
  • ltfrontgt
  • lttitlePagegt
  • ltdocTitlegt
  • lttitlePart type"main"gt
  • ...
  • lt/titlePartgt
  • ltdocAuthorgt...lt/docAuthorgt
  • ltdocDategt...lt/docDategt
  • ltdocEditiongt...lt/docEditiongt
  • ltdocImprintgt...lt/docImprintgt
  • ltepigraphgt...lt/epigraphgt
  • lt/docTitlegt
  • lt/titlePagegt
  • lt/frontgt

23
sektionsindelning av textltdivgt
  • lttextgt
  • ltfrontgt lt!-- titlepage etc here --gt lt/frontgt
  • ltbodygt
  • ltheadgtBok 1lt/headgt
  • ltdiv type"chapter" n"1" id"b0101"gt
  • ltheadgtKapitel 1lt/headgt
  • lt! resten av kapitel 1 --gt
  • lt/divgt
  • ltdiv type"chapter" n"2" id"b0102"gt
  • ltheadgtKapitel 2lt/headgt
  • lt!-- resten av kapitel 2 --gt
  • lt/divgt
  • lt/bodygt
  • lt/textgt

24
Attribut i ltdivgt
  • Elementet div är mÃ¥ngtydigt, vi vet inte
    (utifrån uppmärkningen blott och bart) vad för en
    typ av avsnitt det handlar om. . .
  • Vi kan ocksÃ¥ vilja indikera en kapitelnumrering.
    . .

25
//...// ltdiv typechapter n2gt ltpgt//...//lt/pgt
ltpgt//...//lt/pgt ltdiv typechapter
n3gt ltpgt//...//lt/pgt ltpgt//...//lt/pgt
26
sektionsindelning av textltdivgt
  • lttextgt
  • ltfrontgt lt!-- titlepage etc here --gt lt/frontgt
  • ltbodygt
  • ltdiv1 type"book" n"1" id"b0100"gt
  • ltheadgtBok 1lt/headgt
  • ltdiv2 type"chapter" n"1"
    id"b0101"gt
  • ltheadgtKapitel 1lt/headgt
  • lt! resten av kapitel 1 --gt
  • lt/div2gt
  • ltdiv2 type"chapter" n"2"
    id"b0102"gt
  • ltheadgtKapitel 2lt/headgt
  • lt!-- resten av kapitel 2 --gt
  • lt/div2gt
  • lt/div1gt
  • lt/bodygt
  • lt/textgt

27
Globala attribut
  • Kan tilldelas alla element
  • id för unik identifikation
  • n för (icke-unikt) namn eller nummer
  • rend för Ã¥tergivning
  • lang för sprÃ¥k

28
under ltdivgt
  • Prose stycken (ltpgt)
  • Verse rader (ltlgt), ibland grupperade hierarkiskt
    (ltlggt)
  • Drama repliker (ltspgt) som innehÃ¥ller t.ex. ltpgt,
    ltlgt och ltstagegt

29
prosaexempel ltpgt
  • ltpgt Skulle vi ha valt HTML som märksprÃ¥k för
    textkodningen hade du visserligen fått en
    snabbare och mer direkt väg från uppmärkning till
    publicering. Men den hade också varit mindre ut-
    och påbyggbar. lt/pgt

30
poesiexempel 1
  • Summer grass
  • all that's left
  • of warriors' dreams.

31
poesiexempel 1
  • ltlg type'haiku'gt
  • ltlgtSummer grass mdashlt/lgt
  • ltlgtall that's leftlt/lgt
  • ltlgtof warriors' dreams.lt/lgt
  • lt/lggt

32
poesiexempel 2
  • This Be The Verse
  • They fuck you up, your mum and dad.
  • They may not mean to, but they do.
  • They fill you with the faults they had
  • And add some extra, just for you.

33
poesiexempel 2
  • ltlg type"poem"gt
  • ltheadgtThis Be The Verselt/titlegt
  • ltlg type"stanza"gt
  • ltlgtThey fuck you up, your mum and dad.lt/lgt
  • ltlgtThey may not mean to, but they do.lt/lgt
  • ltlgtThey fill you with the faults they hadlt/lgt
  • ltlgtAnd add some extra, just for you.lt/lgt
  • lt/lggt
  • lt! ytterligare strofer --gt
  • lt/lggt

34
Anförande
35
Anförande
  • Använd attributet who för att ange vem som talar
  • Anföranden kan nästas i andra anföranden ...
  • .. men inte över styckegränser (överlappning!)

36
Namn och andra refereringar
  • Elementet ltrsgt (referring string) kan användas
    för namn eller referens

37
Namn och andra refereringar
  • Elementet ltrsgt (referring string) kan användas
    för namn eller referens

38
BÃ¥de ltnamegt och ltrsgt
Mr. Joseph Andrews, the hero of our ensuing
history, was esteemed to be ...
39
BÃ¥de ltnamegt och ltrsgt
ltpgtltnamegtMr. Joseph Andrewslt/namegt, ltrsgtthe hero
of our ensuing historylt/rsgt, was esteemed to be
...
40
sid- och radbrytningar
  • And bathed every veyne in swich licour
  • Of which vertu engendred is the flour
  • ------------------------
  • s. 23
  • Whan Zephirus eek with his sweete breeth

41
sid- och radbrytningar
  • ltpb /gt sidbrytning
  • ltlb /gt radbrytning
  • And bathed every veyne in swich licourltlb /gt
  • Of which vertu engendred is the flourltlb /gt
  • ltpb ed"riverside" n"23" /gt
  • Whan Zephirus eek with his sweete breethltlb /gt

42
ltdategt
  • attribut kan precisera ltdategt och ltdateRangegt
  • dito med lttimegt, lttimeRangegt och ltnumgt


43
Överlappande hierarkier
  • Välformad XML
  • Men dokument är komplexa saker och flera
    parallella hierarkier kan identifieras, t.ex.
  • kapitel/ sektion / stycke / fras
  • ark / blad / sida / kolumn
  • Repliker och versrader

44
(Å) Peer, du lyver! (P) Nei, jeg gjør ei! (Å)
Nå, så bann på det er sant! (P) Hvorfor banne?
(Å) Tvi, du tør ei! Alt i hop er tøv og tant!
45
  • ltsp who"A"gtPeer, du lyver!lt/spgtltsp who"P"gtNei,
    jeg gjoslashr ei!ltml/gtlt/spgtltsp
    who"A"gtNaring, saring bann paring det er
    sant!ltml/gtlt/spgtltsp who"P"gtHvorfor
    banne?lt/spgtltsp whoA"gtTvi, du toslashr
    ei!ltml/gtAlt i hop er toslashv og
    tant.ltml/gtlt/spgt

46
to get lthigt or not
  • Ã…terge emfatiskt markerade ord med lthigt när du
    inte kan eller vill specificera anledningen till
    emfasen.
  • Men om du kan identifiera varför ordet är
    betonat, bör du tillgripa ett mer specifikt
    element, t.ex. ltemphgt, ltforeigngt, lttitlegt, lttermgt

47
Validering
  • Hur vet vi att vi använt TEI Lite, eller vÃ¥r egen
    TEI-tillämpning, på ett syntaktiskt korrekt sätt?
  • Online XML-validatorer Brown University
    http//www.stg.brown.edu/service/xmlvalid/
  • Editorer med inbyggd validering JEDIT, OXYGEN m
    fl
  • Hur vet vi att vi använt TEI Lite, eller vÃ¥r egen
    TEI-tillämpning, på ett semantiskt korrekt sätt?
  • Genom dokumentation!

48
Behovspröva alltid
  • Är det motiverat med textdigitalisering och
    sofistikerad uppmärkning? Varför? Vilka
    alternativ finns?
  • Är det motiverat med just TEI? Varför? Vilka
    alternativ finns?
  • Är det motiverat med TEI Lite, eller behöver jag
    producera ngn annan delmängd av TEI för mina
    ändamål?

Lavagnino 2006
Write a Comment
User Comments (0)
About PowerShow.com