Technische Umsetzung
Datenmodellierung
Die digitalen Editionen der Quellen sind nach den TEI-P5[1]
Richtlinien modelliert und folgen (wenn möglich) in weiten Teilen dem Basisformat des
Deutschen Textarchivs (DTABf)[2].
Textstrukturen (Unterteilungen, Absätze, Überschriften) und textkritische Befunde
(Korrekturen, Randbemerkungen) bilden die Basiskodierung. Zudem sind historische
Interpretationen (z.B.: Personen, Orte, Ereignisse, Schlagwörter oder Plagiate)
systematisch als t:rs
(mit den Werten name
,
place
und event
im Attribut @type
), oder
t:term
für Schlagwörter ausgezeichnet. Für die Plagiate wird
t:seg
mit einer analytischen Beschreibung des Plagiats
(@ana
mit den Werten in:plagiarismIndirect
,
in:plagiarismAll
, in:plagiarismCondensed
,
in:plagiarismPassage
, und in:plagiarism
) verwendet.
Diese
inhaltlichen Markierungen werden alle ebenso wie die Abschnitte
(t:div
) und Absätze (t:p
) mit Identifikatoren
versehen. Die Texte zu diesen historischen Interpretationen sind mit den passenden
Registereinträgen (Ereignisse, Orte, Personen, Glossar und Sachkommentar)
verknüpft. Anmerkungen der Editoren sind mit @resp="#editor"
kodiert.
Für die Datenanreicherung werden Semantic Web-Technologien herangezogen bspw. kontrollierte Vokabularien (z.B.: GND, VIAF, GeoNames)[3] für die Datenverknüpfung nach außen (“Linked Open Data”). Beschreibende Informationen zum Reisebericht folgen den Richtlinien des TEI-Moduls „Manuscript Description“[4]. Die Briefe sind mit der CMIF[5] TEI-Erweiterung beschrieben, um den Datenaustausch mit dem Webservice CorrespSearch[6] zu gewährleisten.
Aus den TEI-Daten werden bei der Übertragung der Ausgangsdaten in das digitale Archiv mittels einer XSL-Transformation RDF-Repräsentationen der Daten extrahiert, die für die Suchen und für die Darstellung der Register herangezogen werden. Die Datenabfrage erfolgt mit der graphenbasierte Abfragesprache SPARQL.
Der Text als Dokument wird in der Kodierung über die Markierung von Seitenwechseln
(t:pb
), Marginalien (t:note
, t:add
,
t:metamar
k für die entsprechenden Verweiszeichen), Korrekturen,
das Vorhandensein von Bildern (t:figure
) und unspezifische
Hervorhebungen (h:hi
) abgebildet. Dafür sind die Seiten und die
Bilder mit Faksimiles verknüpft. Die Digitalisate werden via IIIF[7]
in der “Faksimile & Text” Ansicht über den OpenSeadragon Viewer[8] angezeigt. Die Bilder können
damit stufenlos gezoomt und im Vollbildmodus betrachtet werden. Daneben existiert
für jedes Aktenstück eine METS[9] Datei. Beide erlauben die
Ansicht der digitalen Faksimiles in Book-Viewern (bspw. Mirador[10], GAMS BookReader) ermöglicht.
Für jede Quelle wird systemintern im digitalen Repository GAMS ein Dublin-Core Datensatz erstellt, der auch für Metadatenharvesting zur Verfügung steht.
Basistechnologien
Die Daten werden im digitalen Forschungsdatenrepositorium GAMS[11] des Zentrums für Informationsmodellierung[12] an der Universität Graz langfristig archiviert. Das OAIS[13]-konforme Asset Management System GAMS basiert auf der open-source-Software FEDORA[14]. Die dauerhafte Zitierbarkeit der Daten ist mit Handles[15] gewährleistet. Zu jeder Edition werden Zitiervorschläge gemacht. Die Forschungsdaten, die Datenmodelle und die Transformationsskripte sind durch den Einsatz von Datenstandards (TEI, DC, RDF, SKOS, METS) wiederverwertbar und mit systemübergreifend kompatibel. Im digitalen Archiv liegen die TEI- und RDF-Daten, sowie dazugehörige SPARQL-Anfragen. GAMS integriert zur Präsentation dieser Daten Cocoon-Services in das FEDORA-Repositorium und benutzt projektspezifische Content Models für die TEI-Daten und die Anfragen an die RDF-Datenbank. Das System verwendet als Triplestore die Open Source Software Blazegraph[16], die eine Volltextsuche in die Graphendatenbank integriert.
[1] TEI-Consortium: TEI P5 - Guidelines for Electronic Text Encoding and Interchange (2018), online: http://www.tei-c.org/release/doc/tei-p5-doc/en/Guidelines.pdf
[2] Das DTA-Basisformat (DTABf) ist das von Clarin-D und der DFG empfohlene TEI-Format für historische Texte, online: http://www.deutschestextarchiv.de/doku/basisformat/
[3] Gemeinsame Normdatei (GND) https://www.dnb.de/DE/Standardisierung/GND/gnd_node.html, Virtual Authority File (VIAF) http://viaf.org/, GeoNames https://www.geonames.org/
[4] TEI Modul Manuscript Description, online: https://www.tei-c.org/release/doc/tei-p5-doc/en/html/MS.html#msov
[5] Das „Correspondence Metadata Interchange Format“ wird von der TEI Correspondence SIG entwickelt, online: https://correspsearch.net/index.xql?id=participate_cmi-format&l=de
[6] correspSearch. Search scholarly editions of letters, https://correspsearch.net (accessed 2019-03-27) (Dumont, 2016)
[8] https://openseadragon.github.io/
[9] http://www.loc.gov/standards/mets/
[10] http://projectmirador.org/
[11] GAMS - Geisteswissenschaftliches Asset Management System, online: https://gams.uni-graz.at, Dokumentation: http://gams.uni-graz.at/o:gams.doku, vgl. Johannes Stigler & Elisabeth Steiner GAMS – An infrastructure for the long-term preservation and publication of research data from the Humanities. In: Vereinigung Oesterreichischer Bibliothekarinnen und Bibliothekare. Mitteilungen. 71,1. 2018. 207-216. doi:10.31263/voebm.v71i1.1992
[12] ZIM - Zentrum für Informationsmodellierung, online: https://informationsmodellierung.uni-graz.at/
[13] OAIS Reference Model (ISO 14721), online: http://www.oais.info/
[14] FEDORA Commons, online: http://www.fedora-commons.org/
[15] Das ZIM ist Teil des Handle-Netzwerkes ist und betreibt einen eigenen Handle-Server. Jeder Datensatz erhält einen individuellen PID und wird damit nach wissenschaftlichen Richtlinien zitierbar, s. Handle.Net, online: https://www.handle.net/