Technische Umsetzung

Datenmodellierung

Die digitalen Editionen der Quellen sind nach den TEI-P5[1] Richtlinien modelliert und folgen (wenn möglich) in weiten Teilen dem Basisformat des Deutschen Textarchivs (DTABf)[2]. Textstrukturen (Unterteilungen, Absätze, Überschriften) und textkritische Befunde (Korrekturen, Randbemerkungen) bilden die Basiskodierung. Zudem sind historische Interpretationen (z.B.: Personen, Orte, Ereignisse, Schlagwörter oder Plagiate) systematisch als t:rs (mit den Werten name, place und event im Attribut @type), oder t:term für Schlagwörter ausgezeichnet. Für die Plagiate wird t:seg mit einer analytischen Beschreibung des Plagiats (@ana mit den Werten in:plagiarismIndirect, in:plagiarismAll, in:plagiarismCondensed, in:plagiarismPassage, und in:plagiarism) verwendet. Diese inhaltlichen Markierungen werden alle ebenso wie die Abschnitte (t:div) und Absätze (t:p) mit Identifikatoren versehen. Die Texte zu diesen historischen Interpretationen sind mit den passenden Registereinträgen (Ereignisse, Orte, Personen, Glossar und Sachkommentar) verknüpft. Anmerkungen der Editoren sind mit @resp="#editor" kodiert.

Für die Datenanreicherung werden Semantic Web-Technologien herangezogen bspw. kontrollierte Vokabularien (z.B.: GND, VIAF, GeoNames)[3] für die Datenverknüpfung nach außen (“Linked Open Data”). Beschreibende Informationen zum Reisebericht folgen den Richtlinien des TEI-Moduls „Manuscript Description“[4]. Die Briefe sind mit der CMIF[5] TEI-Erweiterung beschrieben, um den Datenaustausch mit dem Webservice CorrespSearch[6] zu gewährleisten.

Aus den TEI-Daten werden bei der Übertragung der Ausgangsdaten in das digitale Archiv mittels einer XSL-Transformation RDF-Repräsentationen der Daten extrahiert, die für die Suchen und für die Darstellung der Register herangezogen werden. Die Datenabfrage erfolgt mit der graphenbasierte Abfragesprache SPARQL.

Der Text als Dokument wird in der Kodierung über die Markierung von Seitenwechseln (t:pb), Marginalien (t:note, t:add, t:metamark für die entsprechenden Verweiszeichen), Korrekturen, das Vorhandensein von Bildern (t:figure) und unspezifische Hervorhebungen (h:hi) abgebildet. Dafür sind die Seiten und die Bilder mit Faksimiles verknüpft. Die Digitalisate werden via IIIF[7] in der “Faksimile & Text” Ansicht über den OpenSeadragon Viewer[8] angezeigt. Die Bilder können damit stufenlos gezoomt und im Vollbildmodus betrachtet werden. Daneben existiert für jedes Aktenstück eine METS[9] Datei. Beide erlauben die Ansicht der digitalen Faksimiles in Book-Viewern (bspw. Mirador[10], GAMS BookReader) ermöglicht.

Für jede Quelle wird systemintern im digitalen Repository GAMS ein Dublin-Core Datensatz erstellt, der auch für Metadatenharvesting zur Verfügung steht.

Basistechnologien

Die Daten werden im digitalen Forschungsdatenrepositorium GAMS[11] des Zentrums für Informationsmodellierung[12] an der Universität Graz langfristig archiviert. Das OAIS[13]-konforme Asset Management System GAMS basiert auf der open-source-Software FEDORA[14]. Die dauerhafte Zitierbarkeit der Daten ist mit Handles[15] gewährleistet. Zu jeder Edition werden Zitiervorschläge gemacht. Die Forschungsdaten, die Datenmodelle und die Transformations­skripte sind durch den Einsatz von Datenstandards (TEI, DC, RDF, SKOS, METS) wiederver­wert­bar­ und mit systemübergreifend kompatibel. Im digitalen Archiv liegen die TEI- und RDF-Daten, sowie dazugehörige SPARQL-Anfragen. GAMS integriert zur Präsentation dieser Daten Cocoon-Services in das FEDORA-Repositorium und benutzt projektspezifische Content Models für die TEI-Daten und die Anfragen an die RDF-Datenbank. Das System verwendet als Triplestore die Open Source Software Blazegraph[16], die eine Volltextsuche in die Graphendatenbank integriert.


[1] TEI-Consortium: TEI P5 - Guidelines for Electronic Text Encoding and Interchange (2018), online: http://www.tei-c.org/release/doc/tei-p5-doc/en/Guidelines.pdf

[2] Das DTA-Basisformat (DTABf) ist das von Clarin-D und der DFG empfohlene TEI-Format für historische Texte, online: http://www.deutschestextarchiv.de/doku/basisformat/

[3] Gemeinsame Normdatei (GND) https://www.dnb.de/DE/Standardisierung/GND/gnd_node.html, Virtual Authority File (VIAF) http://viaf.org/, GeoNames https://www.geonames.org/

[4] TEI Modul Manuscript Description, online: https://www.tei-c.org/release/doc/tei-p5-doc/en/html/MS.html#msov

[5] Das „Correspondence Metadata Interchange Format“ wird von der TEI Correspondence SIG entwickelt, online: https://correspsearch.net/index.xql?id=participate_cmi-format&l=de

[6] correspSearch. Search scholarly editions of letters, https://correspsearch.net (accessed 2019-03-27) (Dumont, 2016)

[7] https://iiif.io/

[8] https://openseadragon.github.io/

[9] http://www.loc.gov/standards/mets/

[10] http://projectmirador.org/

[11] GAMS - Geisteswissenschaftliches Asset Management System, online: https://gams.uni-graz.at, Dokumentation: http://gams.uni-graz.at/o:gams.doku, vgl. Johannes Stigler & Elisabeth Steiner GAMS – An infrastructure for the long-term preservation and publication of research data from the Humanities. In: Vereinigung Oesterreichischer Bibliothekarinnen und Bibliothekare. Mitteilungen. 71,1. 2018. 207-216. doi:10.31263/voebm.v71i1.1992

[12] ZIM - Zentrum für Informationsmodellierung, online: https://informationsmodellierung.uni-graz.at/

[13] OAIS Reference Model (ISO 14721), online: http://www.oais.info/

[14] FEDORA Commons, online: http://www.fedora-commons.org/

[15] Das ZIM ist Teil des Handle-Netzwerkes ist und betreibt einen eigenen Handle-Server. Jeder Datensatz erhält einen individuellen PID und wird damit nach wissenschaftlichen Richtlinien zitierbar, s. Handle.Net, online: https://www.handle.net/

[16] http://blazegraph.com/