Datenbank – Technologien

Frontend

Das Thesaurus-Frontend ist eine vom Vorhaben selbst entwickelte Weboberfläche und bietet alle Funktionen einer modernen und benutzerfreundlichen Datenbank: Eine Freitextsuche über den gesamten Datenbestand, eine Expertensuche für einzelne oder mehrere kombiniert zu durchsuchende Felder sowie zahlreiche Filtermöglichkeiten. Entsprechend dem zentralen Interesse des Thesaurus an den Bildern der Antiken erfolgt die Navigation von Datensatz zu Datensatz wo immer möglich über die Abbildungen. Es gibt komfortable Vollbildansichten einzelner Datensätze ebenso wie die Funktion des direkten Bild- und Objektvergleichs zweier Datensätze. Fokussiert der einzelne Datensatz auf eine Einzelabbildung, ist deren Kontext auf der Tafel oder Buchseite immer unmittelbarer erkennbar, und auch die Navigation zu Datensätzen benachbarter Abbildungen kann direkt über das Bild erfolgen.

Das Frontend wurde mit Hilfe der Technologien Vue.js 2 mit Vuetify entwickelt. In nächster Zukunft ist ein Umstieg auf Vue.js 3 geplant. Die Freitextsuche basiert auf einem Elasticsearch-Index.

RDF, CIDOC-CRM, Triplestore

Ein Ziel des Thesaurus auf digitalem Gebiet ist die Veröffentlichung der vom Projekt erhobenen Daten im Semantic Web, d.h. die Ermöglichung ihrer Weiterverbreitung und Weiterverarbeitung gemäß den FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable). Eine Voraussetzung hierfür ist die Übertragung der durch den Thesaurus erfassten Daten aus dem relationalen Datenmodell von heidICON (siehe unten) in ein RDF-Modell, das mit dem im Kulturerbe-Bereich zum Standard gewordenen CIDOC CRM kompatibel ist, und die Einrichtung eines öffentlichen SPARQL-Endpoints, über den die semantisch modellierten Daten automatisiert abgefragt und weiterverwendet werden können. Daher erfolgte das konzeptionelle Mapping des heidICON-Datenmodells auf das CIDOC CRM sowie anschließend die Programmierung der entsprechenden Software-Pipeline. Hierfür wurde die Programmiersprache Python verwendet.

Aus dieser Datenumwandlung ergeben sich außerdem neue Möglichkeiten, die Daten auch bereits projektintern anders und vielfältiger zu verarbeiten und unter anderem mit externen Informationen anzureichern, z.B. für Personen und Orte, die im Thesaurus keine eigenen Datensätze erhalten, weil das heidICON-Datenmodell dies nicht vorsieht. Daher greift der Thesaurus selbst auf die CIDOC-CRM-gemappten und in einem lokalen Triplestore gespeicherten RDF-Daten zu, reichert sie punktuell mit externen Daten (z.B. aus Wikidata) an und leitet sie ans Thesaurus-Frontend weiter. Zurzeit wird Blazegraph als Triplestore verwendet.

Eine umfassende Dokumentation des Mappings sowie die Einrichtung des SPARQL-Endpoints folgen später in 2023. Auch die vom Vorhaben entwickelte Software wird publiziert.

Backend

Um den Anforderungen, wie sie auch die Initiative für eine Nationale Forschungsdateninfrastruktur formuliert, gerecht zu werden, geht das Vorhaben eine Partnerschaft mit der Universitätsbibliothek Heidelberg ein. Als tragende Säule der DFG-geförderten Fachinformationsdienste arthistoricum.net für Kunstgeschichte und Propylaeum für Altertumswissenschaften bietet die UB Heidelberg eine in zahlreichen Anwendungen und Kooperationen erprobte und auf Dauer angelegte digitale Infrastruktur für das Backend der Thesaurus-Datenbank.

Die Objekt- und Bilddatenbank heidICON dient dem Thesaurus als Instrument der Datenerfassung. Das Datenmodell von heidICON und das derzeit zur Anwendung kommende Datenbankmanagementsystem Easydb (Version 5) sind beide so generisch konzipiert und implementiert, dass sie einer großen Breite an Themen gerecht werden können, insbesondere auch den potentiellen Komplexitäten von Gegenständen des kulturellen Erbes, wie der Thesaurus sie bearbeiten wird. In das Datenmodell eingebunden sind Normdaten der GND und weiterer Autoritäten, außerdem ist es in großen Teilen auf das Datenaustauschformat LIDO gemappt, sodass normierte Datenexporte an Aggregatoren wie die Deutsche Digitale Bibliothek, die Europeana oder das Graphikportal möglich sind. Darüber hinaus sind die heidICON-Daten über die Easydb-API in vollem Umfang abrufbar. Schließlich sind alle Daten aus heidICON und aus der Digitalisierungsplattform DWork in ein leistungsfähiges Backup- und Langzeitarchivierungssystem (heiARCHIVE) eingebunden.