Themen: Validierung, XML, Tools zur Datentransformation, LIDO

Nachtrag zu Metadaten modellieren und Schnittstellen nutzen

An diesem Tag diskutierten wir im Rahmen eines Nachtrages zum Thema “Metadaten modellieren und Schnittstellen nutzen” zunächst die Aufgabe zur Anreicherung mit lobid-gnd. Die Lösungen wurden im Zusatzartikel zur Aufgabe Anreicherung mit lobid-gnd nachgetragen. Anschliessend widmeten wir uns der Validierung der XML-Datei. Das Ergebnis aus der lobid-gnd-Übung wurde nun als XML in ein neues Verzeichnis exportiert und anschliessend validiert. Für die Validierung kann das Programm xmlint verwendet werden. Dieses ist unter Ubuntu vorinstalliert. Bei der Validierung stellte sich heraus, dass die Subfields bei 260 und 264 im gemeinsamen Template falsch waren. Die schliessenden Tags fehlten und mussten noch ergänzt werden. Nach einer Korrektur im Template und einem erneuten Export wurde bei der Validierung zum Glück kein Fehler mehr ausgegeben.

Exkurs: XML Deklaration

XML-Dateien enthalten in der ersten Zeile eine Deklaration. Damit wird den verarbeitenden Programmen mitgeteilt, dass es sich um eine XML-Datei handelt. Die Angabe der Version ist Pflicht, der Rest muss nicht zwingend angegeben werden. Nachfolgend ein Paradebeispiel für eine XML-Deklaration:

  <?xml version="1.0" encoding="utf-8" standalone="yes"?>

Erkärung der XML-Deklaration:

Die Datei ist eine XML-Datei (?xml), sie entspricht dem XML-Standard in Version 1.0, die Zeichencodierung erfolgt im Standard “Unicode” (das heisst, dass Sonderzeichen wie Umlaute erlaubt sind) und schliesslich steht, dass die Datei eine Dokumenttypdefinition (DTD) enthält. DTDs gibt es oft keine.

Weitere Tools zur Metadatentransformation

Motivation : wieso Metadaten transformieren?

Siehe dazu das Youtube-Video der Metadatenmanagerin Kristen Jeude. Sie spricht die “Sprache der Daten” und sorgt dafür dass bibliografische Nachweise aus verschiedenen Datenbanken zusammengeführt werden können. Die bibliografischen Daten werden in den Datenbanken nach verschiedenen Standards gespeichert. Diese Standards müssen “übersetzt” werden um sie zusammenführen zu können.

Vorteil für Nutzende: Daten aus den verschiedensten Quellen können auf einer Suchoberfläche durchsucht werden.

Andere Tools?

Die Wahl der Software ist oftmals Abhängig von den Fähigkeiten der Mitarbeitenden. Es wird diejenige Software gewählt, die schon gut beherrscht wird, obwohl die Software im Idealfall anhand des jeweiligen Anwendungsfalls gewählt würde. Wer alle Tools beherrscht, ist also stark im Vorteil! Open Refine ist gut für den Start. Wer gerne und gut programmiert kann auch Software wie Catmandu (Perl) oder Metafacture (Java) verwenden. Für die Arbeit mit MARC21-Daten kann natürlich auch MarcEdit verwendet werden. Ich persönlich würde wohl lieber eine neue Programmiersprache lernen als MarcEdit nochmals zu nutzen… aber vielleicht hatte ich einfach einen schlechten Start mit der Software.

Nutzung von JSON-APIs

Oftmals werden bei modernen Schnittstellen Daten im JSON-Format ausgeliefert (Alternative: XML wie bei SRU oder OAI-MPH). JSON kann ebenfalls im Browser angeschaut werden. Ein Beispiel ist die API der lobid-gnd. Mit dem Tool scrAPIr könnten Daten über die APIs der Webseiten bezogen werden.

Metadatenstandard LIDO

Auf Wunsch einer Mitstudentin wurde der Metadatenstandard LIDO genauer angeschaut. LIDO ist ein XML-Standard zur Beschreibung von Kulturobjekten und wird demnach im Museumsbereich angewendet. Interessant ist, dass der Standard dem Linked Open Data-Paradigma folgt.

LIDO unterschiedet sich in der Struktur stark vom dokumentenzentrierten Standard MARC. LIDO beschreibt die Objekte ereignis-zentriert. Der Kontext des Objektes wird beschrieben indem dem Ereignis einen Ort, ein Zeitpunkt etc. zugewiesen wird. Im folgenden Bild wird die Lido-Struktur übersichtlich dargestellt:

Ich bin überrascht, dass Lido die Anzeigeform und die technische interne Form (normierte Variante) unterscheidet.

Das Format wird vor allem für den Datenaustausch verwendet. In der Regel werden aber auch in Museen mehrheitlich dokumentenzentrierte Formate verwendet. Ein Problem dieses Standards ist, dass durch die spezielle Struktur die verlustfreie Transformation in andere Formate sehr schwierig ist.

Installation von VuFind

Schliesslich widmeten wir uns, als Vorbereitung auf die nächste Vorlesung, der Installation und Konfiguration von VuFind. Dabei arbeiteten wir Schritt für Schritt die Anleitung der Dozierenden ab. Verstehen musste ich die Befehle nicht unbedingt. Aber in der richtigen Reihenfolge eingeben und je nach dem Passwörter eingeben und Fragen mit “ja” oder “nein” bestätigen…