Themen: Schnittstellen, OAI-MPH, Harvesting, VuFind Harvester, Crosswalks, XSLT, MarcEdit.

In dieser Vorlesung wurde zunächst darauf hingewiesen, dass wir für das “harvesten” den OAI Harvester VuFindHarvester verwenden und nicht wie zunächst geplant metha. Das folgende Schaubild wurde entsprechend aktualisiert. Heute würden wir uns mit dem Harvesting und Crosswalks beschäftigen. Also mit Kartoffel- und Apfelernten und Zebrastreifen….nein, natürlich nicht. Witz beiseite. Beide Begriffe werden nach diesem Post sicherlich geklärt sein. Grundsätzlich geht es darum Metadaten über eine OAI-PMH-Schnittstelle abzurufen, zu speichern und schliesslich zu transformieren. Wieso muss transformiert werden? Weil uns aus den verschiedenen Systemen (Koha, ArchivesSpace, DSpace) unterschiedliche Metadatenformate vorliegen. Diese müssen am Schluss in einem einheitlichen Format (MARC21-XML) vorliegen, damit sie in einem Discovery-Tool dargestellt werden können (VuFind).

Schnittstellen

Damit man Daten “harvesten” kann, ist eine entsprechende Schnittstelle notwendig, die es ermöglich die Daten zu ernten oder abgrasen (wie auch immer man harvesten übersetzen möchte). Die häufigsten Übertragungsprotokolle im Archiv- und Biliotheksbereich sind:

  • Z39.50 (Library of Congress)
  • SRU - Search/Retrieve via URL (Library of Congress)
  • OAI-PMH - Open Archives Initiative Protocol for Metadata Harvesting (Open Archives Initiative)

Z39.50 und SRU eignen sich für “Live-Abfragen”. Z39.50 kenne ich aus der kooperativen Katalogisierung. Wenn ein MARC-Datensatz nicht im Verbund verfügbar ist, dann kann ich über diese Schnittstelle nach Metadaten zu meinem Buch in anderen Verbünden suchen. Die Daten kann ich in meinen Verbund kopieren und nach Bedarf anpassen. Mit OAI-PMH Schnittstellen hatte ich bisher kaum (bzw. nicht bewusst) zu tun. Das Bibliothekssystem ALEPH und der Katalog Swissbib Basel/Bern sind über eine solche Schnittstelle verbunden. Swissbib Basel/Bern ruft die Daten, die angezeigt werden, über eine solche Schnittstelle ab. Dass die Aktualisierung in bestimmten zeitlichen Abständen (und nicht sofort) stattfinden, zeigt sich dadurch, dass bei der Anpassung eines Datensatzes in der Regel 1-2 Tage verstreichen, bevor die Angaben auch im Katalog angepasst sind.

Metadaten über OAI-PMH harvesten mit VuFindHarvest

Wir verwenden für die Übungen den VuFindHarvest. Die Schnittstelle wird also mit dieser Software abgegriffen. Damit die Schnittstelle verfügbar ist, müssen die Entpoints (ArchiveSpace und Koha) laufen.

Übung: Harvesting

Die Übung hatte ein paar, nicht erwähnenswerte, Tücken im Zusammenhang mit den Befehlseingaben im Terminal. Ansonsten war es kein Problem, die Daten abzugreifen und in einem gewünschten Verzeichnis zu speichern. Insgesamt zeigt die Übung, dass über solche öffentlichen OAI-Schnittstellen Daten abgerufen werden können, ohne dass man wirklich Zugriff auf das System haben muss. Wir brauchen also kein Admin-Login, um die Daten ernten zu können.

Das Resultat:

Die Daten aus den verschiedenen Quellen liegen nun in den entsprechenden Formaten lokal vor.

XSLT Crosswalks mit MarcEdit

Nachdem wir die Daten aus den verschiedenen Systemen (Koha, ArchivesSpace und DSpace) in unterschiedlichen Formaten (MARC21-XML, EAD und DC) lokal abgespeichert hatten, widmeten wir uns der Aufgabe die Daten einheitlich in MARCXML zu konvertieren. Der Begriff Crosswalk steht in diesem Kontext für die Konvertierung eines Metadatenstandards in einen anderen Standard. Bei einem Crosswalk gibt es Regeln wie die einzelnen Elemente und Werte zugeordnet oder verändert werden sollen (Mapping). Die Konvertierung ist in der Regel verlustbehaftet, weil die einzelnen Elemente nicht 1:1 zugeordnet werden können.

XSLT steht für XSL-Transformation. XSLT wird genutzt um ein XML-Dokument in ein anderes XML-Dokument zu transformieren. Mit XSLT können beispielsweise Elemente beim Zieldokument hinzugefügt oder entfernt, neugeordnet oder “versteckt” werden (Quelle: W3C).

MarcEdit 7 ist eine kostenlos nutzbare Software (jedoch nicht OS). Sie ist die meistgenutzte Zusatzsoftware für die Bearbeitung von MARC-Daten.

Übung: XSLT Crosswalks anwenden

Für die Übung mussten wir zunächst MarcEdit installieren und konfigurieren. Das User Interface sieht uralt aus und ist nicht wirklich benutzerfreundlich:

Die Überführung der Daten in MARC21-XML funktionierte leider bei mir mit den EAD-Daten nicht. Es wurde ständig die Meldung “File cannot be located. Error Number: -4” angezeigt. Mir war dann bis zum Schluss nicht wirklich klar wieso. Im Unterricht wurde dann auch erwähnt, dass man die EAD Daten zunächst in MARC (binäres Format) und dann erst in MARCXML konvertieren kann (und zum Teil offenbar sogar muss?). Wie auch immer. Ich hatte Mühe mit dieser Übung. Mit MarcEdit konnte ich mich nicht anfreunden. Die Software hat mich ein paar mal in die Irre geführt.

MARC im binären Format kann man übrigens mit dem Editor öffnen, sieht aber so aus…