Tag 5 : Repository-Software für Publikationen und Forschungsdaten

Themen: ArchivesSpace (Import/Export), Marktüberblick Archivsysteme, Repository-Software, Open Access, Open Data, ORCiD, DSpace

In dieser Vorlesung widmeten wir uns zunächst nochmals den Archivsystemen. Der Block wurde heute mit einer abschliessenden Import/Export-Übung und einem Marktüberblick abgeschlossen. Anschliessend wendeten wir uns dem neuen Thema - Repository-Software für Publikationen und Forschungsdaten - zu.

ArchivesSpace

In ArchivesSpace können Dateien in Formaten wie EAD, MARCXML und CSV importiert und exportiert werden. Es gibt zusätzlich eine OAI-MPH-Schnittstelle. Als Übung durften wir nun EAD-Daten in ArchivesSpace importieren und im MARCXML-Format wieder exportieren.

Übung: Import/Export

Import

Zunächst mussten wir eine Beispieldatei von der Seite https://eadiva.com/2/sample-ead2002-files/ downloaden. Hier war wichtig, die Datei als raw XML file für den Download zu wählen. Anschliessend bestand die erste Herausforderung schon mal darin, den Button für Import und Export zu finden… sobald gefunden, importierte ich die Datei im EAD-Format. Der Import und Export können unter Browse - Background Jobs gemacht werden.

Nun konnten wir die HTML-Ansicht der Beispieldatei auf der Downloadseite mit unserer Ansicht in ArchivesSpace vergleichen. Folgende Erkenntnisse konnten wir daraus ziehen:

Das Austauschformat EAD in der Praxis ist etwas schwierig. Es gab bei einigen Beispieldateien der oben verlinkten Webseite Probleme beim Import. Es kann zu Problemen führen, wenn Pflichtfelder nicht befüllt sind. Da ist ArchivesSpace nicht so tolerant. Ausserdem landen Informationen oftmals an einer unerwarteten (anderen) Stelle oder werden gekürzt (z.B weil das Feld in ArchivesSpace nicht so viele Zeichen erlaubt).

Fazit: EAD ist ein tolles Austauschformat. Der grosse Vorteil liegt u.a. darin, dass es weit verbreitet ist. Aber: Das Format ist keine Garantie dafür, dass alles klappt. Es gibt fehlerhafte Dateien oder der Fehler kann bei der Software liegen.

Exkurs Logdatei:

Unter “Background Job - Logdatei” kann beobachtet werden, was ArchivesSpace aus EAD liest. Man erkennt: Das System lädt die Dateien in mehreren Zyklen.

Export

Bei der Export-Übung war das Ziel, die zuvor importierten Datensätze im Format MARCXML zu exportieren und abzuspeichern. Schliesslich sollte ein Vergleich der exportierten MARCXML-Datei und und den in ArchiveSpace vorhandenen Informationen erfolgen. Die Frage: ist MARCXML verlustfrei? Der Export-Test zeigt:

Fazit: Der Export in MARCXML ist nicht verlustfrei.

EAD und MARCXML sind unterschiedliche Verzeichnungsstrategien. Während bei MARCXML Einzelstücke (z.B Bücher) im Mittelpunkt stehen, ist bei EAD die Hierarchie (verschiedene Verzeichnungsstufen) ein wichtiger Aspekt, der abgebildet werden muss. Wenn man also EAD Daten in MARCXML exportiert muss man sich fragen: in welche Felder kommen die Verzeichnungsstufen?

Frage: Ist Import und Export immer verlustbehaftet?

Eine verlustfreie Konvertierung ist möglich, wenn das Zielformat mehr Möglichkeiten bietet als das Ausgangsformat. Ein Beispiel für eine mögliche verlustfreie Konvertierung ist von DC zu MARC21.

Marktüberblick Archivsysteme

ArchivesSpace hat eine grosse Community in den USA. Eine weitere Open-Source-Alternative ist AtoM (Access to Momory). In der Schweiz sind scope.Archiv und CMISTAR stark vertreten. Wenn Institutionen ihr digitalisiertes Archivgut dem Publikum online präsentieren wollen, dann kann auch zusätzliche Software (wie die E-Pics Plattform der ETH Zürich) eingesetzt werden.

Unterschiede zwischen Bibliotheks- und Archivsystemen

Während sich Bibliotheken sich mehrheitlich mit Massenmedien beschäftigen und den Fokus auf die Benutzerinteraktion legen (Ausleihe, Rückgabe), haben Archive mehrheitlich Unikate in ihrem Bestand, für die der Entstehungszusammenhang erfasst wird. Die Nutzung von Archivalien kann nur auf Anfrage erfolgen. Folgende sind die gängigen Metadatenformate:

Bibliothek: MARC21 (in Zukunft ev. Bibframe)

Archiv: EAD (zukünftig RiC)

Exkurs Bibframe

Bibframe steht für Bibliographic Framework und ist ein Datenmodell für bibliografische Daten. Es wird in Zukunft das Austauschformat MARC ersetzen. Der Vorteil von Bibframe liegt darin, dass die Daten nach Linked-Data-Prinzipien verknüpft werden und somit eine benutzerfreundlichere Suche ermöglicht wird. Bibframe ist in RDF (Resource Description Framework) verfasst. Mit RDF können Beziehungen zwischen Objekten dargestellt und mithilfe von URIs eindeutig benannt werden. Die verknüpften Daten werden in einem Graph dargestellt (Quelle: RDF (W3C)).

Repository-Software für Publikationen und Forschungsdaten

Open Access und Open Data

Open Access und Open Data - die Begriffe sind nahe beieinander - aber aber doch nicht dasselbe! Die beiden Begriffe müssen unbedingt auseinandergehalten werden. Wenn von Open Access (OA) gesprochen wird, dann geht es um OA-Publikationen. Also um freien Zugang zu wissenschaftlichen Publikationen. In diesem Zusammenhang werden auch oft OA-Repositories genannt. Aktuell wird bei der Veröffentlichung der Publikationen noch oft der “grüne Weg” gewählt (Zweitveröffentlichungen). Mehr Infos zu den verschiedenen Open-Access-Strategien unter open-access.net.

Wer von Open Data spricht meint hier der offene Zugang zu Forschungsdaten. Der Fokus liegt also nicht auf der wissenschaftlichen Publikation sondern auf den Primärdaten, die bei der Forschung entstehen. Die Primärdaten werden in Forschungsdatne-Repositories abgelegt.

Zenodo ist beispielsweise ein kostenloses Repository für Publikationen und Forschungsdaten. Es gilt als Best Practice-Beispiel und wird vom Cern betrieben. Institutionen können in diesem Repository eine sogenannte Community anlegen und publizieren.

Forschungsinformationen

Und was sind dann Forschungsinformationen? Mit Forschungsinformationen sind Informationen über Forschende, Drittmittelprojekte, Patente etc. gemeint. Also alles das “was man sonst noch wissen will”. Das Ziel dabei ist die Forschungsberichterstattung. Um dieses Ziel zu erreichen werden an den Universitäten sogenannte Forschungsinformationssysteme eingefürt. Ein wichtige Abkürzung, die man sich in diesem Zusammenhang merken sollte ist CRIS. CRIS steht für Current Research Information System. Ein Beispiel für ein Forschungsinformationssystem (CRIS) findet man hier. Ich fragte mich plötzlich: CRIS ist doch auch an der Universität Bern ein heisses Thema? Ich habe schon ein paar Mal davon gehört und gemäss Webseite sind auch diverse Personen dieser Abteilung für CRIS zuständig. Aber auf der Webseite fand ich keine brauchbaren Informationen. Nach einer weiteren Recherche entdeckte ich einen Jahresbericht 2018 der ankündigt, dass das Forschungsinformationssystem der Uni Bern im Laufe des Jahres 2019 den Betrieb aufnehmen wird (bzw. aufgenommen hat). Ich gehe davon aus, dass das auch passierte. Und merke: Die Uni ist einfach zu gross - man kriegt niemals alles mit. Bei der Recherche stiess ich auf das Forschungsinformationssystem ARAMIS. Das Forschungsinformationssystem ARAMIS gibt Auskunft über die vom Bund finanzierten oder durchgeführten Forschungsprojekte und Entwicklungsvorhaben in der Schweiz. Spannend - ARAMIS - das merke ich mir. Ein interessanter kleiner Exkurs.

Und dann war da noch was mit ORCiD … ORCiD ist eine Non-Profit-Organisation, die 2010 gegründet wurde. Sie vergibt IDs zur eindeutigen Identifizierung von wissenschaftlichen Autoren (Quelle: ORCID (Wikipedia)). Dies ist wichtig, weil viele Autoren die gleichen Namen haben und die Forschenden oft die Institutionen wechseln. Den Wissenschaftlern wird empfohlen sich dort anzumelden. Diese ID kann überall (z.B auch bei Zenodo) verknüpft werden. Die ORCiD gilt international (weltweit) - anders als beispielsweise die GND.

Übung DSpace

DSpace ist eine Software für Publikationen und Forschungsdaten. Wir haben gelernt, dass die Forschungsinformationen mit DSpace-CRIS erweitert werden können. Der Metadatenstandard ist Dublin Core. Weil die Zeit fehlte, wurde dieses Mal keine Installation gemacht. Wir machten die Tests mit einer öffentlich zugänglichen Demo-Version. Das Ziel bestand darin eine Sub-Community der Sample Community zu erstellen und darin eine Collection anzulegen. Anschliessend sollte ein Dokument eingereicht und für den Begutachtungsprozess (Review) freigegeben werden.

Die Begriffe Community und Collection waren zunächst unklar und mussten geklärt werden. Eine Community ist eine Institution (z.B Fachhochschule Graubünden) und eine Collection ist eine Reihe von Publikationen (z.B Studentische Arbeiten). Sobald diese Hürde überwunden war, konnte die Aufgabe ohne grössere Probleme erledigt werden.

Marktüberblick Repository-Software

Die Vorlesung wurde mit einem Marktüberblick beendet. Dabei wurde zunächst auf die Seite https://open-access.net/informationen-zu-open-access/repositorien verwiesen. Diese Seite kannte ich bereits. Auf dieser Seite findet man wirklich sehr viele Informationen zu OA. Wir lernten in der Vorlesung ausserdem , dass es ein Open Directory of Open Access Repositories (OpenDOAR) gibt und dass relevante Systeme im DACH-Raum alle Open Source sind.