Archivierungsworkflow

Inhalt:

Wie kommen die Daten ins Archiv?

Vor jeder Datenübernahme steht eine Reihe von Gesprächen. Es wird geklärt, welches Erschließungs- bzw. Inventarisierungssystem eingesetzt wird, auf welchem Weg Daten exportiert werden können und in welchem Umfang und in welchen Dateiformaten die Masterdaten vorliegen. Maßgeblich ist die Klärung der IT-Ressourcen, die beim Vertragspartner zur Verfügung stehen, und ob kontinuierlich oder nur sporadisch Arbeitszeit von Mitarbeiter*innen für Datenaufbereitung und -lieferung eingesetzt werden kann. Daten sollten bereits durch den Vertragspartner nach den Leitlinien des ZIB vorbereitet werden, so dass automatisierte Workflows genutzt werden können.

Workflow der Daten vom Datengeber ins Archiv

Die Vertragspartner sollten sich bei der Planung einer Langzeitarchivierung einige Fragen stellen: Sind die Daten/Objekte einzigartig und für jemand anderes als die eigene Einrichtung in der Zukunft von Bedeutung? Wer sind diese zukünftigen Nutzer und welche Informationen brauchen sie zum Verständnis der Archivalien? Dabei ist zu berücksichtigen, dass Langzeitarchive „schlechte“ Daten nicht verbessern können. Sind die Kosten für eine eventuelle erneute digitale Erzeugung hoch? Die Sicherstellung der Digitalen Langzeitverfügbarkeit (»Digital Preservation«) ist ein aufwändiger, fortlaufender Prozess, daher ist eine Abwägung von Kosten und Nutzen ein Muss.

EWIG übernimmt nur fertig kuratierte Daten. Dies bedeutet, dass die Auswahl und abschließende Bewertung der Archivwürdigkeit erzeugter Digitalisate sowie die Inventarisierung bzw. Erschließung mit Metadaten vor der Lieferung bereits abgeschlossen sein muss.

Interessenten können ihre Einrichtung anhand eines Fragebogens zur Selbstauskunft einordnen und auf ein Beratungsgespräch mit dem EWIG-Team vorbereiten. Je nach Lieferhäufigkeit, geplanter Laufzeit einer vertraglichen Vereinbarung, Qualität und Speichervolumen der zu erhaltenden Daten und Aufwand des ZIB, der mittels Gesprächen und ggf. gelieferter Testdaten eingeschätzt wird, erfolgt die Vertragsgestaltung.

Vorbereitung und Datentransfer (Pre-Ingest)

In einem zumeist iterativen Prozess werden die aus dem jeweiligen Erschließungssystem exportierten Metadaten in den in der Langzeitarchierungs-Community als lingua franca genutzten Metadata Encoding and Transmission Standard (METS) überführt. Dieser Schritt erfolgt bevorzugt durch den Vertragspartner. Leitlinien für die Datenvorbereitung sind in den Submission Guidelines des ZIB beschrieben.

EWIG kann nur dann effektiv und automatisiert Daten übernehmen, wenn fertige METS-Container nach EWIG-Vorgaben geliefert werden, diese sind in der EWIG-METS-Spezifikation beschrieben.

Voraussetzung ist außerdem die Übergabe eines „Lieferzettels“ (Submission Manifest als YAML-Datei), mit dem administrative Metadaten zu Provenienz und rechtlichem Status der Objekte erfragt werden, sowie die strukturierte Bereitstellung der Masterdigitalisate. Hier gibt es Unterschiede zwischen den verschiedenen Sparten von Gedächtnisinstitutionen.

  • Bibliotheken sollten DFG-Viewer-konformes METS/MODS mit Integritätsangaben (Checksummen) und relativen Verweisen auf die Masterdateien erstellen. Bei Einsatz der Digitalisierungstools Goobi (mit EWIG-Plugin) oder Kitodo (Anpassungen nötig) ist dieser Weg weitgehend automatisiert möglich.
  • Museen exportieren möglichst ebenfalls in METS-Containern mit Inventarisierungsmetadaten im LIDO-Format.
  • Archive sollten METS-Container und Metadaten im EAD-Format übermitteln.

Die genauen Exportprozesse aus den Quellsystemen ändern sich von Fall zu Fall. Wir bieten den Vertragspartnern dazu umfangreiche Beratung und Unterstützung.

Abhängig von den zu erhaltenden Objekten wird pro Transfer zu EWIG entweder jeweils ein Objekt und der zugehörige Metadatensatz in einem Informationspaket übermittelt (Transferpaket oder auch Submission Information Package SIP). Oder es wird ein Container mit mehreren digitalen Objekten inklusive Metadaten übermittelt. Es werden ausschließlich solche Metadaten in das Langzeitarchiv übernommen, denen mindestens eine digitale Repräsentation (Masterdatei) eindeutig zugeordnet werden kann.

Für die Übermittlung von Daten stellt EWIG einen Transferordner zur Verfügung. Einrichtungen, die über keine hinreichend schnelle Internetanbindung verfügen oder die sehr große Datenmengen übergeben wollen, können ihre Objekte auch per Festplatte oder anderen Speichermedien vor Ort im ZIB abgeben.

Übernahme ins System (Ingest)

Nachdem die Datenpakete im Transferordner von EWIG angekommen sind, werden sie in einem internen Quarantänebereich auf Vollständigkeit und Unversehrtheit überprüft.

Es werden ausschließlich die Transferpakete in das Langzeitarchiv übernommen – eventuell zusätzlich übermittelte Dateien werden ignoriert. Im Fehlerfall werden alle Dateien verworfen, Transferpakete werden nur als Ganzes übernommen.

Fehler- bzw. Ablehnungsgründe können sein:

  • Paketformate nicht eingehalten
  • Metadaten nicht vollständig / valide
  • Zuordnung Metadaten – Master nicht erkennbar
  • Datei-/Ordnernamen enthalten Leer- / Sonderzeichen
  • Transferpaket zu groß (größer als 1,8 Terabytes).

Eine Einschränkung auf bestimmte Dateiformate gibt EWIG nicht vor. Stattdessen werden Datengeber zur Lieferung in bewährten, archivfähigen Formaten ermuntert und beraten. Zum Abschluss des Ingests einer Datenlieferung beinhaltet der Submission Report eine Aufstellung aller  erkannten Dateiformate. Zu jedem Format wird ein Grad der Zuversicht angegeben, mit dem EWIG die Langzeitverfügbarkeit der übernommenen Daten zusichert (level of confidence in content preservability). Folgende Grade werden unterschieden:

  1. Preservation with high confidence
  2. Best effort preservation with medium confidence
  3. No guarantees for long term access

Anhand folgender Kriterien wird entschieden, mit welche Zusicherung EWIG für die Langzeitverfügbarkeit eines Formates geben kann:

  • Wie sicher funktionieren Identifizierung und Validierung?
  • Wie stark ist das Format verbreitet und welche Werkzeuge stehen zur  freien Verfügung?
  • Ist das Format dokumentiert und seine Spezifikation frei zugänglich?

Momentan gibt EWIG folgende Zusicherungen:

  1. „preservation with high confidence“ für die Datei-Formate: TIFF / ALTO XML
  2. „best effort preservation with medium confidence“ für die Formate: PDF/A-2a, PDF/A-1a, PDF/A-2u, PDF/UA, PDF/X, LIDO-XML, JPEG
  3. „no guarantees for long term access“ für alles andere.

Die Einordnung von Formaten in die genannten drei Kategorien wird von Zeit zu Zeit überprüft und kann sich infolgedessen ändern. So könnte beispielsweise die Freigabe einer Formatspezifikation dazu führen, dass das betreffende Format aus Kategorie 3 in 2 oder 1 eingeordnet wird.

EWIG verfolgt eine defensive Migrationsstrategie. Es wird beispielsweise nicht automatisch migriert, wenn ein Migrationspfad von einem Format der Kategorie 2 zu einem anderen Format der Kategorie 1 existiert, weil das Risiko von unbemerkten Fehlern bei der Konvertierung vermieden werden soll. Sollte aber z.B. die Umgruppierung eines Formats von Kategorie 1 oder 2 in Kategorie 3 absehbar werden, werden geeignete Migrationsschritte unternommen. Dabei bewahrt EWIG ungeachtet einer Migration das Original weiterhin auf.

Vom Quarantänebereich werden die Objekte in den EWIG Ingest-Workflow überführt. Aus dem Transferpaket wird zunächst eine Archivematica-spezifische Ordnerstruktur erzeugt – das eigentliche Submission Information Package SIP. Dann wird das SIP in den Archivematica-Ingest-Ordner übertragen.

Archivematica ist modular aufgebaut, ein Taskmanager steuert die Verarbeitung und Weitergabe der Datenpakete durch eine Pipeline einzelner Micro-Services. Dies einzelnen Softwarekomponenten für die verschiedenen Verarbeitungsschritte lassen sich flexibel kombinieren bzw. an- und ausschalten.

EWIG nutzt im Wesentlichen voreingestellte Parameter von Archivematica. Wichtig ist die Tatsache, dass EWIG die Steuerung der Prozesse skriptbasiert und nicht mittels des Archivematica Dashboards vornimmt, welches eine grafische Benutzerschnittstelle vorsieht.

Am Anfang der Verarbeitungspipeline steht ein Virencheck (mit der Software ClamAV) und die Prüfung der Datenformate: Formatcharakterisierung, -identifizierung und -validierung. Die Qualität und Zuverlässigkeit der Formaterkennung wechselt allerdings je nach Dateityp und Erkennungstool.

Für die Formatidentifizierung werden die Tools FIDO, Siegfried und File extension verwendet. FIDO & Siegfried identifizieren nach Signatures, File Extension nur die Dateiformat-Erweiterung (Extension). File Extension kann aber auch für Formate verwendet werden, die keine PRONOM ID (PUID) haben.

In der Formatidentifizierung werden technische Metadaten ausgelesen – bei Bilddateien etwa die exif-Informationen. Dabei kommen die Werkzeuge exiftool, MediaInfo, FITS und FFIdent zum Einsatz. Die Validierung, das bedeutet Überprüfung der Konformität der Datei mit dem Formatstandard, ist nicht immer erfolgreich, Archivematica setzt hier auf das Standardtool JHOVE.

Die Ergebnisse der Dateiprüfungen werden in XML festgehalten und unter dem Metadatenstandard PREMIS („PREservation Metadata: Implementation Strategies“) auch in die Archivpakete geschrieben.

Wichtig ist die Voreinstellung, standardmäßig keine Normalisierung der gelieferten Masterdateien vorzunehmen. Das bedeutet, EWIG sichert Daten so wie sie angeliefert werden (sofern keine groben Fehler wie falsche Dateiformate erkannt werden). Grund ist die derzeitige Einschätzung des EWIG-Teams, dass sporadische Fehler bei der Formatnormalisierung in den meisten Fällen größeren Schaden verursachen als die Sicherung in weniger gut geeigneten Formaten.

Im nächsten Schritt erzeugt Archivematica automatisch Archivpakete (Archival Information Packages AIP) und sogenannte Auslieferungspakete (Dissemination Information Packages DIP). Die DIP sind nach dem Konzept von OAIS und im Standardworkflow von Archivematica dazu vorgesehen, direkt an Endnutzer ausgespielt zu werden. Da EWIG ein Dark Archive ohne Präsentationsplattform ist, werden die automatisch erzeugten DIPs vorläufig zwar gesichert aber nicht weiter verwendet.

Die Archivpakete AIP sind gepackte, unkomprimierte 7z-Archivdateien, welche die Masterdateien und zugehörige deskriptive, administrative sowie ggf. umfangreiche technische Metadaten in PREMIS beinhalten. Sie werden über die Datenmanagement-Software iRODS an den Archivspeicher weitergeleitet.

Sofern technisch möglich erfolgt zudem eine automatische Rückmeldung über den erfolgten an die Quellsoftware.

Archivspeicher (Archival Storage)

Der Archivspeicher von EWIG besteht aus zwei Komponenten, einem Tool zur horizontalen und vertikalen Datenverteilung (iRODS) und dem eigentlichen physischen Archivspeicher, dem Magnetbandarchiv des ZIB.

iRODS ist eine Open-Source-Software zum Datenmanagement. iRODS kann flexibel verteilte Daten an diversen Speicherstandorten verwalten und legt über den Status der Objekte zusätzliche Metadaten an. In EWIG vermittelt iRODS zwischen Archivematica und dem Hierarchischen Speichermanagement (HSM) auf Basis von Oracle SAM-FS, welches den physischen Magnetbandspeicher im ZIB steuert.

Das ZIB verfügt über zwei StorageTek SL8500 Magnetbandspeicher-Librarysysteme, bei denen die Sicherung in zwei unabhängigen Kopien auf Bandkassetten in einem besonders gesicherten und gegen Brand geschützten Raum erfolgt (die sogenannte Lampertzzelle). Die Gesamt-Speicherkapazität steigt stetig mit der Weiterentwicklung der Bandtechnologie. Sie liegt aktuell bereits bei mehr als 100 Petabytes.

Eine darüber hinaus gehende geografische Trennung mit weiteren Kopien wird im Rahmen des Service nicht angeboten, ist aber technisch möglich.

Nach erfolgreicher Rückmeldung des HSM an iRODS über die Sicherung ist der sogenannte Transfer of Custody – also die eigentliche Übernahme der Verantwortung für die Les- und Interpretierbarkeit der Daten in den Informationsoaketen – durch EWIG abgeschlossen.

Es wird ein Bericht über den erfolgreichen Abschluss der Datenübernahme erstellt, der Submission Report. Hier sind Informationen über Anzahl und Volumen gesicherter Dateien, identifizerter Dateitypen und Identifier sowie Checksummen enthalten. Die Kurzversion wird per E-Mail an zuständige Mitarbeiter:innen beim Datengeber gesendet. Die Langversion kann bei Bedarf heruntergeladen werden.

Rücklieferung von Inhalten (Access)

Wie kommt der Datengeber nun wieder an die Daten? Idealerweise gar nicht, denn EWIG ist kein Backupsystem, sondern ein Langzeitarchiv, mit dem Versprechen der Erhaltung der Leistung (performance) eines digitalen Objekts für lange Zeit. Werden Nutzungskopien für die Präsentation der Digitalisate im Web benötigt, müssen diese vor Ort in der Einrichtung vorgehalten werden und bei Verlust aus einem eigenen Backup zurückgespielt oder aus lokal gespeicherten Masterdateien neu erzeugt werden.

EWIG wird tätig, wenn keine Nutzungskopien mehr lokal vorhanden sind und keine neuen Nutzungskopien erzeugt werden können. Dann erhalten Sie als Vertragspartner eine Rücklieferung der gespeicherten Archivpakete, aus denen Sie erneut Nutzungskopien erstellen können. Als maßgebliche Information benötigt EWIG in diesem Fall den ursprünglichen Identifier in Form der Benennung Ihrer originalen Lieferung (SubmissionName). Auch verlorene Metadaten können aus den Archivpaketen extrahiert und im Sammlungsmanagement neu angelegt werden. Bei wenig strukturierten Forschungsdaten in kaum dokumentierten Dateiformaten sind die mitausgelieferten Metadaten häufig wesentliche Quelle für die Rekonstruktion und Reproduzierbarkeit von Forschungsergebnissen.

Datenverwaltung (Data Management)

Die Datenverwaltung in EWIG wird durch die Triple-Store-Datenbank in Verbindung mit dem Fedora-Repository, dem Reporting Dashboard als Datensicht und der EWIG-API realisiert. Im Triple-Store werden die administrative Daten zu den Vertragspartnern und die Erschließungsinformationen der Pakete vorgehalten, welche die Archivbestände identifizieren und dokumentieren.

Die Beziehungen zwischen den Informationspaketen, Informationsobjekten und Dateien in EWIG sind im EWIG Datenmodell entlang des Information Model nach OAIS (ISO 14761:2012) beschrieben.

Erhaltungsplanung (Preservation Planning)

Erhaltungsplanung bedeutet, dass der Inhalt des Archivs laufend überwacht werden muss, um sicherzustellen, dass die Daten lesbar und interpretierbar bleiben. Auch die technologische Entwicklung von Speichertechnologien und Hinweise darauf, dass Datenformate möglicherweise gefährdet sind (Obsoleszenz), müssen im Blick behalten werden.

Eine objektive Feststellung der Obsoleszenz von Dateiformaten sollte durch eine internationale Preservation Watch Community erfolgen, dazu sind noch keine praktikablen, verlässlichen Arbeitsschritte und Infrastrukturen vorhanden. Eine Liste gefährdeter Formate findet sich zum Beispiel hier: https://dpconline.org/our-work/bit-list.

Ob ein Dateiformat in Gefahr ist, obsolet zu werden, lässt sich nach zwei Stufen bewerten, die nicht ausschließlich technische Parameter betreffen:

Format von Obsoleszenz bedroht:
Ein Dateiformat wird als „von Obsoleszenz bedroht“ bewertet, wenn in der Designated Community die Verwendung dieses Formats zurückgeht und bereits Migrationspfade verwendet werden, um neue Formatversionen oder alternative Dateiformate zu erzeugen. Kennzeichen sind Schwierigkeiten beim Rendering von Objekten, weil verbreitete Rendering-Software das Dateiformat nicht bzw. nicht mehr vollumfänglich anzeigt.

Format obsolet:
Der Übergang zum Status „obsolet“ ist fließend. Ein Dateiformat wird als obsolet bewertet, wenn verbreitete Software das Dateiformat nicht mehr rendern kann und bereits oder in absehbarer Zeit Expertenwissen und erhöhter Aufwand, eventuell forensische Methoden, notwendig sind, um Migration zu einem alternativen Dateiformat zu ermöglichen. Als obsolet gelten Dateiformate außerdem, wenn kein Renderingsoftware verfügbar ist, keine Identifizierung möglich ist oder wenn kein Migrationspfad in der Digital Preservation Community bekannt ist. Dateiformate gelten dann zusätzlich als „derzeit unbenutzbar/currently unusuable“.

Migrationspolicy von EWIG

Die Migrationspolicy von EWIG sieht vor, dass Objekte (Dateien) migriert – also in ein anderes Format konvertiert – werden, wenn deren Format identifiziert, als obsolet eingestuft und die passende Regel zur Konvertierung in ein geeignetes Alternativformat gefunden wurde, sowie ein Konvertierungspfad (Tool) zur Verfügung steht. Umgekehrt muss für alle unveränderten Objekte eine der folgenden Aussagen zutreffen:

  • das identifizierte Format gilt nicht als obsolet;
  • zu dem identifizierten und als obsolet eingestuften Format gibt es derzeit keine Alternative oder keinen geeigneten Konvertierungspfad;
  • ihr Format ist unbekannt;
  • die zugehörigen Dateien sind nicht beschränkungsfrei (d.h. passwortgeschützt bzw. verschlüsselt)

Abgeleitet daraus werden Migrationen des Archivbestands im Grundsatz nur dann angestoßen, wenn:

  • Formate neuerdings als obsolet eingestuft werden (Änderung der Policy);
  • erstmals oder bessere Konverter für obsolete Formate verfügbar sind (Systemupgrade);
  • neue Formate erkannt werden, die bereits als obsolet eingestuft werden (Systemupgrade);

Zum Zeitpunkt der Einlagerung von Daten in EWIG muss noch nicht festgelegt werden, ob und / oder wann diese migriert werden. Für Dateiformate, die bereits bei Lieferung technisch obsolet sind, wird in Zusammenarbeit mit dem Datengeber eine Lösung für die Konvertierung der Objekte vor dem Ingest gesucht. Hier gilt aber grundsätzlich die Vorgabe des ZIB, dass Daten nur abschließend kuratiert übernommen werden.

Ein Migrationserfolg kann nur stichprobenweise (inhaltlich) überprüft werden, weil die automatische Überprüfung sehr vieler Dateiformate technisch nicht ausgereift ist. Der Datengeber soll die Möglichkeit erhalten, den Migrationserfolg selber stichprobenweise zu überprüfen. Die Überprüfung bezieht sich auf definierte sigifikante Eigenschaften der Datenströme; so sollte bei Migrationen sich z.B. die Anzahl der Bildelemente und deren Farbinterpretation nicht ändern. Zu berücksichtigen ist, dass neben dem aktuellen Archivformat immer auch das ursprünglich eingelieferte Original aufgehoben wird, so dass ein Informationsverlust bei fehlerhafter Konvertierung vermieden wird.

Das ZIB behält sich vor, Aufwände nach Rücksprache mit dem Datengeber in Rechnung zu stellen.

Migrationen werden nach Einschätzung des EWIG-Teams bei Standard-Dateiformaten für Bilder und Texte nur selten notwendig sein. Massenkonvertierungen in alternative Dateiformate sollen nach Möglichkeit vermieden werden, denn Konvertierungsfehler können nach aktuellem Stand der Technik nicht hinreichend effektiv ausgeschlossen werden. Aus diesem Grund wird auch keine standardmäßige Normalisierung von Dateiformaten beim Ingest in EWIG vorgenommen.