Einführung in EWIG


Digitale Langzeitarchivierung am ZIB

Die Sicherung der Langzeitverfügbarkeit digitaler Daten stellt eine ungleich größere technische und organisatorische Herausforderung dar als die Erhaltung von physischen Objekten. Während Papier bei geeigneter Umgebung Haltbarkeitswerte weit über 100 Jahre problemlos erreicht, sind digitale Daten oft bereits nach 10 Jahren nicht mehr zugänglich. Das liegt in der Regel nicht einmal an den Speichermedien, sondern an der rasanten Entwicklung der Software, mit der diese Dateien erzeugt wurden und angezeigt werden. Im Unterschied zur analogen Archivierung liegt der Hauptaugenmerk auf der Erhaltung von Information und nicht des Informationträgers.

Aufgabe eines Digitalen Langzeitarchivs ist nicht kurzfristiges Backup von Daten sondern langfristige Speicherung und bei Bedarf Konvertierung von Master-Digitalisaten.

Dokumente, die mit älteren Versionen noch gängiger Verarbeitungsprogramme erstellt wurden, sind z.B. oft mit der neuesten Version nicht mehr fehlerfrei darstellbar. Manche Dateiformate sind durch den rasanten technologischen Wandel bereits verschwunden, das bedeutet, sie können nicht mehr ohne weiteres entschlüsselt und gelesen werden.

Die Inhalte, Ordnerstrukturen, Zugriffsrechte und Metadatenformate müssen auch nach vielen Jahren noch lesbar und verwertbar sein. Das fordern auch die einschlägigen Drittmittelgeber, die einen großen Beitrag zur Digitalisierung des kulturellen Erbes und zur Reproduzierbarkeit von Forschungsergebnissen leisten.

Ein Langzeitarchiv muss den technologischen Wandel laufend beobachten und rechtzeitig Dateien neu speichern und bei Bedarf in ein anderes Dateiformat konvertieren. Das Speichermedium spielt dabei nur eine untergeordnete Rolle.

Die Lösung dieser Aufgabe ist mehr nötig als Hardware-Infrastruktur und technische Entwicklung. Ein digitales Langzeitarchiv besteht nach dem etwas sperrigen Wortlaut des maßgeblichen Referenzmodells OAIS nicht nur aus Technik sondern aus einer „Organisation aus Menschen und Systemen“. Bibliotheken, Museen, Archive und Forschungseinrichtungen archivieren Daten am ZIB für die Ewigkeit. Nicht zuletzt aus diesem Grund hat das Langzeitarchiv den Namen EWIG erhalten.

EWIG wird vom Zuse-Institut Berlin (ZIB) betrieben, einem außeruniversitären Forschungsinstitut in Trägerschaft des Landes Berlin (www.zib.de). Innerhalb der Abteilung Digital Data and Information for Society, Science, and Culture (D²IS²C) erfolgt die Weiterentwicklung von EWIG durch die Arbeitsgruppe Digital Preservation. Die Mitarbeiter der Arbeitsgruppe sind zugleich Beschäftigte der am ZIB angesiedelten Einrichtungen KOBV bzw. digiS.

KOBV Logo
Kooperativer Bibliotheksverbund Berlin-Brandenburg

Der KOBV ist ein Zusammenschluss von Bibliotheken in Berlin und Brandenburg in Trägerschaft der Länder Berlin und Brandenburg und der Mitgliedsbibliotheken (www.kobv.de).

digiS Logo
Forschungs- und Kompetenzzentrum Digitalisierung Berlin

digiS ist eine Einrichtung zur spartenübergreifenden Beratung, Unterstützung und Koordinierung von Digitalisierungsprojekten in Trägerschaft des Landes Berlin (www.digis.de).


Der Service des ZIB: Das Langzeitarchiv EWIG

Zielgruppe

Das ZIB hat keine eigenen Bestände sondern archiviert ausschließlich für Dritte.

Zielgruppe sind öffentlich-rechtlich organisierte Institutionen mit einem regionalen Schwerpunkt auf der Region Berlin-Brandenburg.

EWIG wird in erster Linie eingesetzt für die Bewahrung des digitalen Kulturerbes Berlins und Brandenburgs, insbesondere von Beständen der im Kooperativen Bibliotheksverbund Berlin Brandenburg (KOBV) zusammengeschlossenen Bibliotheken und der vom Land Berlin geförderten Partner des Forschungs- und Kompetenzzentrums Berlin (digiS).

Sonstige Institutionen aus Wissenschaft und Forschung können ebenfalls ihre wissenschaftlichen Sammlungen mit EWIG im ZIB langzeitarchivieren.

Es werden Leistungsvereinbarungen über die digitale Langzeitarchivierung mit befristeter Laufzeit oder unbefristet geschlossen. Vertragspartner können ausschließlich juristische Personen sein.

Es werden keine zusätzlichen, detaillierten Übernahmevereinbarungen geschlossen. Für Mitgliedseinrichtungen bzw. Partnerinstitutionen von KOBV und digiS gelten gesonderte Bedingungen zur Teilnahme am Service. Alle anderen Interessenten können individuelle Vereinbarungen mit dem ZIB schließen.

Kerneigenschaften des Langzeitarchivs

Alle Daten von EWIG werden vor Ort im ZIB verarbeitet und physisch archiviert.

Eine möglichst flexible, modulare Architektur aus freier und Open-Source-Software (FOSS) dient dazu, die sehr unterschiedlichen Quellsysteme und Lieferwege von Bibliotheken, Museen und Archiven adressieren zu können.

Beim Ingest gibt es keine Beschränkung auf bestimmte Datenformate. Transferwege ins Archiv und Ordnerstruktur von Daten-Lieferungen können flexibel gehandhabt werden.

Die Langzeitarchivierungsstrategie von EWIG ist Migration, Emulation wird derzeit nicht als Service angeboten.

EWIG arbeitet als „Dark Archive“ im Hintergrund – weder für die Partnerinstitutionen noch für Endnutzer wird eine Präsentation oder ein Datenkatalog vorgehalten. Es gibt keine Zugriffe auf Nutzungskopien, der Zugriff für die Partner (Access) erfolgt durch Rücklieferung von Archivpaketen. Nutzungskopien für das erneute Einspielen in eigene Präsentationssysteme muss der Vertragspartner selbst erstellen.

EWIG archiviert Masterdaten und zugehörige Metadaten = Objekte. Komplexe Web-Anwendungen, archivische Fachverfahren oder Datenbanken werden derzeit nicht übernommen.

Je nach (technischer) Kompetenz beim Vertragspartner gehört eine umfangreiche Unterstützung und Beratung zum Service. Die Leistung des ZIB ist dabei auch abhängig von der Qualität gelieferter Daten und Metadaten. Bei hoher Qualität und umfangreichen Metadaten kommt das Konzept der Active Preservation zum Tragen: Das Langzeitarchiv kann sich intensiv um die Erhaltung kümmern. Bei geringer Qualität kann nur passive Speicherung angeboten werden mit höherem Risiko eines zukünftigen Datenverlust (Passive Preservation).

Das Speichermedium ist Magnetband, alle Daten werden vor Ort am ZIB gespeichert.

Archivpakete werden in EWIG nicht logisch sondern physisch in Form von Dateien vorgehalten, was den Export aller Daten im Sinn einer Exitstrategie weniger fehleranfällig macht. Die Informationspakete enthalten alle Daten, sind also selbsterklärend. Eine besondere Abhängigkeit von einzelnen Softwareanbietern (Vendor-Lockin) kann durch Einsatz mehrerer Komponenten von Open-Source und freier Software vermieden werden. Ein Export des archivierten Bestands in EWIG sind in nicht-proprietärer Form möglich. Exportierte Archivpakete können auf Grundlage der offenen Paketstruktur in Fremdsysteme übernommen werden.

Architektur des Systems

EWIG ist kein monolithisches System sondern besteht aus mehreren modular miteinander verknüpften Komponenten von freier und Open-Source-Software (FOSS). Diese Anwendungsarchitektur folgt der Open-Science Policy des ZIB.

Ergänzt werden die FOSS-Komponenten um Bausteine und Schnittstellen in Eigenentwicklung für die Vorverarbeitung (Pre-Ingest), Kommunikation zwischen den Komponenten und zur Verwaltung der Daten.

  • Archivematica (Ingestworkflow)
  • iRODS (Speicherverwaltung)
  • Fedora (Repository für Zugriffsderivate)
  • Verwaltungsdatenbank mit Reporting-Funktion

Archivematica wird vom Hersteller artefactual in Kanada in Zusammenarbeit mit einer weltweiten Community weiterentwickelt. Es steht unter einer freien Lizenz zur Nutzung zur Verfügung (GNU Affero General Public License AGPL 3). Archivematica ist ursprünglich mit Schwerpunkt auf Einzelplatznutzer entwickelt worden und ist nicht mandantenfähig. Das EWIG verwendet nicht die grafische Benutzerschnittstelle von Archivematica.

iRODS (Integrated Rule-Oriented Data System, unter BSD-Lizenz) ist eine zusätzliche Datenmanagementschicht, die in der logischen Verarbeitungspipeline zwischen Archivematica und dem ZIB-Archivspeicher positioniert ist. iRODS ist in Archivematica als Speicherort (Archival Storage) definiert und verteilt die Archivpakete an physischen Speicherorten (Storage Tiering) – derzeit ausschließlich das Storage Area Network mit dem Magnetbandarchiv des ZIB. Weitere externe Speicherorte können bei Bedarf flexibel angesteuert werden.

Fedora ist eine weitverbreitete Repositorysoftware, die als Teil von EWIG für die interne Verwaltung von Dissemination Information Packages genutzt wird. Zwar spielt EWIG diese DIPs nicht an Nutzer aus, die enthaltenen Derivate zu den archivierten Masterdateien sind aber für administrative Zwecke geeignet. Daten aus Fedora werden auch für die Erstellung des Submission Reports beim Abschluss jeder Lieferung verwendet.

Für die Speicherung aller Informationen über Archivinhalte und Lieferungen inklusive Vertragsdaten, Paketidentifikatoren und Ansprechpartner bei den Datengebern wird Linked Data Technologie eingesetzt: Eine auf Apache Jena Fuseki basierende Triplestore-Datenbank. Zur Abfrage von Metainformationen im Triplestore dient ein in Eigenentwicklung entstandenes Reporting Dashboard, welches derzeit nur interne Abfragen zulässt – zukünftig aber auch direkte externe Zugriffe mit Anfragen über Archivinhalte durch die Datengeber erlauben soll. Als Schnittstelle zwischen allen Komponenten bzw. nach außen dient die EWIG-API, die gleichsam den Kern der Eigenentwicklung in EWIG ausmacht.

Archivierungsworkflow

Wie kommen die Daten ins Archiv?

Datenfluss
Allgemeiner Workflow zur Datenübergabe

Vor jeder Datenübernahme steht eine Reihe von Gesprächen. Es wird geklärt, welches Erschließungs- bzw. Inventarisierungssystem eingesetzt wird, auf welchem Weg Daten exportiert werden können und in welchem Umfang und in welchen Dateiformaten die Masterdaten vorliegen. Maßgeblich ist die Klärung der IT-Ressourcen, die beim Vertragspartner zur Verfügung stehen, und ob kontinuierlich oder nur sporadisch Arbeitszeit von Mitarbeiter*innen für Datenaufbereitung und -lieferung eingesetzt werden kann. Daten sollten bereits durch den Vertragspartner nach den Leitlinien des ZIB vorbereitet werden, so dass automatisierte Workflows genutzt werden können.

EWIG übernimmt nur fertig kuratierte Daten. Dies bedeutet, dass die Auswahl und abschließende Bewertung der Archivwürdigkeit erzeugter Digitalisate sowie die Inventarisierung bzw. Erschließung mit Metadaten vor der Lieferung bereits abgeschlossen sein muss.

Die Vertragspartner sollten sich bei der Planung einer Langzeitarchivierung einige Fragen stellen: Sind die Daten/Objekte einzigartig und für jemand anderes als die eigene Einrichtung in der Zukunft von Bedeutung? Wer sind diese zukünftigen Nutzer und welche Informationen brauchen sie zum Verständnis der Archivalien? Dabei ist zu berücksichtigen, dass Langzeitarchive „schlechte“ Daten nicht verbessern können. Sind die Kosten für eine eventuelle erneute digitale Erzeugung hoch? Digitale Langzeitarchivierung ist ein aufwändiger, fortlaufender Prozess, daher ist eine Abwägung von Kosten und Nutzen ein Muss.

Interessenten können ihre Einrichtung anhand eines Fragebogens zur Selbstauskunft einordnen und auf ein Beratungsgespräch mit dem EWIG-Team vorbereiten.

Je nach Lieferhäufigkeit, geplanter Laufzeit einer vertraglichen Vereinbarung, Qualität und Speichervolumen der zu archivierenden Daten und Aufwand des ZIB, der mittels Gesprächen und ggf. gelieferter Testdaten eingeschätzt wird, erfolgt die Vertragsgestaltung.

Vorbereitung und Datentransfer (Pre-Ingest)

In einem zumeist iterativen Prozess werden die aus dem jeweiligen Erschließungssystem exportierten Metadaten in den in der Langzeitarchierungs-Community als lingua franca genutzten Metadata Encoding and Transmission Standard (METS) überführt.

Dieser Schritt erfolgt bevorzugt durch den Vertragspartner.

Leitlinien für die Datenvorbereitung sind in den Submission Guidelines des ZIB beschrieben.

EWIG kann nur dann effektiv und automatisiert Daten übernehmen, wenn fertige METS-Container nach EWIG-Vorgaben geliefert werden, diese sind in der EWIG-METS-Spezifikation beschrieben.

Voraussetzung ist außerdem die Übergabe eines „Lieferzettels“ (Submission Manifest als YAML-Datei), mit dem administrative Metadaten zu Provenienz und rechtlichem Status der Objekte erfragt werden, sowie die strukturierte Bereitstellung der Masterdigitalisate. Hier gibt es Unterschiede zwischen den verschiedenen Sparten von Gedächtnisinstitutionen.

  • Bibliotheken sollten DFG-Viewer-konformes METS/MODS mit Integritätsangaben (Checksummen) und relativen Verweisen auf die Masterdateien erstellen. Bei Einsatz der Digitalisierungstools Goobi (mit EWIG-Plugin) oder Kitodo (Anpassungen nötig) ist dieser Weg weitgehend automatisiert möglich.
  • Museen exportieren möglichst ebenfalls in METS-Containern mit Inventarisierungsmetadaten im LIDO-Format.
  • Archive sollten METS-Container und Metadaten im EAD-Format übermitteln.

Die genauen Exportprozesse aus den Quellsystemen ändern sich von Fall zu Fall. Wir bieten den Vertragspartnern dazu umfangreiche Beratung und Unterstützung.

Abhängig von den zu archivierenden Objekten wird pro Transfer zu EWIG entweder jeweils ein Objekt und der zugehörige Metadatensatz in einem Informationspaket übermittelt (Transferpaket oder auch Submission Information Package SIP). Oder es wird ein Container mit mehreren digitalen Objekten inklusive Metadaten übermittelt.

Es werden ausschließlich solche Metadaten in das Langzeitarchiv übernommen, denen mindestens eine digitale Repräsentation (Masterdatei) eindeutig zugeordnet werden kann.

Für die Übermittlung von Daten stellt EWIG einen Transferordner zur Verfügung. Einrichtungen, die über keine hinreichend schnelle Internetanbindung verfügen oder die sehr große Datenmengen übergeben wollen, können ihre Objekte auch per Festplatte oder anderen Speichermedien vor Ort im ZIB abgeben.

Übernahme ins System (Ingest)

Nachdem die Datenpakete im Transferordner von EWIG angekommen sind, werden sie in einem internen Quarantänebereich auf Vollständigkeit und Unversehrtheit überprüft.

Es werden ausschließlich die Transferpakete in das Langzeitarchiv übernommen – eventuell zusätzlich übermittelte Dateien werden ignoriert. Im Fehlerfall werden alle Dateien verworfen, Transferpakete werden nur als Ganzes übernommen.

Fehler- bzw. Ablehnungsgründe können sein:

  • Paketformate nicht eingehalten
  • Metadaten nicht vollständig / valide
  • Zuordnung Metadaten – Master nicht erkennbar
  • Datei-/Ordnernamen enthalten Leer- / Sonderzeichen
  • Transferpaket zu groß (größer als 1,8 Terabytes).

Vom Quarantänebereich werden die Objekte in den EWIG Ingest-Workflow überführt. Aus dem Transferpaket wird zunächst eine Archivematica-spezifische Ordnerstruktur erzeugt – das eigentliche Submission Information Package SIP. Dann wird das SIP in den Archivematica-Ingest-Ordner übertragen.

Archivematica ist modular aufgebaut, ein Taskmanager steuert die Verarbeitung und Weitergabe der Datenpakete durch eine Pipeline einzelner Micro-Services. Dies einzelnen Softwarekomponenten für die verschiedenen Verarbeitungsschritte lassen sich flexibel kombinieren bzw. an- und ausschalten.

EWIG nutzt im Wesentlichen voreingestellte Parameter von Archivematica. Wichtig ist die Tatsache, dass EWIG die Steuerung der Prozesse skriptbasiert und nicht mittels des Archivematica Dashboards vornimmt, welches eine grafische Benutzerschnittstelle vorsieht.

Am Anfang der Verarbeitungspipeline steht ein Virencheck (mit der Software ClamAV) und die Prüfung der Datenformate: Formatcharakterisierung, -identifizierung und -validierung. Die Qualität und Zuverlässigkeit der Formaterkennung wechselt allerdings je nach Dateityp und Erkennungstool.

Für die Formatidentifizierung werden die Tools FIDO, Siegfried und File extension verwendet. FIDO & Siegfried identifizieren nach Signatures, File Extension nur die Dateiformat-Erweiterung (Extension). File Extension kann aber auch für Formate verwendet werden, die keine PRONOM ID (PUID) haben.

In der Formatidentifizierung werden technische Metadaten ausgelesen – bei Bilddateien etwa die exif-Informationen. Dabei kommen die Werkzeuge exiftool, MediaInfo, FITS und FFIdent zum Einsatz. Die Validierung, das bedeutet Überprüfung der Konformität der Datei mit dem Formatstandard, ist nicht immer erfolgreich, Archivematica setzt hier auf das Standardtool JHOVE.

Die Ergebnisse der Dateiprüfungen werden in XML festgehalten und unter dem Metadatenstandard PREMIS ("PREservation Metadata: Implementation Strategies") auch in die Archivpakete geschrieben.

Wichtig ist die Voreinstellung, standardmäßig keine Normalisierung der gelieferten Masterdateien vorzunehmen. Das bedeutet, EWIG archiviert Daten so wie sie angeliefert werden (sofern keine groben Fehler wie falsche Dateiformate erkannt werden). Grund ist die derzeitige Einschätzung des EWIG-Teams, dass sporadische Fehler bei der Formatnormalisierung in den meisten Fällen größeren Schaden verursachen als die Archivierung in weniger gut geeigneten Formaten.

Im nächsten Schritt erzeugt Archivematica automatisch Archivpakete (Archival Information Packages AIP) und sogenannte Auslieferungspakete (Dissemination Information Packages DIP). Die DIP sind nach dem Konzept von OAIS und im Standardworkflow von Archivematica dazu vorgesehen, direkt an Endnutzer ausgespielt zu werden. Da EWIG ein Dark Archive ohne Präsentationsplattform ist, werden die automatisch erzeugten DIPs vorläufig zwar gesichert aber nicht weiter verwendet.

Die Archivpakete AIP sind gepackte, unkomprimierte 7z-Archivdateien, welche die Masterdateien und zugehörige deskriptive, administrative sowie ggf. umfangreiche technische Metadaten in PREMIS beinhalten. Sie werden über die Datenmanagement-Software iRODS an den Archivspeicher weitergeleitet.

Sofern technisch möglich erfolgt zudem eine automatische Rückmeldung über den erfolgten an die Quellsoftware.

Archivspeicher

Der Archivspeicher von EWIG besteht aus zwei Komponenten, einem Tool zur horizontalen und vertikalen Datenverteilung (iRODS) und dem eigentlichen physischen Archivspeicher, dem Magnetbandarchiv des ZIB.

iRODS ist eine Open-Source-Software zum Datenmanagement. iRODS kann flexibel verteilte Daten an diversen Speicherstandorten verwalten und legt über den Status der Objekte zusätzliche Metadaten an. In EWIG vermittelt iRODS zwischen Archivematica und dem Hierarchischen Speichermanagement (HSM) auf Basis von Oracle SAM-FS, welches den physischen Magnetbandspeicher im ZIB steuert.

Das ZIB verfügt über zwei StorageTek SL8500 Magnetbandspeicher-Librarysysteme, bei denen die Sicherung in zwei unabhängigen Kopien auf Bandkassetten in einem besonders gesicherten und gegen Brand geschützten Raum erfolgt (die sogenannte Lampertzzelle). Die Gesamt-Speicherkapazität steigt stetig mit der Weiterentwicklung der Bandtechnologie. Sie liegt aktuell bereits bei mehr als 100 Petabytes.

Eine darüber hinaus gehende geografische Trennung mit weiteren Kopien wird im Rahmen des Service nicht angeboten, ist aber technisch möglich.

Nach erfolgreicher Rückmeldung HSM an iRODS über die Archivierung ist der sogenannte Transfer of Custody – also die eigentliche Übernahme der Verantwortung für die Les- und Interpretierbarkeit der Daten in den Informationsoaketen – durch EWIG abgeschlossen.

Es wird ein Bericht über den erfolgreichen Abschluss der Datenübernahme erstellt, der Submission Report. Hier sind Informationen über Anzahl und Volumen archivierter Dateien, identifizerter Dateitypen und Identifier sowie Checksummen enthalten. Die Kurzversion wird per E-Mail an zuständige Mitarbeiter*innen beim Datengeber gesendet. Die Langversion kann bei Bedarf heruntergeladen werden.

Rücklieferung von Inhalten (Access)

Wie kommen Sie nun wieder an Ihre Daten? Idealerweise gar nicht, denn EWIG ist kein Backupsystem, sondern ein Langzeitarchiv, mit dem Versprechen der Erhaltung der Leistung (performance) eines digitalen Objekts für lange Zeit. Wenn Sie Nutzungskopien für die Präsentation Ihrer Digitalisate im Web benötigen, müssen Sie diese vor Ort in Ihrer Einrichtung vorhalten und bei Verlust aus einem eigenen Backup zurückspielen oder aus lokal gespeicherten Masterdateien neu erzeugen.

EWIG wird tätig, wenn keine Nutzungskopien mehr lokal vorhanden sind und keine neuen Nutzungskopien erzeugt werden können. Dann erhalten Sie als Vertragspartner eine Rücklieferung der gespeicherten Archivpakete, aus denen Sie erneut Nutzungskopien erstellen können. Als maßgebliche Information benötigt EWIG in diesem Fall den ursprünglichen Identifier in Form der Benennung Ihrer originalen Lieferung (SubmissionName). Auch verlorene Metadaten können aus den Archivpaketen extrahiert und im Sammlungsmanagement neu angelegt werden. Bei wenig strukturierten Forschungsdaten in kaum dokumentierten Dateiformaten sind die mitausgelieferten Metadaten häufig wesentliche Quelle für die Rekonstruktion und Reproduzierbarkeit von Forschungsergebnissen.

Datenverwaltung

Die Datenverwaltung (Data Management) in EWIG wird durch die Triple-Store-Datenbank in Verbindung mit dem Fedora-Repository, dem Reporting Dashboard als Datensicht und der EWIG-API realisiert. Im Triple-Store werden die administrative Daten zu den Vertragspartnern und die Erschließungsinformationen der Pakete vorgehalten, welche die Archivbestände identifizieren und dokumentieren.

Die Beziehungen zwischen den Informationspaketen, Informationsobjekten und Dateien in EWIG sind im EWIG Datenmodell entlang des Information Model nach OAIS (ISO 14761:2012) beschrieben.

Erhaltungsplanung

Erhaltungsplanung (Preservation Planning) bedeutet, dass der Inhalt des Archivs laufend überwacht werden muss, um sicherzustellen, dass die Daten lesbar und interpretierbar bleiben. Auch die technologische Entwicklung von Speichertechnologien und Hinweise darauf, dass Datenformate möglicherweise gefährdet sind (Obsoleszenz), müssen im Blick behalten werden.

Eine objektive Feststellung der Obsoleszenz von Dateiformaten sollte durch eine internationale Preservation Watch Community erfolgen, dazu sind noch keine praktikablen, verlässlichen Arbeitsschritte und Infrastrukturen vorhanden. Eine Liste gefährdeter Formate findet sich zum Beispiel hier: https://dpconline.org/our-work/bit-list.

Ob ein Dateiformat in Gefahr ist, obsolet zu werden, lässt sich nach zwei Stufen bewerten, die nicht ausschließlich technische Parameter betreffen.

Format von Obsoleszenz bedroht

Ein Dateiformat wird als "von Obsoleszenz bedroht" bewertet, wenn in der Designated Community die Verwendung dieses Formats zurückgeht und bereits Migrationspfade verwendet werden, um neue Formatversionen oder alternative Dateiformate zu erzeugen. Kennzeichen sind Schwierigkeiten beim Rendering von Objekten, weil verbreitete Rendering-Software das Dateiformat nicht bzw. nicht mehr vollumfänglich anzeigt.

Format obsolet

Der Übergang zum Status "obsolet" ist fließend. Ein Dateiformat wird als obsolet bewertet, wenn verbreitete Software das Dateiformat nicht mehr rendern kann und bereits oder in absehbarer Zeit Expertenwissen und erhöhter Aufwand, eventuell forensische Methoden, notwendig sind, um Migration zu einem alternativen Dateiformat zu ermöglichen. Als obsolet gelten Dateiformate außerdem, wenn kein Renderingsoftware verfügbar ist, keine Identifizierung möglich ist oder wenn kein Migrationspfad in der Archivierungs-Community bekannt ist. Dateiformate gelten dann zusätzlich als "derzeit unbenutzbar/currently unusuable".

Die Migrationspolicy von EWIG sieht vor, dass Objekte (Dateien) migriert werden, wenn deren Format identifiziert, als obsolet eingestuft und die passende Regel zur Konvertierung in ein geeignetes Alternativformat gefunden wurde, sowie ein Konvertierungspfad (Tool) zur Verfügung steht. Umgekehrt muss für alle unveränderten Objekte eine der folgenden Aussagen zutreffen:

  • das identifizierte Format gilt nicht als obsolet;
  • zu dem identifizierten und als obsolet eingestuften Format gibt es derzeit keine Alternative oder keinen geeigneten
  • Konvertierungspfad;
  • ihr Format ist unbekannt;
  • die zugehörigen Dateien sind nicht beschränkungsfrei (d.h. passwortgeschützt bzw. verschlüsselt)

Abgeleitet daraus werden Migrationen des Archivbestands im Grundsatz nur dann angestoßen, wenn:

  • Formate neuerdings als obsolet eingestuft werden (Änderung der Policy);
  • erstmals oder bessere Konverter für obsolete Formate verfügbar sind (Systemupgrade);
  • neue Formate erkannt werden, die bereits als obsolet eingestuft werden (Systemupgrade);

Zum Zeitpunkt der Einlagerung von Daten in EWIG muss noch nicht festgelegt werden, ob und / oder wann diese migriert werden. Für Dateiformate, die bereits bei Lieferung technisch obsolet sind, wird in Zusammenarbeit mit dem Datengeber eine Lösung für die Konvertierung der Objekte vor dem Ingest gesucht. Hier gilt aber grundsätzlich die Vorgabe des ZIB, dass Daten nur abschließend kuratiert übernommen werden.

Ein Migrationserfolg kann nur stichprobenweise (inhaltlich) überprüft werden, weil die automatische Überprüfung sehr vieler Dateiformate technisch nicht ausgereift ist. Der Datengeber soll die Möglichkeit erhalten, den Migrationserfolg selber stichprobenweise zu überprüfen. Die Überprüfung bezieht sich auf definierte sigifikante Eigenschaften der Datenströme; so sollte bei Migrationen sich z.B. die Anzahl der Bildelemente und deren Farbinterpretation nicht ändern. Zu berücksichtigen ist, dass neben dem aktuellen Archivformat immer auch das ursprünglich eingelieferte Original aufgehoben wird, so dass ein Informationsverlust bei fehlerhafter Konvertierung vermieden wird.

Das ZIB behält sich vor, Aufwände nach Rücksprache mit dem Datengeber in Rechnung zu stellen.

Migrationen werden nach Einschätzung des EWIG-Teams bei Standard-Dateiformaten für Bilder und Texte nur selten notwendig sein. Massenkonvertierungen in alternative Dateiformate sollen nach Möglichkeit vermieden werden, denn Konvertierungsfehler können nach aktuellem Stand der Technik nicht hinreichend effektiv ausgeschlossen werden. Aus diesem Grund wird auch keine standardmäßige Normalisierung von Dateiformaten beim Ingest in EWIG vorgenommen.