Datenüberflutung – wohin mit dem ganzen Zeug?

10. Januar 2012 von Dale Askey

Eigentlich wollte ich diesen Beitrag mit dem Titel Truckloads of Terabytes versehen, denn Alliteration und Assonanz sind meine liebsten rhetorischen Freunde, deren Verwendung mir im Deutschen leider ewig flüchtig bleibt, da ich das Ohr dafür nicht habe.

Wo ich mit diesen Truckloads (Wagenladungen) eigentlich hinaus wollte, war der Enormität eines akuten Datenspeicherungsproblems wörtlich Form zu geben. Ja, wir reden seit Jahren von dem Problem der Langzeitarchivierung und deren untergeordneten Probleme wie Formatmigration, Software-Emulation, Datenintegrität usw., aber es erreichen jetzt immer mehr Bibliotheken den Punkt, wo die bloße Datenmenge ein ärgerliches und eigentlich eher rein technisches Problem darstellt.

Ich rede hier konkret von der Lage in der eigenen Bibliothek. Digital betrachtet, sind wir eine ziemlich normale mittelgroße wissenschaftliche Bibliothek, mit der üblichen Ansammlung von Digitalisaten, die einem relativ aktiven Digitalisierungsprogram entstammen. Unser Problem? Etwas vereinfacht, es existieren nur zwei Kopien von diesen Dateien: eine Kopie auf einem Produktionsserver und eine identische Backup-Kopie (sog. near-term preservation) auf einem anderen Server. Wir arbeiten gerade daran, ein neues Repository zu installieren (Islandora), dann werden wir mindestens die Konditionen haben für sog. mid-term preservation, ein wichtiger Schritt vorwärts, da man dann Metadaten und Objekte wesentlich besser verwalten kann. Schön und gut, aber auch wenn dieser Schritt fertig ist, werden beide Kopien nur auf verschiedenen Servern auf dem selben Campus sitzen. Sollte uns irgendeine Katastrophe befallen, sind wir digital so gut wie tot. Wir brauchen dringend eine sinnvolle Lösung für externe Datenspeicherung.

Diese Situation rückte vor kurzem deutlich höher in meinem Bewußtsein, denn auf der Herbsttagung der Coalition for Networked Information in Washington, D.C. wurde öfter Cloud Storage diskutiert. Die sogenannte Cloud wirkt so verlockend: keine interne Infrastruktur, alles geschieht im Hintergrund, man bezahlt nur laufende Kosten ohne Kaptitalausgaben. Darüber hinaus gibt es unzählige Anbieter, von Amazon S3 bis hin zu jeden kleinem Webhost. Konkurrenz sollte heißen, es wird alles billiger, sogar wesentlich billiger, als wenn wir unsere eigenen Lösungen schaffen wollten, entweder als einzelne Bibliotheken oder gar als Bibliotheksverbünde.

In einem Vortrag zum Thema hat David Rosenthal, Chief Scientist for LOCKSS, ziemlich deutlich dargelegt, wie kompliziert die Kalkulation der langfristigen Kosten für Datenspeicherung ist. Ein zweiter wichtiger Punkt war, man darf nicht beliebig eine Lösung aussuchen, in der Hoffnung, die Entscheidung später relativ einfach revidieren zu können. Denn klar kann man jederzeit bei S3 ein- und aussteigen, aber das heißt schon lange nicht, dass man die Daten so einfach hin- und hertransportieren kann. Kurz gesagt: Speicherplatz ist billig, Bandbreite dafür teuer und vor allem belastet mit Engpässen. Das wissen doch alle, die in dem Bereich arbeiten, aber nicht alle in Bibliotheken, und schon gar nicht viele Entscheidungsträger, die noch eher auf andere Kosten konzentrieren, wie z.B. Fachzeitschriften. Man muss die Partner für diesen Tanz sehr vorsichtig aussuchen, und nicht mit dem nächstbesten oder wohlvertrauten Partner einsteigen. Erwähnt man nur dieses Problem in Hörweite der Mehrzahl der nordamerikanischen BibliotheksdirektorInnen, bekommt man fast automatisch zu hören, ach, OCLC biete doch Cloud Storage. Na klar, aber sicherlich zu Preisen, die nur OCLC lieben kann.

In fast jedem Vortrag sowie in vielen kleineren Gesprächen auf CNI wurde das durch Datenmengen verursachte Problem der Nicht-Portabilität erwähnt, und keine hatten Lösungsvorschläge. Wir sitzen in unserer Bibliothek „nur“ auf 20-30 TB, die wir eigentlich extern aufbewahren sollten. Da wir im Haus sowohl ein Kirtas-Buchscanner als auch ein nagelneuer Großformat-Scanner haben, ist damit zu rechnen, dass wir demnächst eine wesentlich größere Datenmenge zu verwalten haben werden. Klar ist, wir müssen die Kosten so gut wie nur möglich einschätzen, gründlich planen und vor allem den Anbieter sorgfältig auswählen. Klingt ganz einfach, na?

Foto – AFresh1, flickr

Pl4net.info

Bibliothekarische Stimmen. Independent, täglich.

Datenüberflutung – wohin mit dem ganzen Zeug?