512Bit

Die Zahl gesammelter Daten steigt tagtäglich. Doch wächst mit ihr auch der Bedarf an einem geeigneten Speicher.

Die Rauminstallation «512Bit» thematisiert eine der großen Herausforderungen im globalen Informationszeitalter: das Speichern von riesigen Datenmengen über einen langen Zeitraum – eine Herausforderung, die sich zukünftig mit besonderem Nachdruck bemerkbar machen wird und daher nach unserer dringenden Aufmerksamkeit verlangt…

Big Data is a Big Problem

Das globale Informationszeitalter ist durch das Phänomen der «Big Data» gekennzeichnet: tagtäglich werden mehr und mehr digitale Daten kreiert, gekauft, verkauft und gehordet. Doch während der «Wert» der Daten mit ihrer Masse steigt, wird unser Vermögen des Analysierens, der Wartung, sowie des Sicherns und des Speicherns dieser Daten zunehmend beeinträchtigt.

Ein stetiges Wachstum der Datenmenge ist kaum überraschend. Schließlich gewinnt das Erstellen und Verbreiten digitaler Informationen zunehmend an Bedeutung. Doch ist hier nicht einfach nur an das alltägliche Daten-Konsumieren des Normalverbrauchers zu denken: moderne Technologien wie bsw. Autonomous Drive basieren zunehmend auf dem Sammeln, Verarbeiten und Speichern großer Datensätze. So bildet Big Data vor allem die Grundlage für eine unschätzbare Anzahl gegenwärtiger und zukünftiger Technologien, die einen immer effizienteren Umgang mit der Datenmasse erfordern.

Das allgemeine Datenwachstum, die zunehmende kommerzielle Anwendung, sowie der wisschenschaftliche und technologische Gebrauch digitaler Daten – all diese Faktoren fördern den Trend des zunehmenden Sammelns und Speicherns großer Datenmengen für einen langen Zeitraum. So stellt sich die Frage nach einem geeigneten Langzeitspeicher, denn herkömmliche Lösungen, wie wir sie aus den riesigen Datenhallen von Google, Microsoft oder IBM kennen, werden mit der stetig weiter anwachsenden Datenmasse zukünftig nicht mehr fertig werden.

Storage-Technology Scaling

Dann bauen wir einfach größere Datenhallen…
Ganz so einfach ist das Skalieren der gegenwärtigen Speichermethoden dann leider doch nicht, wenn man die beträchtliche Menge der zu speichernden Daten und die lange Speicherdauer bedenkt. Die heute weitgehend genutzten SSD-, HDD- und Band-Speicher haben mit steigender Inanspruchnahme hauptsächlich mit den Auswirkungen in den Bereichen der Wartung, Dichte und Energieversorgung zu kämpfen.

Wartung

Gegenwärtige Speichermethoden können – sofern sie in gutem Zustand gehalten werden – über Jahrzehnte erhalten bleiben. Dennoch verschleißen physische Datenträger mit der Zeit, weshalb eine ständige Wartung erfolgen muss: die Speichermedien müssen permanent überwacht werden, damit ihr Erhalt gewährleistet werden kann. Hinzu kommt, dass nicht nur das Medium, sondern auch sein jeweiliges «Lesegerät» altert: damit die Daten auch zukünftig abgerufen werden können, müssen sie stets auf die neuste Generation von Speichermedien überschrieben werden. Als Beispiel hierfür sei die Diskette (Floppy Disk) genannt, die heute nur denjenigen den Informationsabruf erlaubt, die über ein passendes Lesegerät verfügen.

Dichte

Die «mooresche Gesetzmäßigkeit» (Moore's Law) besagt, dass sich die Komplexität integrierter Schaltkreise mit minimalen Komponentenkosten regelmäßig verdoppelt; in der Regel ist hierbei von einem Zeitraum von 24 Monaten die Rede. In Bezug auf heutige Speichermedien bedeutet das, dass sich die Transistorenzahl pro Schaltreis und somit auch die Speicherkapazität alle zwei Jahre verdoppeln sollte. Doch obwohl sich diese Regel bisher größtenteils bewahrheiten konnte, ist ein absteigender Trend der Transistoren-Zahl festzustellen: früher oder später wird die maximale Dichte der herkömmlichen Speichermethoden erreicht sein, weshalb sich die Frage nach einer effizienten und skalierbaren Alternative stellt.

Energieeffizienz

Im Jahr 2018 beanspruchten Rechenzentren rund 1% der weltweite verbrauchten Elektrizität. Im kommenden Jahrzehnt könnte sich dieser Energieverbrauch verdreifachen; wenn nicht sogar vervierfachen. Falls sich die Energieeffizienz der verwendeten Speichertechnologien nicht verbessert, könnte der Energieverbrauch des Datenspeicherns so Schätzungen zufolge bereits im Jahr 2030 rund 3–13% der weltweit konsumierten Elektrizität beanspruchen.

Die gegenwärtigen Speichertechnologien werden zukünftig wohl nicht vollends verschwinden, denn trotz der hier genannten Limitierungen haben sie auch ihre Vorzüge (bsw. schnelle Schreibe- und Abruf-Zeiten). Dennoch stellen sie keine effiziente Methode für das zukünftige Langzeit-Speichern riesiger Datenmengen dar, weshalb ein einfaches Skalieren dieser Speichertechnologien nicht zweckmäßig erscheint.

Hot, Warm and Cold Data

Möchte man eine Lösung für das Speichern der exponentiell anwachsenden Datenmassen anbieten, ist zunächst die Hierarchie gespeicherter Daten zu erläutern: erst wenn sich herausstellt, welche Kategorie digitaler Daten zukünftig im großen Stil gespeichert werden muss, kann eine passende Methode implementiert werden.

Heisse Daten

Unter «heissen Daten» versteht man gespeicherte Informationen, auf die sehr häufig zugegriffen wird. Solche Daten werden heutzutage meist in SSD-Speichern aufbewahrt und sind mit einem sehr hohen Ressourcen- und Kostenaufwand verbunden.

Warme Daten

Unter «warmen Daten» versteht man gespeicherte Informationen, auf die regelmäßig, jedoch nicht ständig zugegriffen wird. Solche Daten werden heutzutage meist in HDD-Speichern aufbewahrt und sind vergleichsweise mit einem mittelmäßigen Ressourcen- und Kostenaufwand verbunden.

Kalte Daten

Unter «kalten Daten» versteht man gespeicherte Informationen, auf die nur sehr selten zugegriffen wird. Solche Daten werden heutzutage meist auf Band gespeichert und sind mit einem eher geringen Ressourcen- und Kostenaufwand verbunden.

Entscheidend für das Verstehen der zukünftig zu speichernden Daten ist, dass ein Trend des «data coolings» zu beobachten ist: die Menge «kalter Daten» mit seltenem Abruf scheint im Vergleich zu den anderen Daten-Kategorien schneller anzusteigen. So werden mehr und mehr Daten über eine längere Dauer gespeichert, ohne dass dabei mehr als 1% dieser Daten innerhalb von 90–120 Tagen nach ihrem Erstellen abgerufen wird. Damit wird der Bedarf an einem Ressourcen- und Kosteneffizienten Langzeitspeicher für selten abgerufene Daten bestärkt, der eine effektivere Skalierung als die gegenwärtigen HDD- und Band-Speicher erlauben sollte.

Die Antwort auf die Frage nach einem geeigneten Speichermedium verbirgt sich in unserer eigenen Codierung.

Auf der Suche nach einem geeigneten Langzeitspeicher, offenbart sich die DNA als Silberstreif am Horizont. Die in gegenwärtigen digitalen Speichertechnologien verwendete Sprache des Binärcodes mit der 4-Basen-Sprache der DNA verbindend, schlägt die Rauminstallation «512Bit» eine Brücke zwischen technologisch und biologisch basierten Speicherverfahren und lässt uns zugleich einen Blick auf die Lösung der Big-Data-Problematik werfen…

DNA-Data-Storage

Eine vielversprechende Möglichkeit, die Limitierungen traditioneller Speichermedien zu umgehen, ist die Technologie des «DNA-Storage»: die binäre Codierung digital formatierter Informationen auf die biologische «Hardware» – die durch 4 Basen codierte DNA-Sequenz – übertragend, lässt sich ein Langzeitspeicher schaffen, der die anwachsende Datenmasse zu bewältigen vermag.

Die DNA (auf Deutsch: DNS) ist der zuverlässige, genetische Informationen aufbewahrende Langzeitspeicher der Natur. Im Kontext des DNA-Storage ist jedoch nicht von biologischer, sondern synthetischer DNA die Rede: für das Erzeugen von synthetischen DNA-Speichermedien wird kein zelluläres, organisches, oder lebendiges Material benötigt, da die künstlich erzeugten Sequenzen aus den reinen «Basen-Bausteinen» (Adenin, Thymin, Guanin und Cytosin; RNA: Uracil) der DNA zusammengesetzt werden.

Das Unterfangen eines solchen Speicherverfahrens scheint anfangs umständlicher, als das Speichern von Daten in herkömmlichen Speichermedien. Doch bietet die Technologie des DNA-Storage einige Vorteile, die in ihrer Grundstruktur begründet sind und sie zu dem idealen Langzeitspeicher machen: DNA hat die einzigartige Eigenschaft, über viele Jahre, Jahrzehnte, Jahrhunderte, ja sogar Jahrtausende erhalten zu bleiben…

haltbarkeit

DNA kann über tausende von Jahren bei Raumtemperatur in einer trockenen Atmosphäre gelagert werden, ohne dabei zu verschleißen oder gar ganz zu zerfallen: die chemische Stabilität der Basen-Sequenz garantiert, dass die in der DNA-Struktur codierten Daten über eine lange Zeit erhalten bleiben. Damit stellt ein DNA-Speicher die optimale Langzeitlösung dar.

Wartung

Während traditionelle Speichermedien permanent überwacht und regelmäßig gewartet werden müssen, um den Erhalt gespeicherter Daten zu gewährleisten, wird bei DNA-Speichern davon ausgegangen, dass kaum Wartungen erforderlich sind. Die Wartung in DNA gespeicherter Daten ist zudem um einiges simpler und kosteneffizienter, was den Eigenschaften der DNA-Struktur zu verdanken ist.

Format-Unveränderlichkeit

Die molekulare Struktur der DNA als Speicher nutzend, wird »das« universelle Medium verwendet: was in dem Langzeitspeicher der Natur archiviert wird, ist so lange chemisch abrufbar, wie es Menschen gibt, die die gespeicherter Daten lesen können. Damit entfällt die Notwendigkeit der Datenmigration auf die neuste Generation von Speichertechnologien vollkommen.

Dichte

Bei dem Unterscheiden der Datendichte von herkömmlichen Speichern und DNA-Storage ist die Volumendichte zu vergleichen. Im Gegensatz zu traditionellen, zweidimensional agierenden Speichermedien, kann DNA viele verscheiden Formfaktoren annehmen und dreidimensional gelagert werden. Außerdem verfügt die DNA-Struktur über eine weitaus höhere Datendichte als moderne Transistoren, weshalb sie ein Vielfaches der Datenmenge in dem selben Volumen halten kann.

Energieeffizienz

Zu guter Letzt ist der marginale, bis kaum existente Energieverbrauch von DNA-Speichern zu nennen: Während gegenwärtige Datenhallen erhebliche Energiemengen verbrauchen, ist für den Erhalt von synthetischer DNA kaum Energie von Nöten. Auf diese Weise haben DNA-Speicher einen weitaus geringeren Einfluss auf die Umwelt, als herkömmliche HDD- oder Band-Langzeitspeicher.

Binary to DNA

Möchte man DNA-Storage als Speicherlösung für die derzeit erstellten und gesammelten digitalen Datenmassen verwenden, muss ein Übersetzen der binär codierten Daten in die «Basen-Sprache» der DNA und wieder zurück erfolgen. Dieses Übersetzungsverfahren, vom «Schreiben», über das Speichern, bis hin zum Abrufen digitaler Daten auf DNA-Datenträger, erfolgt in sechs Schritten:

1. Codieren

Um Informationen auf DNA-Sequenzeun zu «schreiben», müssen die Bits in DNA-Basen codiert werden: die Zeichen 1 und 0 der digitalen Daten werden auf die Basen übertragen, wobei eine Base zwei Binärzeichen halten kann. Somit trägt eine DNA-Base den Informationsgehalt zweier traditioneller Transistoren.

2. Synthetisieren

Die im ersten Schritt bestimmte Basen-Reihenfolge wird nun in die Form eines synthetisch hergestellten DNA-Strangs gebracht, sodass sie die Bits der ursprünglichen Daten widerspiegeln.

3. Speichern

Nach der Synthese wird die erzeugte DNA verwahrt und in mit Gas oder Chemikalien gefüllte Kapseln eingeschlossen. So wird die codierte DNA für eine lange Lagerzeit konserviert.

4. Bergen

Sollen die in der DNA gespeicherten Daten abgerufen werden, werden die konservierten Kapsel geborgen und die DNA-Sequenz entnommen.

5. Auslesen

In dem Verfahrensschritt des Auslesens wird die synthetische DNA erneut sequenziert: durch unterschiedlichste Methoden wird die Identität und Abfolge der Basen bestimmt.

6. Decodieren

Im letzen Schritt wird die ausgelesenen Basen-Sequenzen in einen linearen Strang gesetzt und in die ursprüngliche (binäre) Form der gespeicherten Daten übersetzt. Sobald der Schritt des Decodierens abgeschlossen ist, liegen die Daten wieder in ihrer digitalen Ursprunsform vor.

Eben diese Schritte des Umwandelns, das Übersetzen der binären Datenstruktur in die Form einer DNA-Sequenz und wieder zurück, werden in der Rauminstallation «512Bit» präsentiert: die binäre Seite digital codierter Daten mit der physisch-molekular begründeten, symbolisch dargestellten Seite der Basen-Sequenzen verbindend, wird der Translationsakt der DNA-Speichertechnologie erläutert…

Binary

Linke Innenseite der Installation

Die linke Innenseite der Rauminstallation repräsentiert die digitale, binär codierte Form der Datensätze.

In vier Kabelkanäle eingeschlossen, sind die in einer Kunststoffhülle ummantelten Kabel in zwei Gruppen unterteilt: getrennt durch die zwei unterschiedlichen Farben ihrer Ummantelung, repräsentieren sie jeweils ein Zeichen der binären Codierung (1 und 0). Auf diese Weise entspricht ein Kabel lediglich einem Binärzeichen und keinem (in gegenwärtigen Technologien vorfindbaren) Transistor. Es handelt sich viel mehr um eine abstrakte Darstellung der binären Sprache, die es bei der Translation digitalen Daten in die analoge Form der DNA-Struktur zu Übersetzen gilt. Ihren Ursprung nimmt diese Translation in den Öffnungen der Kabelkanäle, wobei die vier Stellen des Loslösens einzelner Kabel die vier Basen der DNA symbolisieren.

DNA

Rechte Innenseite der Installation

Die rechte Innenseite repräsentiert die «analoge», in molekulare Sequenzen codierte Form der Datensätze.

Die auf einer Stahlplatte befestigten, 3D-gedruckten Module sind in in vier Spalten mit je 16 Reihen angeordnet und repräsentieren die Basensequenzen der DNA. Jedes dieser Module besitzt dabei vier Öffnungen, in denen jeweils zwei Kabel der binären Seite Platz finden. Nachdem eine Base jeweils zwei Binärzeichen halten kann, kommt eines der Module vier codierbaren Basen gleich und ist somit in der Lage, ein Byte (1 Byte sind 8 Bit: die benötigte Anzahl für das Codieren eines alphanumerischen Zeichens) an Informationen zu speichern. So ergibt sich aus dieser Anordnung der Name der Rauminstallation: insgesamt 64 Module mit einer Speicherkapazität von insgesamt 64Byte ergeben umgerechnet 512Bit an Speicherplatz.

So lassen sich in der dargestellten Übersetzung Daten in der Größe von 512Bit (umgerechnet 64Byte) speichern, was dem Halten einer «Botschaft» in der Größe von 64 alphanumerischen Buschtaben gleichkommt. Das dies – bezogen auf die Problematik der Big Data – eine minimale Speicherkapazität darstellt, steht außer Frage. Doch bedient sich die Rauminstallation einer Illusion, die 512Bit wie Abermillionen an Terabytes erscheinen lassen kann…

Jeder weiss was passiert, wenn man zwei Spiegel gegenüber hält: der Raum zwischen den Spiegeloberflächen wird in die (scheinbare) Unendlichkeit wiederholt…

Eben dieser Illusion bedient sich die Rauminstallation:
Auf der Rückseite des Innenraumes ist ein Spiegel angebracht, der durch einen komplementären Speiegel auf der Vorderseite ergänzt wird. Bei diesem zweiten Spiegel handelt es sich jedoch um einen Transparentspiegel (Spionspiegel), der das einseitige Durchblicken der Oberfläche erlaubt. Das nötige Licht für den Effekt der Spiegelung wird über Lichtpanele an der Decke und dem Boden des Raumes eingeführt. So gleicht die «Installations-Box» einer Vitrine, deren Innenraum einseitig in die Länge gezogen wird.

Damit wird die zwischen den zwei gegenüberliegenden Außenseiten stattfindende Translation an die Rückseite der Installation projiziert: sie bildet einen sich stetig wiederholenden Gang, der mit der langsamen Absorption der hin und her reflektierten Lichtstrahlen sein Ende nimmt. Damit wird zwar die immer gleiche gespeicherte «Botschaft» wiederholt… die dargestellte Speicherkapazität der Installation erhöht sich jedoch ins (wortwörtlich) Unermessliche.

Die Gestalt eines geschlossenen Quaders annehmend, ermöglicht die Rauminstallation den Blick in eine illusionistische Zukunft der Speichertechnologien, die schon bald Wirklichkeit werden könnte: in den komplementären Seiten ihres Innenlebens, die den komplementären Strängen der Doppelhelix gleichen, verbirgt sich der Traum DNA basierter Datenhallen – ein Traum, der bei dem Überwinden der Big Data Hoffnung verspricht und in den Forschungseinrichtungen großer Tech-Unternehmen schon heute in Erfüllung geht…