Online-Umfrage zum CeBIT-Kompendium „Backup & Recovery“ von SearchStorage.de, Teil 3 Das Prinzip Hoffnung stellt keine Backup-Strategie dar

Autor / Redakteur: Olaf Dany / Nico Litzel

In Kürze erscheint das Kompendium „Backup & Recovery“ von SearchStorage.de. Die Redaktion hat im Vorfeld Backup-Spezialisten nach ihrer Einschätzung zu aktuellen Trends gefragt. Hier sind die Antworten von Olaf Dany, EMEA Channel Account Executive bei Mozy.

Firma zum Thema

Olaf Dany, EMEA Channel Account Executive bei Mozy
Olaf Dany, EMEA Channel Account Executive bei Mozy
(Foto: Mozy)

SearchStorage.de setzt die erfolgreiche Kompendien-Reihe fort. Die nächste Ausgabe widmet sich den Themen Backup, Disaster Recovery und Archivierung und wird zur CeBIT 2013 (5. bis 9. März, Hannover) in gedruckter Form erscheinen (hier geht es zum PDF-Archiv vorangegangener Ausgaben). Wir haben Olaf Dany, EMEA Channel Account Executive bei Mozy, nach seinen Einschätzungen zum Thema Backup befragt.

SearchStorage.de: Warum sind Backup-Konzepte wie Grandfather-Father-Son (GFS) oder Tower of Hanoi (TOH) heutzutage nicht mehr sinnvoll anzuwenden?

Dany: Kurz gesagt liegt dies daran, dass immer mehr Unternehmen von Bandspeicherlösungen abrücken und damit die Notwendigkeit komplexer Schemata für die Bandrotation entfällt.

Die einschlägigen Marktdaten zeigen klar einen Umstieg der Anwender von Tapes auf dedizierte Backup-Systeme. Nach Erhebungen von IDC wird der Markt für Bandspeicher im Zeitraum 2011 bis 2015 jährlich um durchschnittlich 0,7 Prozent schrumpfen. Verglichen damit werden dedizierte Backup-Systeme im selben Zeitraum um mehr als 21 Prozent zulegen.

Mit Basistechnologien wie Deduplizierung als Bestandteil von dedizierten Backup-Systemen sind vollständige Tagessicherungen möglich und ermöglichen bessere Zielvorgaben für Wiederherstellungspunkte und -zeiten (RPO und RTO), als dies mit Bandspeicherlösungen machbar war.

Für Kunden, die immer noch Bandspeicher einsetzen, hat die Weiterentwicklung der Backup-Technologie dazu geführt, dass Konzepte wie GFS an Bedeutung verlieren. GFS-Backup-Konzepte basieren darauf, dass jede Woche eine Vollsicherung durchgeführt wird, die dann durch inkrementelle Tagessicherungen ergänzt wird. Durch den Einsatz synthetischer Backups ist es möglich, jeden Tag eine vollständige Sicherung vorzunehmen, sodass die Notwendigkeit, derart viele Backup-Kopien auf Band vorzuhalten, reduziert wird.

Diejenigen Kunden, die aus irgendwelchen Gründen noch Daten auf Bändern sichern müssen, wer-den wahrscheinlich nur einmal im Monat – oder höchstens einmal pro Woche – Kopien auf Band-speichern erstellen. Darüber hinaus sind komplexe mathematische Gleichungen wie TOH, die für die Verwaltung der Bandrotation notwendig sind, ein weiterer Anreiz, auf einfachere Lösungen umzusteigen, die mit dedizierten Backup-Systemen geboten werden.

Kontinuierliche Snapshots oder differenzielle Images scheinen das Backup-Konzept für moderne IT-Umgebungen zu sein. Stimmt das oder zeichnen sich Alternativen ab?

Dany: Snapshots sind kein Ersatz für Backup. Wenn irgendwelche Abhängigkeiten von der primären Kopie vorhanden sind, um den Datenbestand wiederherzustellen, dann liegt kein echtes Backup vor. Für Snapshots gilt eine ganze Reihe von Einschränkungen. Dazu gehören unter anderem:

Snapshots eignen sich nicht für Disaster Recovery, weil sie auf demselben Speichersystem wie die Primärdaten gespeichert werden. Deshalb sind Snapshots für kaskadierende Datenfehler und -verluste anfälliger. Für ein Backup trifft dies nicht zu.

Snapshots beanspruchen Kapazität auf dem primären Speichersystem, weil sie eben – wie die Produktionsdaten – auf demselben Speichersystem residieren. Durch die Auslagerung der Backup-Daten von dem für Produktionszwecke verwendeten Speichersystem können die Kunden Datenkopien in größerem Umfang und auch längere Zeit auf dedizierten, untergeordneten Speichersystemen vorhalten.

Snapshots haben negative Auswirkungen auf alle Anwendungen und virtuellen Maschinen (VM), die gemeinsam auf ein Volume zugreifen. Sofern Sie auf Arrays basierende Snapshots nutzen, um beispielsweise einen VMware-Datenspeicher zu sichern, müssen alle virtuelle Maschinen gestoppt, das heißt, eingefroren werden, und zwar auch dann, wenn nur einige der virtuellen Maschinen in die Backup-Richtlinie einbezogen sind. Wenn virtuelle Maschinen sich jedoch in einem stillgelegten Zustand befinden, führen sie nicht ihre vorgesehene Funktion aus. Das Backup von auch nur einer virtuellen Maschine wirkt sich also nachteilig auf alle VMs aus, die den Datenspeicher gemeinsam nutzen.

Spricht eigentlich die Datentransferrate des Internets beim Online-Backup gegen das Backup in der Cloud? Wie würden Sie Einsatzszenarien definieren?

Dany: Die Deduplizierung von Datenbeständen hat enorme Auswirkungen auf die Nutzung vorhandener Bandbreiten, um Backup-Daten zu übertragen. Da lediglich die geänderten Daten über das Netz übertragen werden, kann die Deduplizierung den Bandbreitenbedarf um bis zu 99 Prozent senken. Somit ist es mit der Deduplizierung der Daten möglich, Backups – unter Einbeziehung verteilter und entfernter Standorte – in einem zentralen Rechenzentrum zu konsolidieren. In der Vergangenheit stellte die Übertragungsbandbreite des Netzes in vielen Ländern (insbesondere in Schwellenländern) und für kleinere Unternehmen ein Hinderungsgrund dar.

Für viele Szenarien mit Desktop- / Laptop-Umgebungen reichen die typischen Internet-Übertragungsraten für die vorgesehenen Zwecke vollkommen aus. Einschränkungen treten erst dann auf, wenn anfängliche Sicherungsläufe größere Datenbestände umfassen (z. B. Backup von File- und Mail-Servern). Nachdem das erste Backup jedoch durchgeführt worden ist, sind die Bandbreiteneinschränkungen für nachfolgende inkrementelle Sicherung nicht mehr so relevant.

Service Provider haben überdies Konzepte entwickelt, um das erste Backup schneller abzuwickeln, ohne ihre Bandbreitenrichtlinien zu ändern. Einige Lösungen wie etwa Mozy bieten auch einen Zubringerdienst an. Dabei erfolgt das anfängliche Backup vor Ort auf ein externes System, das anschließend zu dem Anbieter transportiert wird. Dort werden die Daten direkt in die Server des Rechenzentrums eingelesen. Nach der Verarbeitung des ursprünglichen Datenbestandes werden die Änderungen, die während des Prozesses aufgetreten sind, nachgeführt.

Es gibt Situationen, in denen umfangreiche Änderungen an dem gesicherten Datenbestand vorgenommen werden müssen und dies durch Bandbreiteneinschränkungen beeinträchtigt werden kann. In diesen Fällen kann wiederum der Zubringerdienst herangezogen werden, um die Nachführung der Änderungen zu beschleunigen. Die Kunden sollten sich darüber im Klaren sein, dass Bandbreiteneinschränkungen an beiden Enden des Prozesses auftreten können und deshalb die zulässigen und akzeptierten Übertragungsraten auf beiden Seiten kennen.

Glaubt man dem Marketing, dann ist das Disaster Recovery in wenigen Minuten erledigt. Bitte erläutern Sie, welche Vorgaben dafür erfüllt sein müssen und ob diese Aussage auch beim Austausch des Host-Rechners gilt.

Dany: Das Thema Disaster Recovery (DR) kann unter zwei Gesichtspunkten betrachtet werden – nämlich einerseits der Schutz der Daten und Anwendungen gegen katastrophale Ausfälle und andererseits die Wiederherstellung der eigenen Daten und Anwendungen nach einem katastrophalen Ausfall. Jedes dieser beiden Ziele lässt sich in wenigen Minuten nur selten vollständig erreichen.

Die Replikation der Inhalte, die auf dem primären Speicher residieren, wird häufig von Kunden durchgeführt, um für die kritischsten Datenbestände eine DR-Lösung zu implementieren. Dabei kann die Replikation – abhängig von der verfügbaren Bandbreite und der geografischen Entfernung – synchron oder asynchron ablaufen.

Wie ich bereits erläutert habe, ermöglicht die Deduplizierung eine Replikation von Backups, sodass diese Backups auch an einem Ausweichstandort in geraumer Entfernung von dem Hauptrechenzentrum gespeichert werden können. Die anfängliche Replikation sämtlicher Backup-Daten von beziehungsweise zum Rechenzentrum kann einige Tage in Anspruch nehmen, anschließend jedoch kontinuierlich und nach Maßgabe des Backup-Konzeptes des Kunden durchgeführt werden.

Die Wiederherstellung nach einer Störung kann dann mit minimalen Beeinträchtigungen für die Endbenutzer erfolgen, indem einfach von einem Rechenzentrum auf das an einem anderen Standort liegende Ausweichrechenzentrum umgeschaltet wird. Heute stellen Daten und Anwendungen jedoch oft nur den kleineren Teil des Problems dar, weil die Benutzer mangels verfügbarer Stromversorgung und Netze in der Regel daran gehindert werden, auf die Daten zuzugreifen.

Der Trend zur Virtualisierung, auf deren Grundlage virtuelle Maschinen schnell an anderen Standorten hochgefahren werden können, führt eindeutig zu einer enormen Verringerung des Zeitaufwands, der sonst für das Recovery nach einem katastrophalen Ausfall benötigt wird.

Was spricht dagegen, Langzeit-Backup und Archivierung gleichermaßen per Backup-Software zu verwalten?

Dany: Das liegt schlichtweg daran, dass Backup und Archivierung zwei Paar verschiedene Schuhe sind. Die Backup-Software verwendet eine Kopie der Daten, um diese nach einer Störung wiederherzustellen, aber diese Datenkopie ist immer noch in der Produktionsumgebung vorhanden. Backups sind temporär, nur kurze Zeit vorhanden und werden in regelmäßigen Intervallen überschrieben.

Die Archivierungssoftware erfasst den primären Datenbestand und speichert ihn in einem manipulationssicheren Archiv. Dieses Archiv enthält dann die einzige Version der Daten, sobald diese einmal aus der Produktionsumgebung entfernt worden sind. Archivierte Daten werden erst gelöscht, wenn die Aufbewahrungsfrist abgelaufen ist.

Daher unterscheiden sich die Interaktionen zwischen Benutzern und Backup-Daten einerseits und archivierten Daten andererseits. Ein archivierter Datenbestand ist wegen der gesetzlichen Offenlegungspflichten und vom Standpunkt der Produktivität von Endbenutzern, die bestimmte Daten in dem Archiv suchen und abrufen wollen, sinnvoll.

Mittels Metadaten und Hashing-Algorithmen kann nachgewiesen werden, dass die Daten in einem Archiv seit dem Zeitpunkt, an dem sie von dem Produktionssystem übernommen wurden, nicht geändert worden sind. Sieht man einmal von Notebooks und PCs ab, so werden nahezu alle in einem Backup gesicherten Daten von einem Administrator bei Bedarf wiederhergestellt und stehen den Endbenutzern nicht für Such- und Abrufvorgänge zur Verfügung.

Warum wird LTFS, das Linear Tape File System, die Backup-Welt nicht verändern?

Dany: Die Antwort darauf ist ähnlich wie die Antwort zur ersten Frage: Der Grund dafür liegt darin, dass die meisten Unternehmen sich von Bandspeicherlösungen verabschieden und dedizierte Speichersysteme bevorzugen. Bandspeicher im LTFS-Format und die zugehörige Software bieten gewisse Vorteile, weil die Dateien über das Dateisystem leichter zugänglich sind. Allerdings lösen sie nicht die mit Bandspeichern verbundene Gesamtproblematik.

LTFS kann hilfreich sein, wenn riesige Mengen von Daten gespeichert werden müssen, funktioniert aber nicht gut in Verbindung mit der Deduplizierung der Daten. Dies bedeutet, dass der gesamte Datenbestand bei jedem Backup übertragen werden muss und unterschiedliche Backup-Pläne wie GFS sowie komplexe mathematische Gleichungen für die Bandrotation erforderlich werden. Die Deduplizierung, das heißt, die Identifizierung und Eliminierung redundanter Daten vor der Speicherung, schlägt in der Backup-World zweifellos viel größere Wellen, sodass es nur ein geringes Interesse für eine auf Bändern basierende Technologie wie LTFS gibt.

Wieso brauchen wir nun auch noch die objektorientierte Speicherung von Daten? Hat das Auswirkungen auf Backup- und / oder Archivierungs-Konzepte?

Dany: Die Datenbestände werden nie alle in dem gleichen Format vorhanden sein. Zwar lassen sich die meisten Daten problemlos abspeichern, komprimieren und deduplizieren, doch eignen sich einige Datentypen nicht für diese Form der Speicherung und Komprimierung. Daher gibt es einen Bedarf an alternativen Speicherungsformen. Überdies wird die Speicherung der Daten zunehmend mehr in die Ursprungsanwendung, welche diese Daten überhaupt erzeugte, integriert. Derzeit werden Datenbanken entwickelt, die zum Beispiel am besten funktionieren, wenn sie auf einer Speicherplattform aufsetzen, die wiederum auf der Grundlage einer objektbasierten Speicherung beruht.

Zu den weiteren Vorteilen einer objektorientierten Speicherung für Backup und Archivierung gehören unter anderem:

Skalierbarkeit: Das Speicherungsmodell für die objektorientierte Speicherung ist so beschaffen, dass man damit viel größere Datenmengen abspeichern kann, weil es bei ihm die Belastung durch die Datei- und Containerhierarchie der traditionellen NAS- oder SAN-Blockspeicherung nicht gibt. Eine Organisation kann damit mehr Daten online zur Verfügung stellen.

Erweiterte Metadaten: Es ist sehr einfach, die mit dem Objekt verbundenen Metadaten zu erweitern. Allerdings stellt das einen vor viel größere Herausforderungen. Allerdings wird das von den Anwendungen unterstützt, welche die Dateien bei der herkömmlichen Speicherung erzeugen. Die Erweiterung der Metadaten ist ein Bestandteil des Protokolls für die objektorientierte Speicherung. Daten, die sich in einem Archiv oder einem Backup befinden, lassen sich so viel leichter klassifizieren.

Eingebaute Redundanz: Die objektorientierte Speicherung erfüllt die Ziele einer „hohen Verfügbarkeit“ und „Redundanz“, indem sie – auf der Grundlage entsprechender Richtlinien – mehrere Kopien auf mehreren Knoten anlegt. Der Bedarf an einer Replikation schrumpft damit, und die Komplexität der IT-Infrastrukturen wird ebenfalls geringer.

Cloud: Die Entscheidung zugunsten der Cloud erfolgt wegen der Art und Weise, wie die Daten gespeichert werden, sowie der eingebauten hohen Verfügbarkeit. Die Datenbestände residieren, zerlegt in Stücke, überall, und es ist möglich, von jedem Standort aus auf sie zuzugreifen – selbst außerhalb der Firewall. Die objektorientierte Speicherung nutzt die RESTful API; Aufrufe erfolgen über HTTP (anstelle TCP/IP), sodass sie in der Regel niemals gegenüber der externen Welt preisgegeben werden. Diese Art von globalem Zugriff ist für die Archivierung besonders verlockend: Es genügt eine einzige Implementierung der Archivierungslösung, aber es ist möglich, von jedem Punkt der Welt auf diese zuzugreifen.

Big Data ist in aller Munde. Zukünftige ERP-Datenbanken werden vielleicht vollständig auf PCIe-Speicherkarten laufen. Welchen Einfluss hat diese neue, mit kurzen Latenzzeiten agierende Speicherarchitektur auf die Backup-Software und Backup-Infrastruktur?

Dany: Wenn überhaupt, verstärkt ein solches Szenarium nochmals die Notwendigkeit eines Wandels im Bereich der Backup-Technologie mit dem Ziel, größere Datenmengen zu unterstützen und Backups in möglichst kurzer Zeit durchzuführen.

In diesem Zusammenhang ist die Deduplizierung der Datei ein Schlüsselfaktor und zugleich eine der Grundvoraussetzungen für diesen Wandel. Dazu kommt ein dediziertes Backup-System mit Funktionalität, die für das „Abspeichern in letzter Instanz“ notwendig ist. Backups dienen der Wiederherstellung der Daten nach einer Störung. Eine der Beschränkungen von Bandspeichern besteht in ihrer begrenzten Haltbarkeit und Zuverlässigkeit. Dagegen enthält ein dediziertes Backup-System Prüfroutinen, um sicherzustellen, dass Backups ordnungsgemäß abgeschlossen worden sind; dieses führt kontinuierlich Prüfungen der Datenintegrität durch.

In einer Welt, in der immer mehr Daten erzeugt und diese mit zunehmend höheren Geschwindigkeiten durch die Netze transportiert werden, ist die evolutionäre Weiterentwicklung der Backup-Technologie ein Muss. Das Prinzip Hoffnung stellt dabei keine Strategie dar. Die Backup-Technologie muss zuverlässig und ausgereift sein, sodass Recovery-Anforderungen sofort unterstützt werden können.

(ID:38146990)