Worauf es bei Cloud-Ausfällen ankommt

Wo sind all die Dienste hin? Worauf es bei Cloud-Ausfällen ankommt

16.10.2018Autor / Redakteur: Mathias Wenig* / Florian Karlstetter

Flexibel, skalierbar und kostengünstig: Die Dienste der Cloud-Giganten wie Amazon, Google oder Microsoft haben hunderttauende Kunden in Europa überzeugt. Aber was passiert, wenn deren Cloud-Infrastruktur ausfällt?

Anbieter zum Thema

Cloudgermany.de GmbH

STACKIT - Schwarz Digits Cloud GmbH & Co. KG

Yorizon GmbH & Co. KG

Veritas Technologies LLC

Wie sich Workloads schnell und automatisiert nach einem Cloud-Ausfall verlagern lassen.
(Bild: Veritas)

Die Cloud ist in den meisten deutschen Firmen Alltag. So nutzen 75 Prozent der deutschen Unternehmen einen Provider, 67 Prozent haben bereits zwei und 42 Prozent sogar drei Cloud-Dienstleister unter Vertrag. Dies zeigt die Truth in Cloud Studie von Veritas. Die Dienstleister haben zurecht einen ausgezeichneten Ruf, was die Verfügbarkeit ihrer Dienste betrifft. In den vergangenen Jahren sind ihre Dienste nur sehr selten und dann nur kurz komplett ausgefallen. Trotzdem bleibt ein Restrisiko, das umso stärker ins Gewicht fällt, je wichtiger die Dienste der Unternehmen sind, die auf der Cloud laufen. Es ist deshalb wichtig, dass IT-Verantwortliche wissen und verstehen, wo Gefahren lauern und wo die Verantwortlichkeiten liegen.

Die Provider selbst handeln nach einem Shared Responsibility Modell, bei dem immer ein Teil der Verantwortung beim Kunden liegt. So bleibt der Kunde immer für seine Daten und deren Compliance verantwortlich. Werden Daten korrumpiert oder gehen verloren, liegt die Verantwortung aufseiten der Kunden, diese aus einem eigenen Backup zu rekonstruieren.

Bildergalerie

Das ist auf Firmenseite noch zu wenig in den Köpfen mancher IT-Leiter verankert, denn weitere Ergebnisse der Veritas Studie zeigen: 83 Prozent der deutschen Firmen, die IaaS nutzen oder dies planen, sehen die Verantwortung für Datensicherung in der Cloud bei den Cloud Service Providern. Und 69 Prozent sind fest überzeugt, dass sie die Verantwortung für Datensicherheit, Datenschutz und Compliance an ihre Cloud Service Provider delegieren können. Wer mit den Daten seinen Teil der Verantwortung in die Cloud schiebt, ist für den Ernstfall schlecht oder gar nicht vorbereitet.

Auch in Fragen der Hochverfügbarkeit ist manchem IT-Leiter nicht klar, was die Cloud Provider abdecken und was ein Unternehmen selbst tun muss. So geben die Public-Cloud-Dienstleister klare und strenge Garantien für ihre Service Level ab, diese beziehen sich aber meistens nur auf die Verfügbarkeit der Infrastruktur in der Cloud. Fällt sie aus, müssen die Provider sie wieder zum Laufen bringen. Doch danach liegt es an Kunden, die darauf laufenden Dienste und Anwendungen selbst wieder in Betrieb zu nehmen. Je komplexer die Anwendungen strukturiert sind und je mehr Daten während des Ausfalls verloren gehen, desto länger wird die Wiederherstellung der kritischen Applikationen dauern. Oft nutzen die IT-Abteilungen für diese Aufgabe isolierte Tools und manuelle Prozesse, ohne Automatismen. Da geht im Ernstfall wertvolle Zeit verloren, die sich dann in teurer Downtime der wichtigen Dienste manifestiert.

Testen im laufenden Betrieb

Die Wiederherstellung der Daten und Dienste nach einem Cloud-Ausfall ist dann schwer beherrschbar und wird unkalkulierbar. IT-Leiter können ein klares Zeichen setzen, wenn sie diese wichtigen Prozesse professionalisieren. Für diesen Zweck gibt es Lösungsansätze wie die Business-Continuity-Plattofrm „Resiliency Platform“ von Veritas. Sie helfen dabei, mehrstufige Applikationsarchitekturen und ihre Verfügbarkeit rund um die Uhr zu kontrollieren, den Ausfallprozess zu testen und den Failover-Prozess im Ernstfall mit einem Mausklick automatisch und kontrolliert abzuwickeln.

Solche Konzepte müssen sich eng an die Infrastruktur der führenden Cloud-Anbieter ankoppeln, um nahtlos von einer Cloud-Infrastruktur auf eine andere oder auf ein lokales Rechenzentrum des Kunden umschalten zu können. Dafür nutzen sie deren Protokolle, Dienste und Data Mover und sind von den wichtigen Cloud Providern entsprechend zertifiziert. Sie sind daher auch in der Lage, die Struktur der Applikationen sowohl on premises als auch in der Cloud automatisch und mit geringer Fehlerquote per Autodiscovery zu erfassen, zu verstehen und die zu sichernden Applikations-Elemente so zu identifizieren. Die IT-Abteilung wird entlastet und es ist weniger wahrscheinlich, dass ein essenzieller Teil einer mehrstufigen Applikation übersehen wird.

Die Ergebnisse der Autodiscovery laufen in einer zentralen grafischen Oberfläche und einem Dashbard zusammen. Dort kann der IT-Verantwortliche, die Ergebnisse des gesamten Disaster-Recovery-Prozesses überblicken und per Drag & Drop modellieren. Im nächsten Schritt kann er einen großen Vorteil einer solchen übergreifenden Instanz ausspielen – das Testen des gesamten Vorgangs, ohne den Betrieb zu stören.

Per Mausklick lassen sich belastbare Werte in der Praxis ermitteln, wie lange der gesamte Umschaltprozess dauert, wie viele Produktiv-Daten verloren gehen. Der Ernstfall wird auf einmal berechenbar und kalkulierbar. Den zweiten großen Vorteil spielen solche Business-Continuity-Plattformen dann im Ernstfall aus – ihren Automatismus, der in der Krisensituation den komplexen Failover-Prozess automatisch abwickelt, und zwar nach den vorher im Test gemessenen Kriterien für die Dauer und die Menge der Daten, die während der Umschaltzeit verloren gehen könnten. IT-Leiter wissen nun, wie lange es dauert, wichtige Geschäftsanwendungen wiederherzustellen. Denn sie können mit Werten, die unter realen Bedingungen ermittelt wurden, den Ernstfall beschreiben.

Wissen was zu tun ist

Es ist gut , wenn IT-Leiter die Folgen eines Cloud-Ausfalls genau verstehen und sich darüber im Klaren sind, dass die Wiederherstellung nach dem Ausfall nur gemeinsam mit dem Cloud Service Provider zu stemmen ist. Richten Unternehmen für ihre Anwendungen bereits im Vorfeld entsprechende Ausfallmechanismen für die Multi-Cloud ein, haben sie im Ernstfall nicht nur die volle Verantwortung, sondern auch die volle Kontrolle über die Wiederherstellung ihrer kritischen Services. So reduziert der IT-Leiter Ausfallzeiten, einen Vertrauensverlust auf Kundenseite und damit finanzielle Schäden.

Der Autor: Mathias Wenig, Senior Manager TS und Digital Transformation Specialist bei Veritas.

(ID:45494931)