Definition: Widerstandsfähigkeit von Cloud-Plattformen Was ist Cloud-Resilienz?

Von Dipl.-Ing. (FH) Stefan Luber 5 min Lesedauer

Anbieter zum Thema

Cloud-Resilienz beschreibt die Widerstandsfähigkeit gegenüber Störungen und Problemen wie Hardwaredefekte, Softwarefehler, Cyberangriffe, Netzwerkausfälle oder Naturkatastrophen. Die Resilienz umfasst dabei alle Cloud-Komponenten und -Systeme wie Server, Speichersysteme, Netzwerke und Anwendungen.

Bei der Cloud-Resilienz geht es um die Vorhersage möglicher IT-Unterbrechungen in einem Unternehmen. Dazu gehört auch die Planung der Geschäftskontinuität sowie die Frage, wie wesentliche Cloud-Dienste aufrecht gehalten oder nach einem Ausfall möglichst schnell wieder bereitgestellt werden können.(Bild:  gemeinfrei © Gerd Altmann /  Pixabay)
Bei der Cloud-Resilienz geht es um die Vorhersage möglicher IT-Unterbrechungen in einem Unternehmen. Dazu gehört auch die Planung der Geschäftskontinuität sowie die Frage, wie wesentliche Cloud-Dienste aufrecht gehalten oder nach einem Ausfall möglichst schnell wieder bereitgestellt werden können.
(Bild: gemeinfrei © Gerd Altmann / Pixabay)

Eine resiliente Cloud reagiert robust auf Störungen und hält die wesentlichen Cloud-Dienste aufrecht oder stellt sie schnell wieder zur Verfügung. Neben der Performance, Sicherheit und Verfügbarkeit ist die Cloud-Resilienz eine wichtige Eigenschaft von Cloud-Umgebungen. Resilienz bedeutet Widerstandsfähigkeit, Widerstandskraft oder Belastbarkeit. Je höher die Resilienz, desto widerstandsfähiger ist die Cloud-Umgebung gegenüber möglichen Problemen und Störungen.

Eine resiliente Cloud-Umgebung ist in der Lage, bei Hardwaredefekten, Softwarefehlern, Cyberangriffen, Netzwerkausfällen, Naturkatastrophen oder anderen erwartbaren oder nicht vorhersehbaren Ereignissen die wesentlichen Cloud-Dienste aufrechtzuerhalten oder schnell wieder bereitzustellen und Datenverlust zu verhindern. Komplettausfälle werden vermieden. Die Resilienz umfasst alle Komponenten und Systeme einer Cloud-Plattform wie Server, Speichersysteme, Netzwerke, Software und Anwendungen.

Im Rahmen des Betriebskontinuitätsmanagements (Business Continuity Management) werden Strategien, Pläne und Maßnahmen entwickelt und umgesetzt, Eigenschaften wie die Resilienz positiv zu beeinflussen und dadurch Unterbrechungen der Geschäftsprozesse zu verhindern. Zur Stärkung der Widerstandskraft werden im ersten Schritt mögliche Probleme und Störungen identifiziert. Anschließend werden technische und organisatorische Maßnahmen getroffen, die es der Cloud-Plattform ermöglichen, robust auf die verschiedenen Ereignisse zu reagieren und den Weiterbetrieb der Cloud-Dienste sicherzustellen.

Technische Maßnahmen sind zum Beispiel verteilte Systeme, redundante Infrastrukturen und adaptive Systeme, die lernfähig und flexibel auf die unterschiedlichen Störungsszenarien reagieren. Immer öfter werden für die Cloud-Resilienz Verfahren der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) genutzt. Durch strukturiertes oder chaotisches Testen lässt sich die Cloud-Resilienz prüfen.

Grundsätzliche Eigenschaften resilienter Cloud-Plattformen

Die grundsätzlichen Eigenschaften resilienter Cloud-Plattformen sind:

  • Resiliente Cloud-Plattformen reagieren robust auf Störungen und Probleme und stellen den Cloud-Anwendern die benötigten Services weiterhin bereit.
  • Sie besitzen eine hohe Anpassungs- und Lernfähigkeit und reagieren flexibel auf verschiedene Probleme und Störungen.
  • Sie stellen den möglichst unterbrechungsfreien Weiterbetrieb der Cloud-Dienste sicher.
  • Sie verhindern Datenverlust durch eine schnelle und uneingeschränkte Wiederherstellbarkeit der Datenbasis.
  • Sie „erholen“ sich selbstständig von Ausfällen.
  • Sie sind widerstandsfähig gegen unterschiedliche Arten von Störungen und Problemen bis hin zu internen oder externen Cyberangriffen.

Warum Cloud-Resilienz immer wichtiger wird

Das Cloud Computing hat in den letzten Jahren kontinuierlich an Bedeutung gewonnen. Für Unternehmen ist es inzwischen normal, Anwendungen oder komplette IT-Umgebungen in öffentliche, private oder hybride Cloud-Umgebungen zu verlagern. Ressourcen, Anwendungen und Dienste werden nicht mehr in lokalen Unternehmensrechenzentren und auf On-Premises-Umgebungen bereitgestellt, sondern über Netzwerke wie das Internet aus der Cloud bezogen. Hinzu kommt, dass das mobile, ortsunabhängige Arbeiten mittlerweile ebenfalls zur Normalität geworden ist.

Das Internet und Cloud Computing liefern die technische Basis für diese Art des Arbeitens und die benötigten Services und Anwendungen. Daher ist die Verfügbarkeit der Cloud für die verschiedenen Geschäftsprozesse und für die Remote-Arbeit von hoher Bedeutung. Ein Ausfall einzelner Cloud-Dienste oder einer kompletten Cloud-Umgebung hat unmittelbaren Einfluss auf die betriebliche Kontinuität und stellt ein hohes Risiko für ein Unternehmen dar. Enorme finanzielle Verluste bis hin zur Gefährdung des Fortbestands eines Geschäftsmodells oder Unternehmens können die Folge einer unzuverlässigen Cloud sein.

Die Cloud-Resilienz ist ein wichtiger Puzzlestein der Digitalisierung und sorgt dafür, dass Cloud-Computing-Plattformen mit all ihren Komponenten robust auf unterschiedliche Ereignisse, Probleme und Störungen reagieren und den Weiterbetrieb der wesentlichen Cloud-Services für ihre Kunden sicherstellen.

Strategien und Maßnahmen zur Steigerung der Widerstandsfähigkeit von Cloud-Computing-Plattformen

Um Strategien und Maßnahmen zur Steigerung der Widerstandsfähigkeit von Cloud-Computing-Umgebungen zu entwickeln, sind zunächst die grundsätzlich möglichen Störungs- und Problemszenarien zu identifizieren. Fehlersituationen werden beispielsweise durch Hardwareausfälle, Softwarefehler, Konfigurationsfehler, Bedienfehler, Cyberangriffe, Naturkatastrophen oder Überlastungen verursacht. Auf Basis der identifizierten Szenarien lassen sich technische und organisatorische Maßnahmen zur Stärkung der Cloud-Resilienz ableiten. Wichtig ist in diesem Zusammenhang, dass auch nicht identifizierbare oder nicht vorhersagbare Problemszenarien im Maßnahmenkatalog Berücksichtigung finden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Für eine hohe Widerstandskraft der Cloud sind die grundsätzliche Architektur und das Design der Cloud-Computing-Plattform entscheidend. Durch ein redundantes, verteiltes Design lassen sich Single Point of Failures vermeiden. Die für die Bereitstellung der Cloud-Services eingesetzten Komponenten sind in sich redundant gestaltet oder mehrfach vorhanden. Beim Ausfall einer Komponente kann eine redundante Komponente übernehmen, ohne dass sich das negativ auf den Cloud-Service auswirkt. Cloud-Betreiber strukturieren ihre Plattformen beispielsweise in Regionen, bilden Verfügbarkeitszonen und schränken Problemsituationen durch lokale begrenzte Fehlerdomänen ein. Zur Vermeidung von Datenverlust werden Daten automatisch über verschiedene Cloud-Rechenzentren repliziert und regelmäßig gesichert. Folgen von Cyberangriffen lassen sich durch die Implementierung von Maßnahmen wie ein Anti-DDoS-Schutz minimieren.

Auch die Software und die Anwendungen sind so gestaltet, dass sie sich anpassungsfähig verhalten und flexibel auf verschiedene Ereignisse reagieren. Zur Steigerung der Anpassungs- und Lernfähigkeit kommen immer öfter Verfahren der künstlichen Intelligenz und des maschinellen Lernens zum Einsatz. Ziel der Maßnahmen ist es, Fehlersituationen schnell zu erkennen, möglichst unverzüglich und angemessen darauf zu reagieren und Wiederherstellungszeiten zu minimieren.

Eine weitere Strategie zur Stärkung der Cloud-Resilienz ist der Einsatz von Multi-Cloud-Szenarien. Die Nutzung von Cloud-Plattformen verschiedener Anbieter kann positive Auswirkungen auf die Cloud-Resilienz haben. Bestimmte Fehlerszenarien sind auf einzelne Provider und Plattformen beschränkt und wirken sich unter Umständen nicht auf die Bereitstellung der benötigten Cloud-Services aus. Dienste werden im Bedarfsfall von einer gerade nicht gestörten Cloud-Umgebung erbracht.

Zu den organisatorischen Maßnahmen zur Stärkung der Cloud-Resilienz zählen die Festlegung von Verantwortlichkeiten und Eskalationsmechanismen, das Bereithalten von Notfallplänen und regelmäßige Tests und Notfallübungen.

Verfahren zum Testen der Cloud-Resilienz

Die Widerstandskraft der Cloud kann durch strukturiertes, systematisches Testen oder zufälliges, chaotisches Testen geprüft werden. Grundsätzlich können Tests der Cloud-Resilienz sowohl von Cloud-Betreibern als auch von Cloud-Nutzern vorgenommen werden. Abhängig davon, wer den Test ausführt und wie die Cloud-Implementierung gestaltet ist, unterscheiden sich die Testabläufe.

Zuvor definierte Problem- und Störungsszenarien wie Stromausfälle, Netzwerkunterbrechungen, Hardwareprobleme, Anwendungsfehler, Cyberangriffe oder Überlastsituationen werden bewusst herbeigeführt und die Reaktion der Cloud sowie die Auswirkungen auf die Bereitstellung der Cloud-Dienste beobachtet. Durch die zufällige Kombination verschiedener Fehlerszenarien lassen sich unter Umständen bisher noch nicht identifizierte Störungsszenarien provozieren und die Verhaltensweisen der Cloud auf diese unvorhergesehenen Probleme beobachten.

Microservices, Cloud Native, REST API , Kubernetes & Co.: Cloud Computing Wiki

Definitionen rund um Cloud ComputingVon AWS bis XaaS: Alle relevanten Schlagworte aus dem Bereich Cloud Computing finden Sie verständlich erklärt in unseren Definitionen. Ganz im Sinne eines kleinen, aber feinen Glossars lesen Sie hier neutral verfasste und leicht verständliche Erklärungen zu den wichtigsten Begriffen. Als Service für Sie haben wir die hier erklärten Begriffe in unseren Beiträgen auch direkt mit den zugehörigen Lexikoneinträgen verlinkt. So können Sie die wichtigsten Erläuterungen direkt dort nachschlagen.  

Zum Special: Definitionen rund um Cloud Computing

(ID:48521985)