Suchen

Systematisches Testen für mehr Cloud-Resilienz Belastbare Cloud durch Chaos-Testing

Autor / Redakteur: Andrea Hendrickx* / Elke Witmer-Goßner

Seit der COVID-19-Pandemie arbeiten noch immer viele Arbeitnehmer im Homeoffice. Dass der Wechsel vom Büro an den heimischen Schreibtisch mehr oder weniger störungsfrei möglich war, verdanken wir modernstem Cloud Computing.

Firmen zum Thema

Ausführliche, kontinuierliche Tests, begleitet von „chaotischen“ Testszenarien schaffen belastbare IT-Systeme in Unternehmen.
Ausführliche, kontinuierliche Tests, begleitet von „chaotischen“ Testszenarien schaffen belastbare IT-Systeme in Unternehmen.
(Bild: gemeinfrei© ThePixeman / Pixabay )

Wie würde ein Lockdown ohne die Cloud aussehen? Lebensmittel- und Online-Bestellsysteme würden wahrscheinlich in unregelmäßigen Abständen ausfallen – abhängig von den Servern der eigenen Rechenzentren. Streaming-Dienste würden ruckeln und wären zur Prime Time am Abend nur partiell verfügbar. Wichtiger persönlicher und beruflicher Austausch könnte nur mit Hilfe von Sprachanrufen und E-Mails stattfinden, statt auf wertvolle Collaboration-Anwendungen, Videokonferenzen oder dynamische soziale Medien verlässlich zuzugreifen. Viele Unternehmen blieben schlicht und einfach geschlossen.

Und welche Auswirkungen hätte der Ausfall einer Cloud? Dies könnte das Ende von remote arbeitenden oder dezentral organisierten Teams sein, das Ende vom Homeoffice. Datenübertragungen gingen verloren und dort wo Leben von schneller und verlässlicher IT abhängig ist, bei Notfalldiensten, die gerade aktuell mit einer zunehmend größeren Nachfrage konfrontiert werden, wären die für die Bearbeitung notwendigen Kapazitäten völlig unzureichend im Falle eines Cloud-Wegfalls.

Aktuell arbeiten medizinische Forschungsteams weltweit mit Hochdruck an der Erforschung des COVID-19-Virus. Ohne die Cloud könnten die Teams weder Forschungsergebnisse noch Daten zum neuartigen Virus schnell und sicher austauschen – alle Bemühungen, den Virus zu behandeln und zu heilen, wären verzögert und verlangsamt. Dies wiederum hätte weitreichende Folgen für die gesamte Weltbevölkerung und somit auch für die Wirtschaft und Gesellschaft.

Von wegen nur „wolkig“

Man kann fast sagen: Die Cloud wurde zur rechten Zeit entwickelt, um uns in unserer aktuellen Notlage zu unterstützen. Das Konzept und das fundamentale System des Cloud Computings gibt es allerdings schon seit über 50 Jahren. In den vergangenen zwanzig Jahren entwickelten sich dann die ersten beliebten und praktischen Cloud-Anwendungen, darunter fallen unter anderem die Anfänge von Salesforce.com oder modernere webbasierte Unternehmensapplikationen wie die G Suite von Google oder Office 365 von Microsoft. Besonders die unkomplizierte Benutzbarkeit führte zum schnellen Erfolg und dem breiten Einsatz dieser relativ neuen Tools. Doch hinter diesen Anwendungen verbirgt sich ein verblüffend komplexer Unterbau, der vollständig verstanden und kontinuierlich getestet werden muss, damit er sich stabil und skalierbar aufrechterhalten lässt.

Die Cloud hat momentan einen schwierigen Stand: Erst Anfang Juni 2020 erlebte IBM einen rund zweistündigen Cloud-Ausfall. ThousandEyes, ein Unternehmen für das Monitoring von Netzwerken, vermutete öffentlich, dass der Ausfall auf ein Problem in der Steuerungsebene zurückzuführen sei – und weniger auf einen physikalischen Defekt wie etwa einen Glasfaserbruch oder Defizite bei einem Router. Die Kapazitäten von Microsofts Azure Cloud Data Center in Europa zeigten beispielsweise einige Schwächen, nachdem die Unternehmen der Region auf Remote-Arbeit und eine umfangreichere Nutzung von Kommunikations- und Kollaborationsplattformen wie Teams umstellten. Um dem entgegenzuwirken, schränkte Microsoft den Zugang zu kostenlosen und Probe-Accounts zweitweise ein. Auch die Kubernetes-Plattform von Google Cloud mit ihren Netzwerkdiensten war in Teilen der Ostküste der USA am 29. Juni für einige Stunden nicht erreichbar.

Vom Chaos zum ordnungsgemäßen Betrieb

Um einen Cloud-Ausfall zu vermeiden, benötigen Organisationen eine resiliente Cloud-Struktur – möglich wird dies durch ausführliche, kontinuierliche Tests, begleitet von „chaotischen“ Testszenarien.

Herkömmliche Testprozesse stellen sicher, dass wichtige Applikation, die in die Cloud migriert wurden, dort korrekt laufen. Dies ist eine bewährte Art und Weise, um zu überprüfen, dass Cloud-Systeme dem geplanten Design entsprechen und dass die Leistung von Applikationen stabil bleibt. Herkömmliche Tests berücksichtigen allerdings keine unerwarteten Situationen.

Um hier mehr Sicherheit zu gewinnen, setzen Firmen auf das sogenannte „Chaos Testing“, eine Technik, die Netflix während der eigenen Migration in die Cloud im Jahr 2011 einführte. Chaos-Tests schaffen turbulente Situationen, die Systemschwachstellen ans Licht bringen, wodurch der Aufbau des Cloud-Systems weite verbessert werden kann. Moderne Cloud-Systeme führen Hardware und Software auf so komplexe Weise zusammen, dass Standardtests allein nicht mehr ausreichen. Nur durch systematisches Testen, erweitert um „Chaos-Testing“ können Unternehmen für ihre Cloud-Lösung und über ihre gesamten Technologiesysteme hinweg eine größere Widerstandsfähigkeit entwickeln.

Den Ernstfall proben

Um diese Resilienz zu erreichen, müssen IT-Manager Schwachstellen finden, die mit Hilfe normaler Testszenarien nicht aufgedeckt werden. Die Suche nach Ausfallsicherheit bietet einen Einblick in die Zuverlässigkeit und Wiederherstellbarkeit eines Systems durch die Ausführung einer sorgfältig geplanten Reihe von Katastrophenfällen.

Eine solche Katastrophensequenz könnte Folgendes umfassen:
a. Netzwerkverbindung für zehn Minuten kappen,
b. Einen Service oder Server offline nehmen,
c. Nach Anomalien suchen bei Angriff auf die Middleware.

Unternehmen, die gerade erst mit der Migration in die Cloud beginnen, müssen zunächst ein passendes Servicemodell identifizieren und auswählen. Firmen, die einen kompletten Workload in die Cloud migrieren möchten, sollten die Infrastructure-as-a-Service-(IaaS)-Option wählen. Testumgebungen können so schnell in der Cloud orchestriert werden und Systeme für Speicherung, Backup und Recovery lassen sich einfacher einrichten.

Organisationen wiederum, die den Umzug in die Cloud bereits hinter sich haben oder teilweise migriert sind, müssen sich Zeit nehmen, um ihre Cloud-Service-Modelle besser zu verstehen. Eine wichtige Frage lautet dabei: Ist dieses Modell für mein Unternehmen in den kommenden Jahren noch das richtige? Auch während des Betriebs in der Cloud können Unternehmen mit der Planung von Testszenarien beginnen, um die Belastbarkeit ihrer Systeme zu überprüfen. Dabei sollten die Unternehmen Ziele und Zeitfenster für die Durchführung der Tests festlegen. Die Ergebnisse dieser Tests fließen dann in die Designphase ihres überarbeiteten Cloud-Setups ein.

Auf der Höhe der Zeit bleiben

Wenn sich alle Systeme und Anwendungen in einem virtuellen Cloud-Kontext befinden, verlaufen digitale Transformationen flüssiger. Ausgiebig getestete Clouds kommen darüber hinaus leichter mit Nachfragespitzen zurecht und bewältigen die manchmal oft viral anmutende Nachfrage nach einer speziellen Anwendung oder einen schnellen Standortwechsel oder die Erweiterung von Endnutzern problemlos.

Andrea Hendrickx, Infosys.
Andrea Hendrickx, Infosys.
(Bild: Infosys)

Um resilient zu werden, müssen Unternehmen belastbare IT-Systeme schaffen. Sie basieren teilweise oder vollständig auf einer Cloud-Infrastruktur, die durch kontinuierliche, systematische und chaotische Tests belastbarer gemacht wird. Unternehmen werden durch konsistentes und kreatives Testen flexibler und widerstandsfähiger – auch jenseits der Cloud.

* Die Autorin Andrea Hendrickx ist Country Head (Germany) bei Infosys.

(ID:46956713)