Störung und Ausfall bei Cloud-Services Was man aus dem AWS-Vorfall lernen sollte

Von Dipl.-Phys. Oliver Schonschek 3 min Lesedauer

Anbieter zum Thema

Am 20. Oktober 2025 verzeichnete AWS in der Region US-EAST-1 erhöhte Fehlerraten bei AWS-Services. Dies betraf nicht nur Amazon.com, Amazon-Tochtergesellschaften sowie den AWS-Support, sondern eine Vielzahl von AWS-Kunden, auch in Europa. Die umfangreichen Folgen dieser Cloud-Störung sollten zu denken geben, denn es war weder der erste noch der letzte solcher Ausfälle bei großen Cloud-Anbietern.

Der AWS-Ausfall im Oktober 2025 wird in Europa auch mit Blick auf digitale Souveränität diskutiert, da die Abhängigkeit von einem großen US-Anbieter sehr deutlich wurde.(Bild: ©  profit_image - stock.adobe.com)
Der AWS-Ausfall im Oktober 2025 wird in Europa auch mit Blick auf digitale Souveränität diskutiert, da die Abhängigkeit von einem großen US-Anbieter sehr deutlich wurde.
(Bild: © profit_image - stock.adobe.com)

Fehleranalysen sind wichtig, aber nicht alles

Kommt es zu einer Störung bei einem Cloud-Service, kann man dies bei den jeweiligen „Status-Monitoren“ sehen, bei AWS zum Beispiel auf dem AWS Health Dashboard. Ist man als Cloud-Anwender aber davon direkt betroffen, zeigt sich der Ausfall bei den eigenen cloudbasierten Diensten, der Health-Monitor ist dann eher der Ort, an dem man die Erklärung suchen wird.

Wie stark Cloud-Kunden von Cloud-Störungen betroffen sein können, zeigte sich im Oktober bei der AWS-Störung. Inzwischen gibt es von AWS eine umfangreiche Dokumentation, was genau passiert war und wie sich die aufgetretene Störung „Amazon DynamoDB Service Disruption in the Northern Virginia (US-EAST-1) Region“ auf die verschiedenen AWS-Services und bis hin nach Europa ausgewirkt hat.

AWS-Kunden wie Amazon.com haben auch selbst berichtet, welche Folgen die AWS-Störung bei ihnen hatte. Eine spannende Untersuchung zu den Ursachen und Auswirkungen findet man zum Beispiel bei ThousandEyes. Solche Berichte helfen dabei, mögliche Ursachen aufzudecken und zu versuchen, die Wahrscheinlichkeit für entsprechende Störungen in Zukunft zu verringern. Doch bei der technischen Fehlersuche sollte und darf man nicht stehenbleiben.

Abhängigkeiten von Cloud-Diensten sind enorm

Der AWS-Vorfall im Oktober 2025 macht wieder sehr deutlich, was alles von der Cloud abhängt. So waren auch viele KI-Dienste, die AWS-Services nutzen, von den AWS-Ausfällen betroffen, zum Beispiel Perplexity. Offensichtlich sind die Verfügbarkeit, Belastbarkeit und Resilienz von Cloud-Diensten von grundlegender Bedeutung für viele KI-Services, die selbst immer wichtiger werden.

Man sollte also nicht nur an die notwendige, häufig noch vergessene Resilienz von KI-Diensten denken, sondern auch an die dafür notwendige Infrastruktur, darunter insbesondere Cloud-Dienste. Je wichtiger KI aus der Cloud wird, desto grundlegender ist die Cloud-Verfügbarkeit und Cloud-Resilienz.

Denkt man an kritische Infrastrukturen wie das Gesundheitswesen, die zunehmend Cloud-Dienste einsetzen, wird die notwendige Cloud-Resilienz noch deutlicher. IT-Sicherheitsexperten kommentierten den AWS-Ausfall deshalb auch so, dass es zwar kein „Hack“ gewesen ist, aber eine deutliche „Warnung“ für die Cloud-Sicherheit.

Nicht nur einzelne Fehler angehen, sondern Cloud-Strategien überdenken

Der AWS-Ausfall wird in Europa auch mit Blick auf digitale Souveränität diskutiert, da die Abhängigkeit von einem großen US-Anbieter sehr deutlich wurde. So wichtig es auch ist, die eigene Cloud-Strategie auch auf Datenhoheit, Kontrolle und Souveränität hin abzuklopfen, allein der Ruf nach mehr Souveränität kann nicht für die erforderliche Cloud-Resilienz sorgen.

Es ist aber genau die Cloud-Resilienz, die in den Blick genommen werden muss, wenn man Lehren aus dem AWS-Fall ziehen will. So erklärt zum Beispiel das Analystenhaus Gartner: „Lassen Sie sich durch den AWS-Ausfall nicht Ihr Vertrauen in die Cloud erschüttern. Resilienz – nicht Panik oder Rückführung – sollte Ihr nächstes Vorgehen nach Cloud-Störungen leiten.“ Das Fazit für Gartner ist eindeutig: „Die Public Cloud bleibt die beste Option für skalierbare Infrastrukturen, wenn Sie von Anfang an in Ausfallsicherheit investieren – oder bestehende Implementierungen gegebenenfalls anpassen“.

Auch die Analystinnen und Analysten von Forrester Research betonen die Wichtigkeit der Cloud-Resilienz: „Aus Sicht der Cloud-Resilienz müssen Führungskräfte im Technologiebereich von Unternehmen jetzt zwei Handlungsfelder verfolgen: Die Entwicklung von Werkzeugen zur Steigerung der Zuverlässigkeit von Technologiesystemen und die Klärung vertraglicher Grauzonen im Zusammenhang mit Modellen der geteilten Verantwortung mit Cloud- (und SaaS-)Anbietern.“

Cloud-Resilienz ist (auch) Aufgabe des Cloud-Nutzers

Das altbekannte Modell der geteilten Verantwortung im Cloud Computing zeigt, dass Resilienz nicht nur auf Seiten des Cloud-Anbieters gewährleistet werden muss, sondern eben auch bei den Cloud-Nutzern selbst.

So sollten Cloud-Anwender die Abhängigkeiten nicht nur aus rechtlicher Sicht einer digitalen Souveränität betrachten, sondern eben auch technisch die möglichen Abhängigkeiten und damit die Ausfallsicherheit und Redundanz bei den geschäftskritischen Cloud-Diensten im Blick behalten.

Der AWS-Vorfall sollte deshalb als deutlicher Weckruf gewertet werden, mehr für die Cloud-Resilienz zu tun.

(ID:50613109)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung