Stellschrauben im Betrieb nachjustieren Cloud-Optimierung mit KI

Von Anna Kobylinska und Filipe Martins* 9 min Lesedauer

Mit wachsender Komplexität steigen die Herausforderungen des Cloud-Betriebs. Bei den Vorreitern assistiert bereits eine KI auf der Kommandobrücke. Woanders machen sich Burnout und Chaos breit. Ein offener Cloud-Standard der FinOps Foundation namens FOCUS will Transparenz in die Kostenlandschaft bringen — und plötzlich ist es so weit.

KI-gestützte Cloud-Optimierung wird zum Gamechanger im IT-Betrieb: Standards und AIOps-Plattformen helfen Unternehmen, Kosten zu kontrollieren, Ressourcen effizienter zu nutzen und Resilienz in Multicloud-Umgebungen zu stärken.(Bild: ©  Eliane - stock.adobe.com / KI-generiert)
KI-gestützte Cloud-Optimierung wird zum Gamechanger im IT-Betrieb: Standards und AIOps-Plattformen helfen Unternehmen, Kosten zu kontrollieren, Ressourcen effizienter zu nutzen und Resilienz in Multicloud-Umgebungen zu stärken.
(Bild: © Eliane - stock.adobe.com / KI-generiert)

In den Operations-Teams vieler Organisationen spielt sich gerade ein leiser, aber tiefgreifender Wandel ab: Angesichts der wachsenden Dynamik moderner Cloud-Infrastrukturen stoßen klassische IT-Betriebsmodelle an ihre Grenzen. Das Nachjustieren einer Multi-Cloud-Bereitstellung ist für die Betriebsteams schon ein wahrer Kraftakt. Ein grundlegender Paradigmenwechsel bahnt sich an.

Der Druck zur kontinuierlichen Optimierung des Cloud-Betriebs im Hinblick auf Kriterien wie Kosten und Nachhaltigkeit lässt nicht nach. Gleichzeitig arbeiten Cloud-Fachkräfte längst am Limit ihrer Belastbarkeit. Ein paar ungeplante Ereignisse und der Überblick über schnelllebige (Multi-)Cloud-Landschaften droht den Betriebsteams verloren zu gehen. Alle sind sich einig: Bessere Tools müssen her.

Cloud-Betrieb – für viele eine Luftnummer

Schätzungen befragter Geschäftsetagen zufolge würde ein hoher Anteil der Ausgaben für öffentliche Clouds im Nichts verpuffen. Vor rund fünf Jahren war von Cloud-Verschwendung in Höhe von rund 30 Prozent der laufenden Kosten die Rede. Irgendwas musste getan werden und es wurde vieles versucht. Hat es denn geklappt?

Offenbar nicht, denn die Zielsetzung „Optimierung der Workloads und Reduktion von Verschwendung“ ist im Jahre 2025 die oberste Priorität für jede zweite der insgesamt 861 befragten Anwenderorganisationen. Diese Erkenntnis stammt aus einem aktuellen Bericht der FinOps Foundation („State of FinOps Report 2025“).

Ein Treffen der Führungskräfte: Die Vize-Präsidenten der vier führenden Hyperscaler (AWS, Google, Microsoft und Oracle) sowie der Vize-Präsident von American Express stellten sich auf der FinOps 2025 in San Diego den Fragen rund um FinOps in der Cloud.(Bild:  FinOps Foundation)
Ein Treffen der Führungskräfte: Die Vize-Präsidenten der vier führenden Hyperscaler (AWS, Google, Microsoft und Oracle) sowie der Vize-Präsident von American Express stellten sich auf der FinOps 2025 in San Diego den Fragen rund um FinOps in der Cloud.
(Bild: FinOps Foundation)

Bisherige Bemühungen, Cloud-Investitionen eng an den Unternehmenszielen auszurichten und die Kostenlast in den Griff zu bekommen, haben sich in vielen Anwenderorganisationen mehr oder weniger in Wohlgefallen aufgelöst. Schuld daran mag die beachtliche Komplexität der Aufgabe sein — und/oder die abwechslungsreiche Dynamik der Cloud-Landschaften, der Fachkräftemangel und derlei andere Hindernisse.

Wie dem auch sei: Was in fünf Jahren nicht geklappt hat, soll jetzt auf Biegen und Brechen gelingen. Vielleicht wäre es nicht schlecht, mal etwas Neues zu probieren, wenn alte Ansätze versagt haben.

Überhöhte Cloud-Ausgaben resultieren typischerweise nicht aus einem einzigen großen Schnitzer, sondern aus vielen kleinen verpassten Chancen, die sich summieren, propagieren und zu Ineffizienzen heranwachsen. Hier mal etwas Überprovisionierung, da eine unterlassene Ressourcenrückgabe: Das Optimierungspotenzial ist da, nur es fehlt an Fähigkeiten, die erforderlichen Maßnahmen zeitnah und mit chirurgischer Präzision zu ergreifen. Denn Optimierungen des Cloud-Betriebs dürfen die laufende Bereitstellung in ihrer Funktionsfähigkeit nicht beeinträchtigen.

Die nachträgliche Analyse von Cloud-Ausgaben greift hinsichtlich möglicher Kostenoptimierungen zu kurz, weil sie prinzipiell zu spät stattfindet. Typische Kostenkontrollen „post mortem“ — also jene Analysen von Cloud-Ausgaben, die historische Ereignisse untersuchen — erfolgen lange nachdem das Geld bereits ausgegeben wurde. Korrekturmaßnahmen finden rückwirkend keine Anwendung. Die betrieblichen Entscheidungen erfolgen im Selbstbedienungsverfahren und so fallen jegliche Abweichungen vom Wunschzustand in die Kategorie „selber Schuld“.

Kann künstliche Intelligenz Abhilfe schaffen? Wie viel Cloud-Kontrolle kann man aus der Hand geben?

FOCUS! Wachsende Cloud-Ver(sch)wendung eindämmen

Hyperscaler wie AWS, Azure und Google Cloud haben schon länger KI-gesteuerte Optimierungen direkt in ihre Infrastruktur integriert. Jetzt vollzieht sich ein ähnlicher Wandel bei den Anwenderorganisationen selbst.

Eine aktuelle Umfrage zeigt, dass 37 Prozent der sogenannten „Cloud-Leader“ unter Cloud-Anwenderorganisationen bereits KI-gestützte Cloud-Optimierung einsetzen. Nur jedes vierte (25 %) der übrigen Unternehmen kann Ähnliches für sich in Anspruch nehmen. Die Zahlen stammen aus dem „2025 State of Cloud Report“ von Rackspace Technology auf der Basis einer globalen Umfrage unter über 1.400 Cloud-Entscheiderinnen und Entwickler.

„KI-gestützte Cloud-Optimierung“ — das sagt sich einfach. Jede Cloud-Plattform – ob AWS, Azure, Google Cloud oder ein beliebiger anderer SaaS-/PaaS-Anbieter – nutzt eine eigene Struktur, Terminologie und Darstellung für Rechnungen und Nutzungsdaten. Dies behindert eine (wie sich das so schön nennt) „verursachungsgerechte“ Zuordnung der Kosten zu Teams, Projekten oder Anwendungen. Ohne Standardisierung stehen Anwenderorganisationen mit ihren Analyse- und Optimierungstools gegenüber den Cloud-Anbietern auf verlorenem Posten.

Alles fließt: FOCUS, ein quelloffener Standard der FinOps Foundation, ermöglicht das Erstellen normalisierter Kosten- und Nutzungsdaten aus verschiedenen Datenquellen – etwa von Public-Cloud-Anbietern, SaaS-Plattformen und internen Kostenstellen; so werden Alternativen vergleichbar.(Bild:  FinOps Foundation)
Alles fließt: FOCUS, ein quelloffener Standard der FinOps Foundation, ermöglicht das Erstellen normalisierter Kosten- und Nutzungsdaten aus verschiedenen Datenquellen – etwa von Public-Cloud-Anbietern, SaaS-Plattformen und internen Kostenstellen; so werden Alternativen vergleichbar.
(Bild: FinOps Foundation)

Um der Fragmentierung und Intransparenz von Cloud-Abrechnungsdaten entgegenzuwirken, hat die FinOps Foundation (eine Initiative unter der Obhut der Linux Foundation) einen quelloffenen Standard für Nutzungs- und Abrechnungsdaten entwickelt: FOCUS.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

FOCUS (kurz für FinOps Open Cost and Usage Specification) hat zum Ziel, das Chaos rund um uneinheitliche Abrechnungsformate zu beseitigen, um Cloud-Abrechnungsdaten über verschiedene Cloud-Betreiber hinweg vergleichbar zu machen und die Analyse der Kostenallokation und die Optimierung zu erleichtern. Das Format deckt neben Hyperscalern AWS, Azure und Google Cloud seit der Version 1.2 auch SaaS- und PaaS-Anbieter mit ab.

FOCUS bietet ein einheitliches Schema, welches Terminologie und Struktur standardisiert. Damit lassen sich normalisierte Kosten‑ und Nutzungsdaten aus verschiedenen Datenquellen – etwa von Public-Cloud‑Anbietern, SaaS‑Plattformen und internen Kostenstellen — in Analysen heranziehen, um den Verbrauch, das Kostenprofil und betriebliche Effizienz in der Cloud transparent zu quantifizieren und gezielt zu optimieren. Die aktuelle Version 1.2, erweitert die Unterstützung auf SaaS- und PaaS-Abrechnungen, führt eine Rechnungs-ID für bessere Nachverfolgbarkeit ein und verbessert die Granularität mit Feldern für Abrechnungs- und Unterkonten. Große Plattformen wie Alibaba Cloud, Databricks und Grafana unterstützen bereits diesen Standard.

Mit AIOps und MLOps rücken zudem zwei neue Buzzwords in den Fokus mit dem Versprechen, Cloud-Umgebungen effizienter, skalierbarer und resilienter zu gestalten. Beide Ansätze fokussieren sich auf KI und ML, doch hier hören die Gemeinsamkeiten auch schon wieder auf.

AIOps für CloudOps

Marktanalysten beobachten seit mehreren Jahren ein deutlich wachsendes Interesse an KI-gestütztem IT-Betrieb.

AIOps (Artificial Intelligence for IT Operations) bezeichnet den Einsatz von künstlicher Intelligenz zur Automatisierung und Rationalisierung von IT-Service-Management und betrieblichen Workflows. Eine AIOps-Plattform analysiert kontinuierlich das gesamte Aufkommen an Betriebsdaten aus Logs, Metriken oder Traces und wacht über die Gesundheit der Cloud-Bereitstellung. MLOps bezieht sich hingegen auf die Schaffung einer automatisierten Pipeline, um Machine-Learning-Modelle in Produktionsumgebungen zu verlagern und die Verbindung zwischen Data-Science-, Datenbetrieb- und Infrastrukturteams herzustellen.

Wo früher statische Dashboards und manuelle Eingriffe dominierten, halten intelligente Automatisierungshilfen Einzug – und rütteln am Fundament gewohnter Arbeitsweisen.

AIOps verschafft den IT-Betriebsteams durchgängige Transparenz und umfassenden Kontext, damit diese schneller und proaktiver auf Leistungsprobleme und Betriebsunterbrechungen reagieren können. Eine AIOps-Plattform nutzt intern maschinelles Lernen, um Muster und Anomalien zu erkennen, Ursachen zu analysieren und Vorhersagen zu treffen. So sind auch proaktive Eingriffe zur Optimierung des Cloud-Betriebs möglich.

Phänomenales Wachstum: Der globale Markt für AIOps wächst mit einer Jährlichen CAGR von astronomischen 30,70 Prozent voraussichtlich bis zum Jahre 2029.(Bild:  The Business Research Company)
Phänomenales Wachstum: Der globale Markt für AIOps wächst mit einer Jährlichen CAGR von astronomischen 30,70 Prozent voraussichtlich bis zum Jahre 2029.
(Bild: The Business Research Company)

Forrester prognostiziert in seinen Tech-Trends für 2025 einen klaren Aufwärtstrend beim Einsatz von AIOps-Plattformen: Unternehmen driften ihre Adoption im laufenden Jahr verdreifachen. Im Zentrum stehen der Abbau technischer Schulden sowie eine Steigerung der betrieblichen Effizienz. Moderne AIOps-Lösungen seien in der Lage, mit kontextbewussten Daten das Urteilsvermögen der IT-Teams zu stärken, Vorfälle automatisiert zu beheben und so unterm Strich die Geschäftsergebnisse zu verbessern, bestätigen die Analysten.

Der Markt für AIOps dürfte in den kommenden Jahren ein exponentielles Wachstum verzeichnen. Bis zum Jahre 2029 soll er von 11,16 Mrd. US-Dollar im Jahr 2025 auf 32,56 Milliarden US-Dollar anwachsen und dabei eine nahezu astronomische jährliche Wachstumsrate (CAGR) von 30,7 Prozent einhalten. Diese Zahlen stammen aus dem „AIOps Market Report 2025“ von The Business Research Company, veröffentlicht über Research and Markets. Dieses phänomenale Wachstum führen die Analysten auf Entwicklungen im Bereich der Containerisierung und Verwaltung von Microservices, den anhaltenden Anstieg von Cloud-Alarmen und Fehlalarmen und die zunehmende Verbreitung agiler Praktiken und DevOps zurück.

In ihrem Bericht vom Juni 2025 unter dem Titel „Multi Public Cloud Services 2025“ beobachten die Marktforscher von ISG eine beschleunigte Konvergenz von AIOps und MLOps. Unternehmen setzen demnach zunehmend auf intelligente Automatisierung und KI-Orchestrierung, um ihre Multicloud-Umgebungen intelligent zu optimieren. Parallel dazu gewinnen KI-gestützte Sicherheits- und Compliance-Lösungen rasant an Bedeutung. Fortschrittliche Threat-Detection-Modelle, gestützt durch maschinelles Lernen, erlauben die präzisere Identifikation von Angriffsmustern und stärken proaktiv die Sicherheitsarchitektur. Ergänzt wird dies durch Governance-Frameworks, die regulatorische Anforderungen kontinuierlich in operative Prozesse integrieren.

Ein weiterer Treiber dieser Entwicklung ist die zunehmende Verbreitung spezialisierter Hardwarekomponenten wie Tensor Processing Units (TPUs) und leistungsfähiger GPUs. Diese KI-beschleunigten Plattformen transformieren die ökonomischen Grundlagen des Cloud-Computings, indem sie komplexe Rechenprozesse schneller und kosteneffizienter abbilden – insbesondere bei ressourcenintensiven KI-Workloads.

Angesichts dieser technologischen Konvergenz stehen die „Cloud-Etagen“ in Unternehmen vor der Herausforderung, ihre Cloud-Strategien zu überdenken. Wer die Potenziale der KI-gesteuerten Transformation frühzeitig erkennt und gezielt integriert, verschafft sich einen immensen Vorsprung.

Im Bereich KI-gestützter Cloud-Betriebsplattformen – also dort, wo AIOps, Observability und Automatisierung in hybriden Multicloud-Umgebungen zusammenlaufen – haben sich fünf Unternehmen als Marktführer etablieren können, bestätigt der Forrester-Wave-Bericht „AIOps Platforms“ (Q2 2025) sowie Analysen von Gartner, ISG und IDC:

  • Dynatrace – mit starker Causal AI, automatisierter Root-Cause-Analyse und Cloud-nativer Architektur;
  • Datadog – mit bahnbrechender Cloud-nativer Observability, erweiterten Fähigkeiten der Metrik-Korrelation und Anomalieerkennung;
  • ScienceLogic – bekannt für Unified Observability und KI-gestützte Serviceabhängigkeitsmodelle;
  • BMC Software (Helix) – punktet mit agentenloser Telemetrie, Workflow-Automatisierung und GenAI-Integration;
  • Servicenow – stark im ITSM (IT Service Management), zunehmend stark in AIOps durch Integration von KI in Workflows.

Eine Reihe von innovativen Herausforderern will die Vormachtstellung der etablierten Marktführer in Frage stellen. Dazu zählen:

  • New Relic – mit OpenTelemetry und KI-gestützter Visualisierung;
  • PagerDuty – stark bei Incident Response, Automatisierung und GenAI-gestützter Alert-Priorisierung;
  • Elastic – spezialisiert auf KI-gestützte Log-Analysen und Search-basierte Observability;
  • Splunk – weiterhin relevant, mit Fokus auf KI-gestützte Sicherheits- und Betriebsdatenanalyse.

Wachstumsmotoren und Disruptoren

Eine Reihe von fortgeschrittenen Fähigkeiten unterscheidet führende AIOps-Lösungen von den Schlusslichtern der Szene, glauben unter anderem die Forrester-Analysten Carlos Casanova und Madeline Cyr.

Als zentrale Funktionalitätsbereiche, insbesondere im Kontext von KI-gestütztem Cloud-Betrieb, gelten im Allgemeinen:

  • Datenmanagement und -Qualitätskontrolle: die Fähigkeit, Betriebsdaten aus verschiedenen Quellen zu erfassen, zu verstehen und aufzubereiten.
  • Analyse und Datenintelligenz: Funktionen wie Anomalienerkennung, Ursachenanalyse und prädiktive Analytik stehen für den Einsatz von KI zur Mustererkennung, Fehlerdiagnose und Prognose.
  • Automatisierung und Visualisierung: Dashboards, Workflow-Automatisierung, automatisierte Problemlösung und verwandte Funktionen ermöglichen es, Erkenntnisse in konkrete Maßnahmen zu überführen.
  • Governance und Erweiterbarkeit: Aspekte wie Daten- und KI-Governance sowie Integrationsfähigkeit sichern Skalierbarkeit, Compliance und Anpassbarkeit.
  • User-zentrierte Perspektiven: Persona-basierte Einblicke und Kundenreferenzen zeigen, wie gut die betreffende Plattform auf unterschiedliche Rollen und reale Anforderungen eingeht.

AIOps als ein neues CloudOps-Paradigma und die zugehörigen Tools entwickeln sich dynamisch weiter – am stärksten dort, wo fortgeschrittene Fähigkeiten von AIOps-Tools auf disruptive Innovationstrends treffen: bei den zwei Arten von künstlicher Intelligenz: GenKI und KI-Agentik. KI (GenAI) unterstützt autonome Assistenzfunktionen und liefert zusammenfassende Analysen, idealerweise mit besonderem Fokus auf Erklärbarkeit und Transparenz. Agentische KI erweitert diese Fähigkeiten unter anderem um eine in KI-Modellen verankerte betriebliche Ausrichtung an den Richtlinien der Organisation und/oder an direkt anwendbaren regulatorischen Vorgaben.

Die Forrester-Analysten Casanova und Madeline sehen prädiktive Analytik und proaktive Betriebsführung als Voraussetzungen für eine effektive Prävention, die den gezielten Einsatz umfassender Datenanalysen erforderlich machen. Eine logische Weiterentwicklung bestünde in der Integration autonomer Fehlerbehebung und Selbstheilung einer Cloud-Bereitstellung in AIOPs-Tools. Das Leitbild selbstheilender Systeme unterstreiche die wachsende Bedeutung transformativer Automatisierung — zur Einhaltung strenger Service Level Agreements (SLAs) und zur Reduzierung manueller Eingriffe.

AIOps-Plattformen sind nicht alle gleichwertig; von ergänzender Unterstützung über Beschleunigung bis hin zur voll ausgewachsenen Automatisierung sieht Gartner einen langen Weg.(Bild:  Gartner)
AIOps-Plattformen sind nicht alle gleichwertig; von ergänzender Unterstützung über Beschleunigung bis hin zur voll ausgewachsenen Automatisierung sieht Gartner einen langen Weg.
(Bild: Gartner)

Vor diesem Hintergrund sei eine steigende Tool-Konsolidierung zu beobachten. Unternehmen würden demnach „vollumfängliche“, vereinheitlichte Plattformen vorziehen, um ihre IT zu vereinfachen, zu optimieren und technische Schulden abzubauen — ein Trend, der die Annäherung von Betriebs- und Sicherheitsprozessen weiter beschleunige. Das Zusammenführen verschiedener datengetriebener Plattformen zur engen Verzahnung von AIOps, DevOps, DevSecOps und Site Reliability Engineering (SRE) betrachten die Analysten als eine logische Fortführung dieser Entwicklungen.

Die enge Verzahnung von Sicherheitsoperationen und AIOps würde Resilienz, Bedrohungserkennung und Compliance stärken.

Die Anpassung von KI-basierten Betriebsprozessen an hohe Datenschutz- und Compliance-Anforderungen sei eine Voraussetzung, um die Akzeptanz und nachhaltige Nutzung von AIOps trotz wachsender Sicherheitsbedenken sicherzustellen, glauben die Forrester-Analysten. Das zunehmende Vertrauen in automatisierte, datengetriebene Entscheidungsprozesse würde aus ihrer Sicht den Einbezug von KI bei der Problemlösung im Cloud Computing fördern, geht jedenfalls aus ihrem Bericht hervor.

Fazit der Autoren

Die Integration von künstlicher Intelligenz in Cloud-Umgebungen entwickelt sich zu einem entscheidenden Wettbewerbsfaktor für Unternehmen. Cloud-Leader nutzen sie als strategischen Hebel zur Optimierung ihrer Cloud-Infrastrukturen.

* Das Autorenduo Anna Kobylinska und Filipe Pereira Martins arbeitet für McKinley Denali, Inc., USA.

(ID:50506265)