KI in Produktion: Mehrere Modelle, Monitoring und Betrieb

Rate Limits statt Halluzinationen Was KI-Systeme in Produktion wirklich ausbremst

03.07.2026 Ein Gastbeitrag von Stefan Marx* 5 min Lesedauer

Anbieter zum Thema

flexera-no-tagline-rgb-full-color (Flexera Software GmbH)

Künstliche Intelligenz (KI) läuft in produktiven Anwendungen, ist in Workflows eingebettet und entscheidet zunehmend darüber, wie schnell, effizient und zuverlässig digitale Services arbeiten. Damit verschiebt sich die Debatte weg vom KI-Potenzial, hin zur Frage, wie sich KI-Systeme im Alltag belastbar betreiben lassen.

Wer KI unkontrolliert skaliert, häuft technische Schulden an – wer sie wie ein diszipliniertes Produktionssystem führt, gewinnt Zuverlässigkeit, Kostenkontrolle und Geschwindigkeit.(Bild: © ZinetroN - stock.adobe.com) — Wer KI unkontrolliert skaliert, häuft technische Schulden an – wer sie wie ein diszipliniertes Produktionssystem führt, gewinnt Zuverlässigkeit, Kostenkontrolle und Geschwindigkeit.
(Bild: © ZinetroN - stock.adobe.com)

Die Entwicklung erinnert an die frühe Cloud-Ära. Auch damals versprach eine neue Infrastruktur scheinbar grenzenlose Skalierbarkeit. Erst in der Praxis wurde sichtbar, dass Skalierung nicht automatisch Einfachheit bedeutet. Mit der Cloud kamen neue Abhängigkeiten, neue Kostenmodelle, neue Fehlerbilder und neue Anforderungen an Monitoring, Governance und Betrieb. Bei KI wiederholt sich dieses Muster nur schneller und näher an der Anwendungsschicht.

Produktionsdaten aus dem aktuellen „State of AI Engineering“-Report von Datadog zeigen, wie deutlich diese operative Realität bereits ist. Die Datenbasis spiegelt vor allem Unternehmen wider, die stark in Software-Infrastruktur, Cloud und Observability investieren. Sie zeigt, welche Probleme dort auftreten, wo KI bereits praktisch betrieben wird.

Mythos 1: Ein KI-Modell reicht aus

In vielen Strategiediskussionen wirkt KI noch immer wie eine Entscheidung für „das eine“ Modell. Die Produktionsrealität sieht anders aus. Inzwischen nutzen mehr als 70 Prozent der analysierten Organisationen drei oder mehr Modelle. OpenAI hat weiterhin einen hohen Anteil, gleichzeitig haben Google Gemini und Anthropic Claude im vergangenen Jahr stark zugelegt.

Unterschiedliche Aufgaben stellen unterschiedliche Anforderungen an Latenz, Kosten, Qualität und Risiko. Ein leichtgewichtiges Modell kann für Extraktion oder Klassifizierung ausreichen, während ein leistungsfähigeres Modell für komplexe Syntheseaufgaben sinnvoll ist. Unternehmen bauen deshalb Modellportfolios statt Ein-Modell-Architekturen.

So entsteht jedoch mehr Komplexität. Wer mehrere Modelle und Anbieter parallel nutzt, muss Routing, Failover, Kostenkontrolle, Sicherheitsvorgaben und Evaluierung beherrschen. Verteilte API-Aufrufe direkt aus verschiedenen Anwendungen heraus mögen am Anfang schnell wirken. In der Produktion erschweren sie jedoch Governance und Betrieb. KI-Inferenz entwickelt sich damit zu einer Plattformaufgabe.

Mythos 2: Mehr Kontext macht Agenten automatisch besser

Große Kontextfenster gehören zu den auffälligsten Fortschritten der vergangenen Jahre. Die durchschnittlichen Token pro Anfrage sind im Jahresvergleich um mehr als das Doppelte gestiegen. Bei Power Usern haben sie sich sogar vervierfacht.

Mehr Kontext kann Agenten helfen, komplexere Aufgaben zu bearbeiten. Doch mehr Kontext bedeutet auch mehr Kosten, höhere Latenz und mehr Rauschen. Wenn Gesprächsverläufe, Dokumente, Tool-Ausgaben und Guardrails unstrukturiert in Prompts wandern, werden kritische Informationen nicht automatisch besser genutzt sondern können untergehen.

Der eigentliche Engpass ist daher nicht mehr nur die Größe des Kontextfensters, sondern die Qualität des Kontextes. Unternehmen müssen lernen, relevante Informationen gezielt auszuwählen, zu verdichten, zu deduplizieren und in einer klaren Hierarchie bereitzustellen. Context Engineering wird damit zu einer Kernkompetenz produktiver KI-Systeme.

Mythos 3: KI-Fehler sind vor allem Qualitätsprobleme

Wenn KI-Anwendungen scheitern, denken viele zuerst an Halluzinationen oder schlechte Antworten. In Produktionsumgebungen zeigt sich jedoch ein anderes Bild: Zuverlässigkeit hängt stark von Kapazität ab. Im März 2026 verursachten Rate-Limits fast ein Drittel aller LLM-Call-Fehler, im Februar lag der Anteil sogar bei 60 Prozent. Für März weist der Report nahezu 8,4 Millionen Rate-Limit-Fehler aus.

Das ist ein operatives Warnsignal. KI-Anwendungen sind nicht nur probabilistische Systeme, sondern auch verteilte Systeme mit Kapazitätsgrenzen. Gerade agentische Workflows können Lastspitzen erzeugen: Schleifen laufen länger als erwartet, Tools werden häufiger aufgerufen, Retries erhöhen die Last zusätzlich. Was als einzelner Fehler beginnt, kann sich so zu einer anhaltenden Störung entwickeln.

Dev- und Ops-Teams brauchen daher klassische, aber KI-spezifisch angepasste Betriebsmechanismen: Budgets für Token und Aufrufe, Backpressure, Queues, exponentielle Backoffs, Fallback-Modelle und klare Abbruchbedingungen für Agenten.

KI-gestützte Cloud-Optimierung wird zum Gamechanger im IT-Betrieb: Standards und AIOps-Plattformen helfen Unternehmen, Kosten zu kontrollieren, Ressourcen effizienter zu nutzen und Resilienz in Multicloud-Umgebungen zu stärken. (Bild: © Eliane - stock.adobe.com / KI-generiert)

Mythos 4: Frameworks nehmen den Betrieb ab

Agent-Frameworks wie LangChain, LangGraph, Pydantic AI oder der Vercel AI SDK beschleunigen die Entwicklung erheblich. Die Framework-Adoption hat sich im Jahresvergleich nahezu verdoppelt: von mehr als 9 Prozent der Organisationen Anfang 2025 auf fast 18 Prozent Anfang 2026. Auch die Zahl der Services, die agentische Frameworks einsetzen, hat sich mehr als verdoppelt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Doch Frameworks reduzieren die operative Komplexität nicht automatisch. Sie können sie auch verdecken. Tool-Fan-out, Retry-Logik, Branching und implizite Kontrollflüsse entstehen mit wenigen Imports. Für Entwicklerinnen und Entwickler wird es dadurch schwerer nachzuvollziehen, warum ein Agent bestimmte Schritte ausführt, warum Kosten steigen oder warum ein Fehler schwer reproduzierbar ist.

Besonders kritisch ist, dass sich der Kontrollfluss bei LLM-Agenten teilweise aus Modellentscheidungen ergibt, da der Agent keinem deterministischen Pfad folgt. Observability muss deshalb sichtbar machen, welche Prompts, Tools, Modelle, Zwischenschritte und Servicegrenzen an einer Entscheidung beteiligt waren.

Mythos 5: KI-Kosten lassen sich allein über günstigere Modelle senken

Kostenoptimierung wird häufig auf Modellpreise reduziert. Doch ein großer Teil des Aufwands steckt im Prompt selbst. 69 Prozent aller Input-Tokens entfallen auf System Prompts: interne Anweisungen, Policy-Definitionen und Tool-Guidance. Gleichzeitig zeigen nur 28 Prozent der LLM-Calls bei Modellen mit Cache-Unterstützung überhaupt cached-read Input Tokens.

Das bedeutet: Viele Anwendungen verarbeiten wiederkehrende Instruktionen immer wieder neu. Prompt Caching kann Kosten senken und Geschwindigkeit erhöhen, ohne das Modellverhalten zu verändern. Voraussetzung ist jedoch ein stabiler Prompt-Aufbau. Wenn dynamische Inhalte zu früh eingefügt werden oder stabile Blöcke zwischen Anfragen umsortiert werden, bricht die Wiederverwendbarkeit des Prefixes.

Kostenkontrolle beginnt deshalb nicht erst beim Einkauf günstigerer Modelle. Sie beginnt im Engineering: bei modularisierten System Prompts, sauberem Prompt Layout, wiederverwendbaren Tool-Schemata und Metriken, die Cache-Hit-Rates, Token-Verbrauch und Latenzen transparent machen.

Die Branchenriesen positionieren sich strategisch in den Zukunftsmärkten Software und künstliche Intelligenz. (Bild: Midjourney / KI-generiert)

Was Dev- und Ops-Teams jetzt lernen müssen

Die wichtigste Lehre aus den Produktionsdaten lautet: KI ist kein isoliertes Feature, sondern ein operatives System. Es braucht dieselben Grundprinzipien, die sich auch in Cloud-, Microservice- und Plattformarchitekturen bewährt haben nur erweitert um LLM-spezifische Dynamiken.

Dazu gehören kontinuierliche Evaluierung, Modell-Governance, Observability über Servicegrenzen hinweg, Kapazitätsplanung, Kostenbudgets und Fallback-Strategien. Unternehmen müssen nachvollziehen können, welches Modell wann eingesetzt wurde, welche Kontextbestandteile in eine Anfrage eingingen, wie ein Agent durch Tools und Services navigierte und an welcher Stelle Kosten, Latenz oder Fehler entstehen.

Mit strategischer Modernisierung und Observability kommen Unternehmer sicher ans Ziel der digitalen Transformation. (Bild: © mh.desing - stock.adobe.com)

Der KI-Vorsprung entsteht im Betrieb

Die nächste Phase der KI-Adoption wird nicht durch spektakuläre Demos entschieden sondern durch Produktionsreife. Unternehmen, die Modelle, Prompts, Agenten und Kontext unkontrolliert wachsen lassen, bauen neue technische Schulden auf. Unternehmen, die KI wie ein diszipliniertes Produktionssystem behandeln, gewinnen dagegen an Zuverlässigkeit, Kostenkontrolle und Geschwindigkeit.

Der Realitätscheck aus den Produktionsdaten ist klar: KI skaliert nicht automatisch. Sie muss betrieben werden. Und dieser Betrieb entscheidet darüber, ob aus vielversprechenden Prototypen belastbare Anwendungen werden.

* Der Autor Stefan Marx ist Senior Director Platform Strategy für die EMEA-Region beim Cloud-Monitoring-Anbieter Datadog. Marx ist seit über 20 Jahren in der IT-Entwicklung und -Beratung tätig. In den vergangenen Jahren arbeitete er mit verschiedenen Architekturen und Techniken wie Java Enterprise Systemen und spezialisierten Webanwendungen. Seine Tätigkeitsschwerpunkte liegen in der Planung, dem Aufbau und dem Betrieb der Anwendungen mit Blick auf die Anforderungen und Problemstellungen hinter den konkreten IT-Projekten.

Bildquelle: Datadog

(ID:50884533)