Rate Limits statt Halluzinationen Was KI-Systeme in Produktion wirklich ausbremst

Ein Gastbeitrag von Stefan Marx* 5 min Lesedauer

Anbieter zum Thema

Künstliche Intelligenz (KI) läuft in produktiven Anwendungen, ist in Workflows eingebettet und entscheidet zunehmend darüber, wie schnell, effizient und zuverlässig digitale Services arbeiten. Damit verschiebt sich die Debatte weg vom KI-Potenzial, hin zur Frage, wie sich KI-Systeme im Alltag belastbar betreiben lassen.

Wer KI unkontrolliert skaliert, häuft technische Schulden an – wer sie wie ein diszipliniertes Produktionssystem führt, gewinnt Zuverlässigkeit, Kostenkontrolle und Geschwindigkeit.(Bild: ©  ZinetroN - stock.adobe.com)
Wer KI unkontrolliert skaliert, häuft technische Schulden an – wer sie wie ein diszipliniertes Produktionssystem führt, gewinnt Zuverlässigkeit, Kostenkontrolle und Geschwindigkeit.
(Bild: © ZinetroN - stock.adobe.com)

Die Entwicklung erinnert an die frühe Cloud-Ära. Auch damals versprach eine neue Infrastruktur scheinbar grenzenlose Skalierbarkeit. Erst in der Praxis wurde sichtbar, dass Skalierung nicht automatisch Einfachheit bedeutet. Mit der Cloud kamen neue Abhängigkeiten, neue Kostenmodelle, neue Fehlerbilder und neue Anforderungen an Monitoring, Governance und Betrieb. Bei KI wiederholt sich dieses Muster nur schneller und näher an der Anwendungsschicht.

Produktionsdaten aus dem aktuellen „State of AI Engineering“-Report von Datadog zeigen, wie deutlich diese operative Realität bereits ist. Die Datenbasis spiegelt vor allem Unternehmen wider, die stark in Software-Infrastruktur, Cloud und Observability investieren. Sie zeigt, welche Probleme dort auftreten, wo KI bereits praktisch betrieben wird.

Mythos 1: Ein KI-Modell reicht aus

In vielen Strategiediskussionen wirkt KI noch immer wie eine Entscheidung für „das eine“ Modell. Die Produktionsrealität sieht anders aus. Inzwischen nutzen mehr als 70 Prozent der analysierten Organisationen drei oder mehr Modelle. OpenAI hat weiterhin einen hohen Anteil, gleichzeitig haben Google Gemini und Anthropic Claude im vergangenen Jahr stark zugelegt.

Unterschiedliche Aufgaben stellen unterschiedliche Anforderungen an Latenz, Kosten, Qualität und Risiko. Ein leichtgewichtiges Modell kann für Extraktion oder Klassifizierung ausreichen, während ein leistungsfähigeres Modell für komplexe Syntheseaufgaben sinnvoll ist. Unternehmen bauen deshalb Modellportfolios statt Ein-Modell-Architekturen.

So entsteht jedoch mehr Komplexität. Wer mehrere Modelle und Anbieter parallel nutzt, muss Routing, Failover, Kostenkontrolle, Sicherheitsvorgaben und Evaluierung beherrschen. Verteilte API-Aufrufe direkt aus verschiedenen Anwendungen heraus mögen am Anfang schnell wirken. In der Produktion erschweren sie jedoch Governance und Betrieb. KI-Inferenz entwickelt sich damit zu einer Plattformaufgabe.

Mythos 2: Mehr Kontext macht Agenten automatisch besser

Große Kontextfenster gehören zu den auffälligsten Fortschritten der vergangenen Jahre. Die durchschnittlichen Token pro Anfrage sind im Jahresvergleich um mehr als das Doppelte gestiegen. Bei Power Usern haben sie sich sogar vervierfacht.

Mehr Kontext kann Agenten helfen, komplexere Aufgaben zu bearbeiten. Doch mehr Kontext bedeutet auch mehr Kosten, höhere Latenz und mehr Rauschen. Wenn Gesprächsverläufe, Dokumente, Tool-Ausgaben und Guardrails unstrukturiert in Prompts wandern, werden kritische Informationen nicht automatisch besser genutzt sondern können untergehen.

Der eigentliche Engpass ist daher nicht mehr nur die Größe des Kontextfensters, sondern die Qualität des Kontextes. Unternehmen müssen lernen, relevante Informationen gezielt auszuwählen, zu verdichten, zu deduplizieren und in einer klaren Hierarchie bereitzustellen. Context Engineering wird damit zu einer Kernkompetenz produktiver KI-Systeme.

Mythos 3: KI-Fehler sind vor allem Qualitätsprobleme

Wenn KI-Anwendungen scheitern, denken viele zuerst an Halluzinationen oder schlechte Antworten. In Produktionsumgebungen zeigt sich jedoch ein anderes Bild: Zuverlässigkeit hängt stark von Kapazität ab. Im März 2026 verursachten Rate-Limits fast ein Drittel aller LLM-Call-Fehler, im Februar lag der Anteil sogar bei 60 Prozent. Für März weist der Report nahezu 8,4 Millionen Rate-Limit-Fehler aus.

Das ist ein operatives Warnsignal. KI-Anwendungen sind nicht nur probabilistische Systeme, sondern auch verteilte Systeme mit Kapazitätsgrenzen. Gerade agentische Workflows können Lastspitzen erzeugen: Schleifen laufen länger als erwartet, Tools werden häufiger aufgerufen, Retries erhöhen die Last zusätzlich. Was als einzelner Fehler beginnt, kann sich so zu einer anhaltenden Störung entwickeln.

Dev- und Ops-Teams brauchen daher klassische, aber KI-spezifisch angepasste Betriebsmechanismen: Budgets für Token und Aufrufe, Backpressure, Queues, exponentielle Backoffs, Fallback-Modelle und klare Abbruchbedingungen für Agenten.

Mythos 4: Frameworks nehmen den Betrieb ab

Agent-Frameworks wie LangChain, LangGraph, Pydantic AI oder der Vercel AI SDK beschleunigen die Entwicklung erheblich. Die Framework-Adoption hat sich im Jahresvergleich nahezu verdoppelt: von mehr als 9 Prozent der Organisationen Anfang 2025 auf fast 18 Prozent Anfang 2026. Auch die Zahl der Services, die agentische Frameworks einsetzen, hat sich mehr als verdoppelt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Doch Frameworks reduzieren die operative Komplexität nicht automatisch. Sie können sie auch verdecken. Tool-Fan-out, Retry-Logik, Branching und implizite Kontrollflüsse entstehen mit wenigen Imports. Für Entwicklerinnen und Entwickler wird es dadurch schwerer nachzuvollziehen, warum ein Agent bestimmte Schritte ausführt, warum Kosten steigen oder warum ein Fehler schwer reproduzierbar ist.

Besonders kritisch ist, dass sich der Kontrollfluss bei LLM-Agenten teilweise aus Modellentscheidungen ergibt, da der Agent keinem deterministischen Pfad folgt. Observability muss deshalb sichtbar machen, welche Prompts, Tools, Modelle, Zwischenschritte und Servicegrenzen an einer Entscheidung beteiligt waren.

Mythos 5: KI-Kosten lassen sich allein über günstigere Modelle senken

Kostenoptimierung wird häufig auf Modellpreise reduziert. Doch ein großer Teil des Aufwands steckt im Prompt selbst. 69 Prozent aller Input-Tokens entfallen auf System Prompts: interne Anweisungen, Policy-Definitionen und Tool-Guidance. Gleichzeitig zeigen nur 28 Prozent der LLM-Calls bei Modellen mit Cache-Unterstützung überhaupt cached-read Input Tokens.

Das bedeutet: Viele Anwendungen verarbeiten wiederkehrende Instruktionen immer wieder neu. Prompt Caching kann Kosten senken und Geschwindigkeit erhöhen, ohne das Modellverhalten zu verändern. Voraussetzung ist jedoch ein stabiler Prompt-Aufbau. Wenn dynamische Inhalte zu früh eingefügt werden oder stabile Blöcke zwischen Anfragen umsortiert werden, bricht die Wiederverwendbarkeit des Prefixes.

Kostenkontrolle beginnt deshalb nicht erst beim Einkauf günstigerer Modelle. Sie beginnt im Engineering: bei modularisierten System Prompts, sauberem Prompt Layout, wiederverwendbaren Tool-Schemata und Metriken, die Cache-Hit-Rates, Token-Verbrauch und Latenzen transparent machen.

Was Dev- und Ops-Teams jetzt lernen müssen

Die wichtigste Lehre aus den Produktionsdaten lautet: KI ist kein isoliertes Feature, sondern ein operatives System. Es braucht dieselben Grundprinzipien, die sich auch in Cloud-, Microservice- und Plattformarchitekturen bewährt haben nur erweitert um LLM-spezifische Dynamiken.

Dazu gehören kontinuierliche Evaluierung, Modell-Governance, Observability über Servicegrenzen hinweg, Kapazitätsplanung, Kostenbudgets und Fallback-Strategien. Unternehmen müssen nachvollziehen können, welches Modell wann eingesetzt wurde, welche Kontextbestandteile in eine Anfrage eingingen, wie ein Agent durch Tools und Services navigierte und an welcher Stelle Kosten, Latenz oder Fehler entstehen.

Der KI-Vorsprung entsteht im Betrieb

Die nächste Phase der KI-Adoption wird nicht durch spektakuläre Demos entschieden sondern durch Produktionsreife. Unternehmen, die Modelle, Prompts, Agenten und Kontext unkontrolliert wachsen lassen, bauen neue technische Schulden auf. Unternehmen, die KI wie ein diszipliniertes Produktionssystem behandeln, gewinnen dagegen an Zuverlässigkeit, Kostenkontrolle und Geschwindigkeit.

Der Realitätscheck aus den Produktionsdaten ist klar: KI skaliert nicht automatisch. Sie muss betrieben werden. Und dieser Betrieb entscheidet darüber, ob aus vielversprechenden Prototypen belastbare Anwendungen werden.


* Der Autor Stefan Marx ist Senior Director Platform Strategy für die EMEA-Region beim Cloud-Monitoring-Anbieter Datadog. Marx ist seit über 20 Jahren in der IT-Entwicklung und -Beratung tätig. In den vergangenen Jahren arbeitete er mit verschiedenen Architekturen und Techniken wie Java Enterprise Systemen und spezialisierten Webanwendungen. Seine Tätigkeitsschwerpunkte liegen in der Planung, dem Aufbau und dem Betrieb der Anwendungen mit Blick auf die Anforderungen und Problemstellungen hinter den konkreten IT-Projekten.

Bildquelle: Datadog

(ID:50884533)