Toms Wochentipp: Schutz vor indirekten Prompt-Injektionen Azure AI sichert generative Modelle mit Prompt Shields

Von Thomas Joos 2 min Lesedauer

Anbieter zum Thema

Azure AI schützt Foundation Models in Anwendungen wie Copilot-Diensten mit Prompt Shields vor gezielten Angriffen.

Mit Prompt Shields erhalten Entwickler die Möglichkeit, generative KI-Systeme gezielt gegen Injektionen abzusichern. (Bild: ©  Sashkin - stock.adobe.com)
Mit Prompt Shields erhalten Entwickler die Möglichkeit, generative KI-Systeme gezielt gegen Injektionen abzusichern.
(Bild: © Sashkin - stock.adobe.com)

Die Sicherheitsfunktion erkennt zwei zentrale Angriffsformen: direkte Jailbreak-Versuche über Benutzereingaben und indirekte Prompt-Injektionen über externe Inhalte. Beide Gefahren bedrohen die Integrität generativer KI-Systeme, die zunehmend in produktiven Umgebungen operieren.

Im Gegensatz zu klassischen Jailbreak-Angriffen, bei denen der Nutzer aktiv versucht, systemseitige Einschränkungen zu umgehen, setzen indirekte Angriffe bei der Verarbeitung externer Inhalte an. Diese gelangen in das Prompt des Sprachmodells, ohne dass das System zwischen echten Benutzeranweisungen und eingebetteten Fremddaten unterscheiden kann. Der Angriff ähnelt Cross-Site-Scripting im Webumfeld: Eingeschleuste Texte geben dem Modell Befehle, als kämen sie vom Nutzer selbst.

Ein typisches Szenario betrifft einen E-Mail-Copilot auf Basis von Azure OpenAI. Er erhält eine scheinbar gewöhnliche Nachricht, deren letzter Absatz eine Aufforderung zur Ausführung einer Aktion enthält, etwa das Aufrufen einer manipulierten URL. Da der gesamte E-Mail-Text in das Prompt überführt wird, verarbeitet das Modell auch den versteckten Befehl, ohne ihn vom eigentlichen Nutzerauftrag zu trennen. So können Angreifer gezielt Systemaktionen auslösen, Daten exfiltrieren oder interne Funktionen manipulieren.

Unterschiedliche Angriffsmodelle, gemeinsames Ziel: Systemübernahme

Prompt Shields unterscheidet präzise zwischen direkten und indirekten Angriffswegen. Während direkte Angriffe von Nutzern über Prompts initiiert werden, nutzen indirekte Angreifer Dritte als Einfallstor, zum Beispiel kompromittierte Dokumente, Webinhalte oder interne Dateien. Die Bedrohung entsteht nicht durch den Nutzer selbst, sondern durch eingebettete Inhalte, auf die das Modell ohne Schutzmaßnahmen unkritisch reagiert.

Die Angriffssprache unterscheidet sich in Struktur und Absicht. Direkte Jailbreaks arbeiten oft mit auffälligen Steuerbefehlen wie „Ignore previous instructions“ oder der Simulation von Systemrollen. Indirekte Angriffe verstecken sich hinter natürlichen Formulierungen, eingebettet in scheinbar normale Inhalte. Diese Subtilität erschwert die Erkennung erheblich.

Prompt Shields analysiert Sprache statt Herkunft

Statt sich ausschließlich auf die Herkunft von Daten zu verlassen, prüft Prompt Shields Inhalte auf semantische und syntaktische Muster, die typisch für missbräuchliche Nutzung sind. Sprachmodelle besitzen keine kontextuelle Trennung zwischen Datenquelle und Benutzerinteraktion. Prompt Shields übernimmt diese Funktion, ohne das Modellverhalten selbst zu verändern.

Angriffsfläche verringern, Kontrolle zurückgewinnen

Mit Prompt Shields erhalten Entwickler die Möglichkeit, generative KI-Systeme gezielt gegen Injektionen abzusichern. Besonders in produktiven Szenarien mit Zugriff auf sensible Inhalte oder Schnittstellen zu anderen Diensten ist die Risikoabschätzung komplex. Prompt Shields reduziert dieses Risiko signifikant, indem es die Übergabe externer Inhalte aktiv überwacht und gezielt entschärft. Microsoft reagiert damit auf die wachsende Bedrohung durch Prompt-basierte Manipulation, ein Angriffstyp, der bislang kaum adressiert wurde.

(ID:50441420)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung