Prompt Injections bleiben Achillesferse autonomer KI-Agenten

Juni 12, 2026

Sicherheitsforscher demonstrieren Angriff auf OpenClaw über manipulierte Nachrichtenobjekte

Mit der zunehmenden Verbreitung autonomer KI-Agenten wächst auch die Angriffsfläche für Cyberkriminelle. Während klassische IT-Systeme seit Jahren durch etablierte Sicherheitsmechanismen geschützt werden, stehen viele KI-basierte Assistenten noch am Anfang ihrer sicherheitstechnischen Reife. Aktuelle Forschungsergebnisse von Thales zeigen nun, wie sich KI-Agenten über manipulierte Nachrichtenobjekte kompromittieren lassen – selbst dann, wenn die eigentlichen Befehle für menschliche Nutzer kaum sichtbar sind.

Im Fokus der Untersuchung stand der Open-Source-KI-Agent OpenClaw. Die Sicherheitsforscher konnten nachweisen, dass sich Prompt-Injection-Angriffe über verschiedene Metadatenfelder und versteckte Inhalte einschleusen lassen. Die Erkenntnisse wurden verantwortungsvoll an das OpenClaw-Sicherheitsteam gemeldet, das mit der Version 2026.4.23 entsprechende Gegenmaßnahmen implementierte.

Die Bedeutung der Untersuchung reicht jedoch weit über ein einzelnes Produkt hinaus. Nach Einschätzung der Forscher handelt es sich um ein grundlegendes Problem moderner KI-Agenten.

Wenn Nachrichtenobjekte zu Angriffswerkzeugen werden

Prompt Injections gelten mittlerweile als eine der größten Herausforderungen bei Large Language Models (LLMs). Dabei werden Anweisungen in Inhalte eingebettet, die vom Modell verarbeitet werden und dessen Verhalten beeinflussen sollen.

Im untersuchten Szenario nutzten die Forscher nicht klassische Texteingaben, sondern komplexe Nachrichtenobjekte als Angriffspfad. Dazu gehörten beispielsweise Kontaktinformationen, Standortdaten oder eingebettete Metadaten. Besonders kritisch: Die schädlichen Anweisungen können so gestaltet werden, dass sie für menschliche Nutzer kaum wahrnehmbar sind.

Ein Beispiel sind versteckte Texte innerhalb von Bildern, die farblich nahezu identisch mit dem Hintergrund gestaltet werden. Für das menschliche Auge bleiben solche Inhalte weitgehend unsichtbar. Ein multimodales KI-System kann diese Informationen jedoch auslesen und als regulären Eingabetext interpretieren.

Wird ein solches Objekt anschließend an einen KI-Agenten weitergegeben, kann dieser die versteckten Anweisungen unter Umständen als legitime Befehle verarbeiten.

KI-Agenten besitzen deutlich größere Risiken als Chatbots

Die Forschung verdeutlicht einen entscheidenden Unterschied zwischen klassischen Chatbots und modernen Agentensystemen.

Während ein Chatbot in der Regel lediglich Antworten generiert, verfügen KI-Agenten zunehmend über weitreichende Berechtigungen. Sie können Dateien lesen, externe Dienste ansprechen, Anwendungen steuern oder Shell-Befehle ausführen. Dadurch wird eine erfolgreiche Prompt Injection nicht nur zu einem Problem der Informationsintegrität, sondern potenziell zu einem direkten Sicherheitsvorfall.

Die Forscher weisen darauf hin, dass persönliche KI-Assistenten häufig komplexe Nachrichtenobjekte vereinfachen und deren Inhalte in einen Prompt überführen. Genau dieser Übersetzungsprozess eröffnet neue Angriffsmöglichkeiten.

Fehlende Standards verschärfen das Problem

Besonders problematisch erscheint die derzeit fehlende Standardisierung im Umgang mit Nachrichtenobjekten für KI-Systeme.

Während sich für die Integration externer Werkzeuge zunehmend Standards wie das Model Context Protocol (MCP) etablieren, existieren bislang keine allgemein anerkannten Vorgaben dafür, wie Nachrichtenobjekte serialisiert und an Sprachmodelle übergeben werden sollten.

Dadurch implementieren viele Anbieter eigene Verfahren zur Verarbeitung von Metadaten, Anhängen oder Kontaktinformationen. Sicherheitsmechanismen werden uneinheitlich umgesetzt, wodurch neue Angriffspfade entstehen können.

Die Forscher sehen hierin eine strukturelle Schwachstelle der gesamten Branche und nicht lediglich ein Problem einzelner Produkte.

OpenClaw reagiert mit Sicherheitsupdate

Als Reaktion auf die Meldung veröffentlichte das OpenClaw-Team einen Sicherheitsfix. Dabei wurden bestimmte Metadatenfelder – darunter Kontaktnamen, vCard-Informationen und Standortbezeichnungen – aus dem eigentlichen Prompt-Kontext entfernt und stattdessen in einen separaten Kanal für nicht vertrauenswürdige Informationen ausgelagert.

Dadurch soll verhindert werden, dass potenziell manipulierte Inhalte direkt als Anweisungen interpretiert werden.

Die Forscher betonen jedoch, dass ähnliche Muster auch bei anderen KI-Assistenten beobachtet wurden. Das zugrunde liegende Risiko bleibt daher bestehen.

Warum Prompt Injections weiterhin ungelöst sind

Prompt Injections unterscheiden sich grundlegend von klassischen Software-Schwachstellen. Während sich ein fehlerhafter Codeabschnitt meist eindeutig identifizieren und korrigieren lässt, basiert die Problematik bei Sprachmodellen auf deren eigentlicher Funktionsweise.

Modelle sind darauf ausgelegt, natürliche Sprache zu interpretieren und Anweisungen aus Eingaben abzuleiten. Genau diese Fähigkeit macht sie anfällig für Manipulationsversuche.

Bislang existiert kein allgemein akzeptierter Schutzmechanismus, der Prompt Injections zuverlässig verhindern kann. Viele Sicherheitsmaßnahmen reduzieren das Risiko, beseitigen das Problem jedoch nicht vollständig.

Sicherheitsarchitektur wird zum entscheidenden Faktor

Die Untersuchung unterstreicht die Notwendigkeit zusätzlicher Schutzmaßnahmen beim Einsatz autonomer KI-Agenten.

Zu den wichtigsten Empfehlungen zählen:

  • Konsequente Nutzung von Sandbox-Umgebungen
  • Umsetzung des Least-Privilege-Prinzips für Agentenwerkzeuge
  • Trennung von Agentensystemen und sensiblen Datenbeständen
  • Prüfung von Herkunft und Integrität eingehender Inhalte
  • Beschränkung kritischer Berechtigungen auf das notwendige Minimum

Gerade weil KI-Agenten zunehmend operative Aufgaben übernehmen, wird ihre Absicherung zu einer zentralen Herausforderung für Sicherheitsverantwortliche.

Fazit

Die von Thales aufgezeigten Angriffe auf OpenClaw verdeutlichen eine grundlegende Herausforderung der nächsten Generation von KI-Systemen. Je stärker sich KI-Agenten von reinen Chatbots zu handlungsfähigen digitalen Assistenten entwickeln, desto größer werden die potenziellen Auswirkungen erfolgreicher Manipulationen.

Prompt Injections sind dabei weniger eine Schwachstelle einzelner Produkte als vielmehr ein strukturelles Problem aktueller LLM-Architekturen. Die Untersuchung zeigt, dass selbst scheinbar harmlose Nachrichtenobjekte oder versteckte Inhalte als Angriffsvektor dienen können.

Für Unternehmen bedeutet dies, KI-Agenten nicht als gewöhnliche Softwarekomponenten zu betrachten. Vielmehr müssen sie wie privilegierte Systeme behandelt werden, deren Berechtigungen, Datenzugriffe und Kommunikationskanäle konsequent abgesichert werden. Die Sicherheit autonomer KI wird damit zunehmend zu einer Kernaufgabe moderner Cybersecurity-Strategien.

Related Articles

Deutschland baut Kompetenzzentrum für KI-Sicherheit auf

Neues Institut soll Risiken moderner KI-Systeme bewerten und internationale Standards mitgestalten Die Bundesregierung verstärkt ihre Aktivitäten im Bereich der Künstlichen Intelligenz und schafft eine neue Einrichtung zur Bewertung von Chancen und Risiken moderner...

Share This