Prompt Injection ist eine Angriffsmethode, bei der gezielt formulierte Eingaben ein KI-Sprachmodell dazu bringen, seine urspruenglichen Anweisungen zu ignorieren, vertrauliche Informationen preiszugeben oder unbeabsichtigte Aktionen auszufuehren. Der Begriff lehnt sich an die aus der Webentwicklung bekannte SQL Injection an — in beiden Faellen werden Nutzereingaben so manipuliert, dass das System sie als Steuerungsbefehle interpretiert statt als Daten.
Sprachmodelle verarbeiten Anweisungen und Nutzereingaben im selben Textformat. Es gibt keine technische Trennung zwischen „Systembefehlen“ und „Benutzereingaben“ — das Modell sieht beides als zusammenhaengenden Text. Genau das macht Prompt Injection moeglich: Ein Angreifer formuliert Eingaben, die das Modell als neue oder uebergeordnete Anweisungen interpretiert.
Man unterscheidet zwei grundlegende Angriffstypen:
Indirect Prompt Injection gilt als deutlich gefaehrlicher, weil der Angriff fuer den Nutzer unsichtbar bleibt und ueber externe Datenquellen skalierbar ist.
Unternehmen, die KI-Chatbots, automatisierte Assistenten oder KI-gestuetzte Workflows einsetzen, sind von mehreren Risikoszenarien betroffen:
Beide Begriffe werden haeufig verwechselt, beschreiben aber unterschiedliche Angriffsformen. Jailbreaking zielt darauf ab, die eingebauten Sicherheitsschranken des Modells zu umgehen — etwa durch Rollenspiel-Szenarien („Tue so, als waerst du eine KI ohne Einschraenkungen“). Prompt Injection hingegen manipuliert die Aufgabenstellung selbst: Das Modell wird nicht dazu gebracht, seine Regeln zu brechen, sondern dazu, andere Anweisungen zu befolgen als beabsichtigt.
In der Praxis ueberschneiden sich die Methoden. Ein Jailbreak kann als spezielle Form der Direct Prompt Injection betrachtet werden.
Einen vollstaendigen Schutz gegen Prompt Injection gibt es derzeit nicht — das Problem ist strukturell bedingt, weil Sprachmodelle Anweisungen und Daten nicht zuverlaessig trennen koennen. Dennoch gibt es Massnahmen, die das Risiko deutlich reduzieren:
Prompt Injection ist eine grundlegende Schwachstelle aktueller Sprachmodelle, die sich aus der fehlenden Trennung zwischen Anweisungen und Daten ergibt. Fuer Unternehmen, die KI-Systeme einsetzen, ist das Verstaendnis dieser Angriffsform eine Voraussetzung fuer den sicheren Betrieb. Besonders Indirect Prompt Injection ueber externe Datenquellen erfordert ein durchdachtes Sicherheitskonzept mit mehreren Schutzebenen.
Die bereitgestellten Informationen dienen ausschließlich der allgemeinen Orientierung. Für Richtigkeit, Vollständigkeit und Aktualität wird keine Gewähr übernommen. Die Inhalte sind nicht rechtsverbindlich und nicht Bestandteil einer Leistungsbeschreibung.