Red Teaming

Zuletzt aktualisiert: 09.06.2026Autor: Redaktion DomainProvider.de · Lesezeit: 4 Min.

Red Teaming bezeichnet die gezielte Angriffssimulation auf ein System, um Schwachstellen aufzudecken, bevor sie von tatsaechlichen Angreifern ausgenutzt werden. Im KI-Kontext bedeutet das: Experten versuchen systematisch, ein Sprachmodell zu Fehlverhalten zu bringen — etwa schaedliche Inhalte zu erzeugen, vertrauliche Informationen preiszugeben oder Sicherheitsrichtlinien zu umgehen. Der Begriff stammt aus der militaerischen Planung und der Cybersecurity, wo „Red Teams“ den Gegner simulieren.

Woher kommt der Begriff?

Red Teaming hat seinen Ursprung im Kalten Krieg: Bei militaerischen Planspielen uebernahm ein „rotes Team“ die Rolle des Gegners, um eigene Strategien auf Schwaechen zu pruefen. In der Cybersecurity wurde das Konzept uebernommen — dort simulieren Red Teams Hackerangriffe auf die eigene Infrastruktur, waehrend Blue Teams die Verteidigung uebernehmen.

Seit der Verbreitung grosser Sprachmodelle hat sich Red Teaming als wichtiger Bestandteil der KI-Sicherheit etabliert. Alle grossen KI-Anbieter — OpenAI, Anthropic, Google, Meta — setzen Red Teaming vor der Veroeffentlichung neuer Modelle ein.

Wie funktioniert Red Teaming bei KI?

Ein Red Team versucht, das KI-Modell durch gezielte Eingaben zu problematischem Verhalten zu bewegen. Die Testszenarien umfassen typischerweise:

Prompt Injection: Manipulierte Eingaben, die das Modell dazu bringen, seine Anweisungen zu ignorieren oder vertrauliche Informationen preiszugeben.
Jailbreaking: Versuche, die Sicherheitsschranken des Modells durch kreative Umgehungsstrategien auszuhebeln — etwa durch Rollenspiele, hypothetische Szenarien oder verschluesselte Anweisungen.
Bias-Tests: Pruefung, ob das Modell diskriminierende, stereotype oder einseitige Antworten erzeugt, insbesondere bei sensiblen Themen.
Faktenpruefung: Gezielte Fragen zu Themen, bei denen das Modell zu Halluzinationen neigt — also ueberzeugend klingende aber falsche Informationen erzeugt.
Missbrauchspotenzial: Tests, ob das Modell fuer schaedliche Zwecke instrumentalisiert werden kann — etwa zur Erstellung von Phishing-Texten, Desinformation oder Anleitungen fuer illegale Aktivitaeten.
Datenschutz: Versuche, das Modell dazu zu bringen, Trainingsdaten, persoenliche Informationen oder Interna offenzulegen.

Die Tester arbeiten dabei nicht nach einem festen Katalog, sondern kreativ und adversarial — sie denken wie Angreifer und entwickeln staendig neue Methoden.

Wer fuehrt Red Teaming durch?

KI-Red-Teams setzen sich typischerweise aus unterschiedlichen Fachleuten zusammen:

KI-Sicherheitsforscher: Kennen die technischen Schwachstellen von Sprachmodellen und entwickeln systematische Angriffsmethoden.
Domaenenexperten: Fachleute aus Bereichen wie Medizin, Recht oder Finanzen, die fachliche Fehler und Risiken erkennen koennen.
Ethik-Experten: Beurteilen problematische Antworten in Bezug auf Diskriminierung, Fairness und gesellschaftliche Auswirkungen.
Externe Tester: Viele Unternehmen oeffnen Red-Teaming-Phasen fuer externe Forscher, um blinde Flecken der internen Teams aufzudecken.

Diese Vielfalt ist entscheidend: Ein rein technisches Team uebersieht moeglicherweise kulturelle Sensibilitaeten, waehrend ein rein geisteswissenschaftliches Team technische Angriffsvektoren nicht erkennt.

Was unterscheidet KI-Red-Teaming von klassischem Red Teaming?

Gegenueber dem klassischen Cybersecurity-Red-Teaming gibt es wesentliche Unterschiede. KI-Systeme haben keine festen Regeln, sondern probabilistisches Verhalten — dasselbe Prompt kann bei verschiedenen Laeufen unterschiedliche Ergebnisse liefern. Die Angriffsoberflaeche ist natuerliche Sprache statt technischer Schnittstellen. Und die Bewertung, ob eine Antwort „problematisch“ ist, erfordert haeufig menschliches Urteilsvermoegen statt technischer Messkriterien.

Gleichzeitig gibt es Bestrebungen, Red Teaming teilweise zu automatisieren: Ein KI-Modell generiert dabei Angriffseingaben fuer ein anderes Modell. Das skaliert besser als rein menschliches Testen, ersetzt aber die menschliche Kreativitaet und Urteilsfaehigkeit nicht vollstaendig.

Welche Bedeutung hat Red Teaming fuer Unternehmen?

Fuer Unternehmen, die KI-Systeme einsetzen oder entwickeln, ist Red Teaming aus mehreren Gruenden relevant:

Risikominimierung: Schwachstellen werden gefunden, bevor Kunden oder Angreifer sie entdecken.
Compliance: Der EU AI Act verlangt fuer Hochrisiko-KI-Systeme eine Risikobewertung. Red Teaming ist ein etabliertes Instrument dafuer.
Vertrauen: Dokumentiertes Red Teaming zeigt Kunden und Partnern, dass das Unternehmen KI-Sicherheit ernst nimmt.
Kontinuierlicher Prozess: Red Teaming ist keine einmalige Pruefung, sondern muss bei jedem Modell-Update und jeder Aenderung der Einsatzumgebung wiederholt werden.

Auch Unternehmen, die Modelle von Drittanbietern nutzen (etwa ueber APIs), sollten eigenes Red Teaming durchfuehren — denn das Verhalten des Modells im spezifischen Einsatzkontext kann sich von den Testergebnissen des Anbieters unterscheiden.

Fazit

Red Teaming ist die gezielte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe. Es verbindet Methoden aus Cybersecurity und KI-Forschung und ist Bestandteil des Sicherheitsprozesses aller grossen KI-Anbieter. Fuer Unternehmen, die KI einsetzen, ist es ein wichtiges Instrument zur Risikominimierung — besonders vor dem Hintergrund regulatorischer Anforderungen wie dem EU AI Act.

Haftungsausschluss (Details anzeigen)(Details ausblenden)

Die bereitgestellten Informationen dienen ausschließlich der allgemeinen Orientierung. Für Richtigkeit, Vollständigkeit und Aktualität wird keine Gewähr übernommen. Die Inhalte sind nicht rechtsverbindlich und nicht Bestandteil einer Leistungsbeschreibung.