Zum Inhalt springen
Agent Hub
Zurück zum Glossar
compliance

Guardrail

Ein Guardrail ist eine Sicherheits-Schicht zwischen User und Sprachmodell, die unerwünschte Eingaben oder Ausgaben blockiert — z.B. PII-Leaks, Prompt-Injection oder Off-Topic-Anfragen.

Auch genannt: Safety Layer

Im Detail

Wir setzen Guardrails an drei Stellen ein:

  • Input-Guardrail: Prompt-Injection-Erkennung (z.B. „Ignoriere alle Vorgaben“), Off-Topic-Filter
  • Output-Guardrail: PII-Leak-Detection (Steuernummern, IBANs etc.) bevor die Antwort raus geht
  • Tool-Guardrail: Berechtigungs-Checks bevor ein Skill ausgeführt wird („Darf dieser User wirklich diese Bestellung stornieren?“)

Verwandte Begriffe