compliance

Guardrail

Ein Guardrail ist eine Sicherheits-Schicht zwischen User und Sprachmodell, die unerwünschte Eingaben oder Ausgaben blockiert — z.B. PII-Leaks, Prompt-Injection oder Off-Topic-Anfragen.

Auch genannt: Safety Layer

Im Detail

Wir setzen Guardrails an drei Stellen ein:

Input-Guardrail: Prompt-Injection-Erkennung (z.B. „Ignoriere alle Vorgaben“), Off-Topic-Filter
Output-Guardrail: PII-Leak-Detection (Steuernummern, IBANs etc.) bevor die Antwort raus geht
Tool-Guardrail: Berechtigungs-Checks bevor ein Skill ausgeführt wird („Darf dieser User wirklich diese Bestellung stornieren?“)

Im Detail

Verwandte Begriffe