← Zurück zum Blog
Engineering19. Februar 20267 Min. Lesezeit
Observability für KI-Agenten: was Sie tracken sollten
Latenz, Cost, Quality, Safety — vier Dimensionen, die Sie nicht ignorieren dürfen.
von Vernes Perviz
Klassische Metriken reichen nicht
Für eine REST-API tracken wir Latenz, Error-Rate, Throughput. Fertig. Bei einem KI-Agenten brauchen Sie mehr.
Latenz, aber multidimensional
- TTFT (time-to-first-token): wann sieht der User die ersten Wörter?
- TTLT (time-to-last-token): wann ist die ganze Antwort da?
- Tool-Latenz: wie lange brauchen Tool-Calls (CRM-Lookup, E-Mail-Versand)?
Im UI optimieren wir auf TTFT — User toleriert lange Antworten, wenn Tokens streamen.
Cost — pro Konversation, nicht pro Token
Token-Kosten sind unanschaulich. Pro Konversation = die Zahl, die der CFO versteht. Average $0.04/Konversation in unseren Setups; Outlier sind ein Indikator für Tool-Loops oder Pathologien.
Quality, die schwierigste Dimension
- Relevance: hat der Agent die Frage beantwortet? Auto-Score via LLM-as-Judge.
- Source coverage: kommen alle Aussagen aus retrievten Dokumenten?
- Tone fit: passt der Tonfall zur Brand-Persona?
Wir korrelieren Quality-Scores mit echten CSAT-Umfragen — Korrelation 0.71, gut genug zum Steuern.
Safety — nicht-verhandelbar
- PII-Leakage-Detector: Antworten werden gegen Regex + LLM-Detector geprüft, bevor sie raus gehen
- Jailbreak-Versuche: Prompts gegen Klassifikator
- Rate-Limiting pro User-Session
Stack
Wir nutzen LangSmith für Tracing, eigenes Dashboard auf Grafana für Aggregations-Metriken. Auf Wunsch deployen wir das in Ihrer eigenen Cloud.