Observability für KI-Agenten: was Sie tracken sollten

Klassische Metriken reichen nicht

Für eine REST-API tracken wir Latenz, Error-Rate, Throughput. Fertig. Bei einem KI-Agenten brauchen Sie mehr.

Latenz, aber multidimensional

TTFT (time-to-first-token): wann sieht der User die ersten Wörter?
TTLT (time-to-last-token): wann ist die ganze Antwort da?
Tool-Latenz: wie lange brauchen Tool-Calls (CRM-Lookup, E-Mail-Versand)?

Im UI optimieren wir auf TTFT — User toleriert lange Antworten, wenn Tokens streamen.

Cost — pro Konversation, nicht pro Token

Token-Kosten sind unanschaulich. Pro Konversation = die Zahl, die der CFO versteht. Average $0.04/Konversation in unseren Setups; Outlier sind ein Indikator für Tool-Loops oder Pathologien.

Quality, die schwierigste Dimension

Relevance: hat der Agent die Frage beantwortet? Auto-Score via LLM-as-Judge.
Source coverage: kommen alle Aussagen aus retrievten Dokumenten?
Tone fit: passt der Tonfall zur Brand-Persona?

Wir korrelieren Quality-Scores mit echten CSAT-Umfragen — Korrelation 0.71, gut genug zum Steuern.

Safety — nicht-verhandelbar

PII-Leakage-Detector: Antworten werden gegen Regex + LLM-Detector geprüft, bevor sie raus gehen
Jailbreak-Versuche: Prompts gegen Klassifikator
Rate-Limiting pro User-Session

Stack

Wir nutzen LangSmith für Tracing, eigenes Dashboard auf Grafana für Aggregations-Metriken. Auf Wunsch deployen wir das in Ihrer eigenen Cloud.