Zum Inhalt springen
Agent Hub
← Zurück zum Blog
Engineering19. Februar 20267 Min. Lesezeit

Observability für KI-Agenten: was Sie tracken sollten

Latenz, Cost, Quality, Safety — vier Dimensionen, die Sie nicht ignorieren dürfen.

von Vernes Perviz

Klassische Metriken reichen nicht

Für eine REST-API tracken wir Latenz, Error-Rate, Throughput. Fertig. Bei einem KI-Agenten brauchen Sie mehr.

Latenz, aber multidimensional

  • TTFT (time-to-first-token): wann sieht der User die ersten Wörter?
  • TTLT (time-to-last-token): wann ist die ganze Antwort da?
  • Tool-Latenz: wie lange brauchen Tool-Calls (CRM-Lookup, E-Mail-Versand)?

Im UI optimieren wir auf TTFT — User toleriert lange Antworten, wenn Tokens streamen.

Cost — pro Konversation, nicht pro Token

Token-Kosten sind unanschaulich. Pro Konversation = die Zahl, die der CFO versteht. Average $0.04/Konversation in unseren Setups; Outlier sind ein Indikator für Tool-Loops oder Pathologien.

Quality, die schwierigste Dimension

  • Relevance: hat der Agent die Frage beantwortet? Auto-Score via LLM-as-Judge.
  • Source coverage: kommen alle Aussagen aus retrievten Dokumenten?
  • Tone fit: passt der Tonfall zur Brand-Persona?

Wir korrelieren Quality-Scores mit echten CSAT-Umfragen — Korrelation 0.71, gut genug zum Steuern.

Safety — nicht-verhandelbar

  • PII-Leakage-Detector: Antworten werden gegen Regex + LLM-Detector geprüft, bevor sie raus gehen
  • Jailbreak-Versuche: Prompts gegen Klassifikator
  • Rate-Limiting pro User-Session

Stack

Wir nutzen LangSmith für Tracing, eigenes Dashboard auf Grafana für Aggregations-Metriken. Auf Wunsch deployen wir das in Ihrer eigenen Cloud.