← Zurück zum Glossartooling
Streaming
Streaming bedeutet, dass die Antwort des Sprachmodells Token für Token ausgeliefert wird, sobald sie generiert sind — der User sieht den Anfang, während das Modell noch schreibt.
Im Detail
Statt der User wartet 8 Sekunden auf den ganzen Block, sieht er nach 200ms die ersten Wörter und liest mit. Das macht KI-Antworten subjektiv viel schneller — auch wenn die time-to-last-token gleich bleibt.
Wir streamen standardmäßig in Widget, REST und SDK. Die einzigen Ausnahmen: wenn die Antwort von einem Tool-Call abhängt, der noch läuft.
Verwandte Begriffe
- MCPModel Context Protocol ist ein offener Standard von Anthropic, der definiert, wie KI-Agenten mit Tools, Datenquellen und APIs sprechen — quasi USB für KI.
- AuftragsverarbeitungEin Auftragsverarbeitungsvertrag (AVV) regelt rechtlich, wie ein Anbieter personenbezogene Daten im Auftrag des Kunden verarbeitet — DSGVO-Pflicht für jeden KI-Dienstleister.
- Context WindowDas Context Window ist die maximale Menge an Text (gemessen in Tokens), die ein Sprachmodell auf einmal verarbeiten kann — typisch 128k bis 1M Tokens bei aktuellen Modellen.