tooling

Streaming

Streaming bedeutet, dass die Antwort des Sprachmodells Token für Token ausgeliefert wird, sobald sie generiert sind — der User sieht den Anfang, während das Modell noch schreibt.

Im Detail

Statt der User wartet 8 Sekunden auf den ganzen Block, sieht er nach 200ms die ersten Wörter und liest mit. Das macht KI-Antworten subjektiv viel schneller — auch wenn die time-to-last-token gleich bleibt.

Wir streamen standardmäßig in Widget, REST und SDK. Die einzigen Ausnahmen: wenn die Antwort von einem Tool-Call abhängt, der noch läuft.

Im Detail

Verwandte Begriffe