RAG ohne Halluzinationen: 7 Tricks aus der Praxis

Das eigentliche Problem mit RAG

Alle reden über Embeddings, Chunking-Strategien und Vector-DBs. Das ist die einfache Hälfte. Der schwierige Teil: dafür sorgen, dass das LLM auch wirklich nur das nutzt, was im Kontext steht, und nicht halluziniert, wenn die Antwort fehlt.

Trick 1: Hybrid Retrieval

Reine semantische Suche verfehlt eindeutige Keywords (Bestellnummer, Produktcode). Wir kombinieren BM25 + dense embeddings + ein leichtes Cross-Encoder-Reranking. Resultat: 18% Verbesserung im Recall@5.

Trick 2: Quellen-Abdeckung erzwingen

Wir markieren jeden Satz in der Antwort mit der Quell-ID. Wenn das LLM eine Aussage ohne Quelle einfügt, lehnen wir die Antwort ab und retry mit strengerem Prompt.

Trick 3: 'I don't know' ist ein Feature

Das LLM darf nicht raten. Wir trainieren mit Beispielen, in denen 'Ich finde dazu keine Information' die richtige Antwort ist. Bei niedriger Quellen-Konfidenz: Mensch-Übergabe.

Trick 4: Re-Indexing in Echtzeit

Ändert sich die Quelle, ist die Embedding veraltet. Wir hängen einen Webhook an Ihre CMS-Updates und re-indexen unter 30 Sekunden. Keine Stale Answers.

Trick 5: Multi-Hop Decomposition

'Wie viele Stunden Support sind im Pro-Paket inklusive und was kostet eine Erweiterung?', das sind zwei Fragen. Der Agent zerlegt sie und retrievt für jede einzeln. Bessere Coverage, kürzere Antworten.

Trick 6: Embedding-Cache

Gleiche Anfrage zweimal hintereinander? Wir cachen Embeddings + Top-K-Ergebnisse. Spart 60% Latenz auf wiederkehrenden Queries.

Trick 7: Eval-Suite mit echten Fragen

Jede Woche fahren wir eine Eval-Suite mit 200 echten Kunden-Fragen und vergleichen Antwort-Qualität gegen die letzten Versionen. Verschlechterungen werden geblockt, keinRollout ohne Green-Build.

Resultat

Kombiniert haben diese sieben Tricks die Halluzinations-Rate auf <2% gedrückt, bei mehr als 50.000 Konversationen pro Monat.