RAG ohne Halluzinationen: 7 Tricks aus der Praxis
Gute Quellen sind nicht genug. So machen Sie Ihren Agenten faktisch verlässlich.
von Vernes Perviz
Das eigentliche Problem mit RAG
Alle reden über Embeddings, Chunking-Strategien und Vector-DBs. Das ist die einfache Hälfte. Der schwierige Teil: dafür sorgen, dass das LLM auch wirklich nur das nutzt, was im Kontext steht, und nicht halluziniert, wenn die Antwort fehlt.
Trick 1: Hybrid Retrieval
Reine semantische Suche verfehlt eindeutige Keywords (Bestellnummer, Produktcode). Wir kombinieren BM25 + dense embeddings + ein leichtes Cross-Encoder-Reranking. Resultat: 18% Verbesserung im Recall@5.
Trick 2: Quellen-Abdeckung erzwingen
Wir markieren jeden Satz in der Antwort mit der Quell-ID. Wenn das LLM eine Aussage ohne Quelle einfügt, lehnen wir die Antwort ab und retry mit strengerem Prompt.
Trick 3: 'I don't know' ist ein Feature
Das LLM darf nicht raten. Wir trainieren mit Beispielen, in denen 'Ich finde dazu keine Information' die richtige Antwort ist. Bei niedriger Quellen-Konfidenz: Mensch-Übergabe.
Trick 4: Re-Indexing in Echtzeit
Ändert sich die Quelle, ist die Embedding veraltet. Wir hängen einen Webhook an Ihre CMS-Updates und re-indexen unter 30 Sekunden. Keine Stale Answers.
Trick 5: Multi-Hop Decomposition
'Wie viele Stunden Support sind im Pro-Paket inklusive und was kostet eine Erweiterung?', das sind zwei Fragen. Der Agent zerlegt sie und retrievt für jede einzeln. Bessere Coverage, kürzere Antworten.
Trick 6: Embedding-Cache
Gleiche Anfrage zweimal hintereinander? Wir cachen Embeddings + Top-K-Ergebnisse. Spart 60% Latenz auf wiederkehrenden Queries.
Trick 7: Eval-Suite mit echten Fragen
Jede Woche fahren wir eine Eval-Suite mit 200 echten Kunden-Fragen und vergleichen Antwort-Qualität gegen die letzten Versionen. Verschlechterungen werden geblockt, keinRollout ohne Green-Build.
Resultat
Kombiniert haben diese sieben Tricks die Halluzinations-Rate auf <2% gedrückt, bei mehr als 50.000 Konversationen pro Monat.