Naive Chunks (alle 500 Tokens splitten) verlieren Zusammenhang. Wir teilen entlang von Absatz-Grenzen, mit Overlap, und behalten Heading-Hierarchie als Metadaten.

Pure semantische Suche verfehlt eindeutige Keywords (Bestellnummern, Produktcodes). Wir kombinieren BM25 + Dense-Embeddings + leichtes Cross-Encoder-Reranking. Recall@5 steigt typisch um 18%.

Top 50 per schnellem Vector-Search holen, dann mit einem genaueren Cross-Encoder auf Top 5 reduzieren. Latenz +50ms, Qualität deutlich besser.

Wenn die Top-Chunk-Scores zu niedrig sind, antwortet der Agent nicht — sondern gibt's an einen Menschen. Standard: Schwelle bei Cosine 0.78.

Multi-Query-Decomposition

Eine Frage wie 'Was kostet der Pro-Plan und gilt der für 12 Monate?' zerlegen wir in 2 Sub-Queries. Bessere Coverage.

Agent Hub

Demo buchen

← Wissen-Hub

Was ist RAG?

RAG: Wie KI-Agenten auf Ihre Daten antworten — ohne sie zu halluzinieren.

Retrieval-Augmented Generation in 8 Minuten erklärt: vom Konzept über den Ablauf bis zu den Fallstricken aus zwei Jahren Praxis.

Was RAG ist

Retrieval-Augmented Generation (RAG) ist die Standard-Technik, mit der wir Sprachmodelle dazu bringen, auf Basis Ihrer eigenen Inhalte zu antworten. Statt das Modell nachzutrainieren (Fine-Tuning), geben wir ihm bei jeder Anfrage die relevanten Dokument-Stücke mit.Das Akronym setzt sich zusammen aus:<ul><li>Retrieval — wir suchen aus Ihrer Wissensbasis (FAQs, PDFs, Notion, Confluence, Datenbanken …) die ähnlichsten Stücke.</li><li>Augmented — diese werden dem Sprachmodell als Kontext mitgegeben.</li><li>Generation — das Modell erzeugt die Antwort, gestützt auf die echten Quellen.</li></ul>Ergebnis: aktuell, präzise, mit Quellenangabe — und ohne dass das Modell raten oder halluzinieren muss. Mehr Hintergrund im Glossar-Eintrag <a href="/glossar/rag">RAG</a>.

01features

warum

Warum nicht einfach Fine-Tuning?

Drei harte Vorteile von RAG gegenüber dem Nachtrainieren des Modells.

Aktuell
Sie ändern eine FAQ — der Bot weiß es 30 Sekunden später. Fine-Tuning bräuchte einen neuen Trainings-Lauf.
- Live-Index
Günstiger
Re-Indexieren kostet Cents pro Dokument. Fine-Tuning kostet je nach Modell und Datenmenge dreistellige Beträge — pro Iteration.
- €-Faktor 100
Transparent
Jede Antwort kommt mit Source-ID. Sie sehen, welcher Absatz zitiert wurde. Bei Fine-Tuning ist das Modell selbst die Black Box.
- Quellen-Pflicht

02how-it-works

ablauf

Wie ein RAG-System Schritt für Schritt arbeitet.

Schritt 01
Indexieren
Ihre Inhalte werden in Stücke (Chunks) zerlegt. Jedes Stück bekommt ein Embedding — einen Vektor, der seinen semantischen Inhalt repräsentiert. Speicherung in einer Vector-DB (wir nutzen pgvector).
Schritt 02
Retrieven
Bei einer Anfrage wird die Frage selbst zu einem Embedding. Wir suchen die k ähnlichsten Chunks (z.B. 5–10) per Kosinus-Ähnlichkeit. Optional: Hybrid-Search mit BM25-Keyword-Boost.
Schritt 03
Generieren
Frage + Top-Chunks gehen ans Sprachmodell. Es antwortet ausschließlich auf Basis dieser Quellen — mit Source-IDs für jeden Satz.

03faq

qualitaet

Was gutes RAG vom mittelmäßigem unterscheidet.

Typische Fallstricke (und wie wir sie vermeiden)

Wir haben das auch erst lernen müssen. Diese Fehler haben uns Zeit gekostet:<ul><li>Embeddings ohne Update-Pipeline. Quelle ändert sich, Embedding bleibt veraltet → Halbwissen. Lösung: Webhook auf jede CMS-Änderung, automatisches Re-Indexing in <30 Sekunden.</li><li>Zu kleine Chunks. 100-Token-Chunks verlieren Kontext, das Modell kann nicht mehr zusammenhängend antworten. 500–800 Tokens sind unser Standard.</li><li>Keine Quellen-Pflicht. Modell schreibt etwas, das nicht in den Chunks steht — Halluzination. Wir verwerfen Antworten ohne Source-ID und retryen mit strengerem System-Prompt.</li><li>Fehlende Eval-Suite. Ohne wöchentliche Test-Runs gegen 200+ echte Kunden-Fragen merken wir Regressionen erst, wenn der Kunde sich beschwert. Heute: jeder Deploy braucht grünes Eval, sonst Rollback.</li></ul>

Möchten Sie RAG in Ihrem Use Case sehen?

30 Minuten Demo mit Ihren echten Inhalten — kostenlos, unverbindlich.

Demo buchen Was ist ein KI-Agent?

RAG: Wie KI-Agenten auf Ihre Daten antworten — ohne sie zu halluzinieren.

Was RAG ist

Warum nicht einfach Fine-Tuning?

Aktuell

Günstiger

Transparent

Wie ein RAG-System Schritt für Schritt arbeitet.

Indexieren

Retrieven

Generieren

Was gutes RAG vom mittelmäßigem unterscheidet.

Chunking-Strategie

Hybrid-Search

Re-Ranking

Konfidenz-Schwellen

Multi-Query-Decomposition

Typische Fallstricke (und wie wir sie vermeiden)

Möchten Sie RAG in Ihrem Use Case sehen?