Zum Inhalt springen
Agent Hub

Was ist RAG?

RAG: Wie KI-Agenten auf Ihre Daten antworten — ohne sie zu halluzinieren.

Retrieval-Augmented Generation in 8 Minuten erklärt: vom Konzept über den Ablauf bis zu den Fallstricken aus zwei Jahren Praxis.

Was RAG ist

<p id="definition"><strong>Retrieval-Augmented Generation</strong> (RAG) ist die Standard-Technik, mit der wir Sprachmodelle dazu bringen, auf Basis Ihrer eigenen Inhalte zu antworten. Statt das Modell <em>nachzutrainieren</em> (Fine-Tuning), <em>geben</em> wir ihm bei jeder Anfrage die relevanten Dokument-Stücke mit.</p><p>Das Akronym setzt sich zusammen aus:</p><ul><li><strong>Retrieval</strong> — wir suchen aus Ihrer Wissensbasis (FAQs, PDFs, Notion, Confluence, Datenbanken …) die ähnlichsten Stücke.</li><li><strong>Augmented</strong> — diese werden dem Sprachmodell als Kontext mitgegeben.</li><li><strong>Generation</strong> — das Modell erzeugt die Antwort, gestützt auf die echten Quellen.</li></ul><p>Ergebnis: aktuell, präzise, mit Quellenangabe — und ohne dass das Modell raten oder halluzinieren muss. Mehr Hintergrund im Glossar-Eintrag <a href="/glossar/rag">RAG</a>.</p>
01features
warum

Warum nicht einfach Fine-Tuning?

Drei harte Vorteile von RAG gegenüber dem Nachtrainieren des Modells.

  • Aktuell

    Sie ändern eine FAQ — der Bot weiß es 30 Sekunden später. Fine-Tuning bräuchte einen neuen Trainings-Lauf.

    • Live-Index
  • Günstiger

    Re-Indexieren kostet Cents pro Dokument. Fine-Tuning kostet je nach Modell und Datenmenge dreistellige Beträge — pro Iteration.

    • €-Faktor 100
  • Transparent

    Jede Antwort kommt mit Source-ID. Sie sehen, welcher Absatz zitiert wurde. Bei Fine-Tuning ist das Modell selbst die Black Box.

    • Quellen-Pflicht
02how-it-works
ablauf

Wie ein RAG-System Schritt für Schritt arbeitet.

  1. Schritt 01

    Indexieren

    Ihre Inhalte werden in Stücke (Chunks) zerlegt. Jedes Stück bekommt ein Embedding — einen Vektor, der seinen semantischen Inhalt repräsentiert. Speicherung in einer Vector-DB (wir nutzen pgvector).

  2. Schritt 02

    Retrieven

    Bei einer Anfrage wird die Frage selbst zu einem Embedding. Wir suchen die k ähnlichsten Chunks (z.B. 5–10) per Kosinus-Ähnlichkeit. Optional: Hybrid-Search mit BM25-Keyword-Boost.

  3. Schritt 03

    Generieren

    Frage + Top-Chunks gehen ans Sprachmodell. Es antwortet ausschließlich auf Basis dieser Quellen — mit Source-IDs für jeden Satz.

03faq
qualitaet

Was gutes RAG vom mittelmäßigem unterscheidet.

Typische Fallstricke (und wie wir sie vermeiden)

<p id="fallstricke">Wir haben das auch erst lernen müssen. Diese Fehler haben uns Zeit gekostet:</p><ul><li><strong>Embeddings ohne Update-Pipeline</strong>. Quelle ändert sich, Embedding bleibt veraltet → Halbwissen. Lösung: Webhook auf jede CMS-Änderung, automatisches Re-Indexing in &lt;30 Sekunden.</li><li><strong>Zu kleine Chunks</strong>. 100-Token-Chunks verlieren Kontext, das Modell kann nicht mehr zusammenhängend antworten. 500–800 Tokens sind unser Standard.</li><li><strong>Keine Quellen-Pflicht</strong>. Modell schreibt etwas, das nicht in den Chunks steht — Halluzination. Wir verwerfen Antworten ohne Source-ID und retryen mit strengerem System-Prompt.</li><li><strong>Fehlende Eval-Suite</strong>. Ohne wöchentliche Test-Runs gegen 200+ echte Kunden-Fragen merken wir Regressionen erst, wenn der Kunde sich beschwert. Heute: jeder Deploy braucht grünes Eval, sonst Rollback.</li></ul>

Möchten Sie RAG in Ihrem Use Case sehen?

30 Minuten Demo mit Ihren echten Inhalten — kostenlos, unverbindlich.