Was ist RAG?
RAG: Wie KI-Agenten auf Ihre Daten antworten — ohne sie zu halluzinieren.
Retrieval-Augmented Generation in 8 Minuten erklärt: vom Konzept über den Ablauf bis zu den Fallstricken aus zwei Jahren Praxis.
Was RAG ist
Warum nicht einfach Fine-Tuning?
Drei harte Vorteile von RAG gegenüber dem Nachtrainieren des Modells.
Aktuell
Sie ändern eine FAQ — der Bot weiß es 30 Sekunden später. Fine-Tuning bräuchte einen neuen Trainings-Lauf.
- Live-Index
Günstiger
Re-Indexieren kostet Cents pro Dokument. Fine-Tuning kostet je nach Modell und Datenmenge dreistellige Beträge — pro Iteration.
- €-Faktor 100
Transparent
Jede Antwort kommt mit Source-ID. Sie sehen, welcher Absatz zitiert wurde. Bei Fine-Tuning ist das Modell selbst die Black Box.
- Quellen-Pflicht
Wie ein RAG-System Schritt für Schritt arbeitet.
- Schritt 01
Indexieren
Ihre Inhalte werden in Stücke (Chunks) zerlegt. Jedes Stück bekommt ein Embedding — einen Vektor, der seinen semantischen Inhalt repräsentiert. Speicherung in einer Vector-DB (wir nutzen pgvector).
- Schritt 02
Retrieven
Bei einer Anfrage wird die Frage selbst zu einem Embedding. Wir suchen die k ähnlichsten Chunks (z.B. 5–10) per Kosinus-Ähnlichkeit. Optional: Hybrid-Search mit BM25-Keyword-Boost.
- Schritt 03
Generieren
Frage + Top-Chunks gehen ans Sprachmodell. Es antwortet ausschließlich auf Basis dieser Quellen — mit Source-IDs für jeden Satz.
Was gutes RAG vom mittelmäßigem unterscheidet.
Typische Fallstricke (und wie wir sie vermeiden)
Möchten Sie RAG in Ihrem Use Case sehen?
30 Minuten Demo mit Ihren echten Inhalten — kostenlos, unverbindlich.