RAG (Retrieval-Augmented Generation) ist eine Technik, bei der ein grosses Sprachmodell (LLM) vor der Antwortgenerierung gezielt relevante Dokumente aus einer externen Wissensquelle abruft. Statt sich ausschliesslich auf das Wissen zu verlassen, das waehrend des Trainings eingelernt wurde, durchsucht das Modell eine Datenbank, ein Dokumentenarchiv oder ein Firmenwiki und bezieht die gefundenen Informationen in seine Antwort ein. Dadurch werden Halluzinationen reduziert, Antworten bleiben aktuell und koennen firmenspezifisches Wissen enthalten.
Der RAG-Prozess laeuft in zwei Phasen ab: Retrieval (Abruf) und Generation (Erzeugung).
Durch diese Architektur kann das Modell auf Informationen zugreifen, die nicht Teil seines Trainings waren — etwa interne Firmenrichtlinien, aktuelle Produktdaten oder branchenspezifische Dokumentation.
Sprachmodelle generieren Text auf Basis statistischer Wahrscheinlichkeiten. Wenn das Modell eine Frage nicht sicher beantworten kann, erzeugt es trotzdem eine plausibel klingende Antwort — auch wenn diese faktisch falsch ist. Dieses Verhalten wird als Halluzination bezeichnet.
RAG reduziert Halluzinationen, indem es dem Modell konkrete Quellen liefert. Statt zu raten, kann das Modell aus realen Dokumenten zitieren. Viele RAG-Implementierungen zeigen zusaetzlich die verwendeten Quellen an, sodass Nutzer die Antwort ueberpruefen koennen.
RAG und Fine-Tuning sind zwei verschiedene Ansaetze, um Sprachmodelle an spezifische Anforderungen anzupassen.
| Merkmal | RAG | Fine-Tuning |
|---|---|---|
| Ansatz | Externe Dokumente zur Laufzeit abrufen | Modell mit eigenen Daten nachtrainieren |
| Wissen aktualisieren | Dokumente austauschen — sofort wirksam | Erneutes Training erforderlich |
| Kosten | Vektordatenbank und Embedding-Kosten | GPU-Rechenzeit fuer Training |
| Halluzinationsrisiko | Deutlich reduziert durch Quellenangaben | Geringer als Basismodell, aber nicht eliminiert |
| Einsatzgebiet | Wissensmanagement, Support, Dokumentation | Stil, Ton, branchenspezifische Sprache |
In der Praxis werden RAG und Fine-Tuning haeufig kombiniert: Fine-Tuning passt den Stil und die Ausdruecke des Modells an, RAG liefert aktuelle Fakten und Quellenbelege.
RAG eignet sich ueberall dort, wo ein KI-System auf firmenspezifische oder sich aendernde Informationen zugreifen muss.
Die Qualitaet eines RAG-Systems haengt massgeblich von der Qualitaet der Datenquellen und der Chunk-Strategie ab.
RAG (Retrieval-Augmented Generation) verbindet die Staerken grosser Sprachmodelle mit externen Wissensquellen. Statt sich auf eingefrorenes Trainingswissen zu verlassen, greift das Modell auf aktuelle Dokumente zu und kann quellenbasierte Antworten liefern. Fuer Unternehmen ist RAG eine praktikable Moeglichkeit, KI-Systeme mit firmenspezifischem Wissen auszustatten, ohne ein eigenes Modell trainieren zu muessen.
Die bereitgestellten Informationen dienen ausschließlich der allgemeinen Orientierung. Für Richtigkeit, Vollständigkeit und Aktualität wird keine Gewähr übernommen. Die Inhalte sind nicht rechtsverbindlich und nicht Bestandteil einer Leistungsbeschreibung.