Was ist RAG?

Retrieval-Augmented Generation (RAG) kombiniert die Sprachfähigkeiten von Large Language Models mit externem Wissen. Statt das Modell mit allen Informationen zu trainieren, werden relevante Dokumente zur Laufzeit abgerufen und als Kontext übergeben.

Warum RAG?

LLMs haben drei fundamentale Limitierungen:

Wissens-Cutoff: Das Modell kennt nur Daten bis zum Trainings-Zeitpunkt. Für aktuelle Informationen ist es blind.
Halluzinationen: LLMs generieren überzeugend klingende, aber falsche Informationen — besonders bei Nischen-Wissen.
Kein Firmenwissen: Interne Dokumente, Prozesse und Richtlinien sind dem Modell unbekannt.

RAG löst alle drei Probleme, indem es relevante Dokumente zur Laufzeit bereitstellt.

RAG vs. Fine-Tuning

Kriterium	RAG	Fine-Tuning
Aktualität	Echtzeit-Updates möglich	Erneutes Training nötig
Kosten	Niedrig (Infrastruktur)	Hoch (GPU-Training)
Halluzinationen	Deutlich reduziert (quellenbasiert)	Weiterhin möglich
Setup-Aufwand	Mittel (Pipeline bauen)	Hoch (Daten aufbereiten, trainieren)
Best für	Faktenwissen, Dokumente	Stil, Format, Domänen-Sprache

Die RAG-Architektur im Überblick

Ingestion Phase (Offline)

Dokumente sammeln (PDFs, Wikis, E-Mails, Datenbanken)
Text extrahieren und bereinigen
In Chunks aufteilen
Embeddings generieren
In Vektor-Datenbank speichern

Query Phase (Online)

Nutzer stellt Frage
Frage wird in Embedding umgewandelt
Ähnlichste Chunks werden aus Vektor-DB abgerufen
Chunks werden als Kontext an LLM übergeben
LLM generiert Antwort basierend auf Kontext

Praxis-Tipp: RAG ist der schnellste Weg, Firmenwissen AI-zugänglich zu machen. In 80 % der Enterprise-Use-Cases ist RAG die bessere Wahl gegenüber Fine-Tuning — günstiger, aktueller und kontrollierbarer.