Lektion 1 von 6·10 Min Lesezeit

Was ist RAG?

Retrieval-Augmented Generation (RAG) kombiniert die Sprachfähigkeiten von Large Language Models mit externem Wissen. Statt das Modell mit allen Informationen zu trainieren, werden relevante Dokumente zur Laufzeit abgerufen und als Kontext übergeben.

Warum RAG?

LLMs haben drei fundamentale Limitierungen:

  1. Wissens-Cutoff: Das Modell kennt nur Daten bis zum Trainings-Zeitpunkt. Für aktuelle Informationen ist es blind.
  2. Halluzinationen: LLMs generieren überzeugend klingende, aber falsche Informationen — besonders bei Nischen-Wissen.
  3. Kein Firmenwissen: Interne Dokumente, Prozesse und Richtlinien sind dem Modell unbekannt.

RAG löst alle drei Probleme, indem es relevante Dokumente zur Laufzeit bereitstellt.

RAG vs. Fine-Tuning

KriteriumRAGFine-Tuning
AktualitätEchtzeit-Updates möglichErneutes Training nötig
KostenNiedrig (Infrastruktur)Hoch (GPU-Training)
HalluzinationenDeutlich reduziert (quellenbasiert)Weiterhin möglich
Setup-AufwandMittel (Pipeline bauen)Hoch (Daten aufbereiten, trainieren)
Best fürFaktenwissen, DokumenteStil, Format, Domänen-Sprache

Die RAG-Architektur im Überblick

Ingestion Phase (Offline)

  1. Dokumente sammeln (PDFs, Wikis, E-Mails, Datenbanken)
  2. Text extrahieren und bereinigen
  3. In Chunks aufteilen
  4. Embeddings generieren
  5. In Vektor-Datenbank speichern

Query Phase (Online)

  1. Nutzer stellt Frage
  2. Frage wird in Embedding umgewandelt
  3. Ähnlichste Chunks werden aus Vektor-DB abgerufen
  4. Chunks werden als Kontext an LLM übergeben
  5. LLM generiert Antwort basierend auf Kontext

Praxis-Tipp: RAG ist der schnellste Weg, Firmenwissen AI-zugänglich zu machen. In 80 % der Enterprise-Use-Cases ist RAG die bessere Wahl gegenüber Fine-Tuning — günstiger, aktueller und kontrollierbarer.

Die folgenden Lektionen vertiefen jeden Baustein der RAG-Architektur, von Embeddings über Chunking bis zur fertigen Pipeline.

📝

Quiz

Frage 1 von 3

Was löst RAG im Vergleich zu einem reinen LLM?