Lektion 5 von 6·10 Min Lesezeit

Evaluation und Qualitätssicherung

Eine RAG-Pipeline zu bauen ist einfach. Eine RAG-Pipeline zu bauen, die zuverlässig korrekte Antworten liefert, ist schwer. Systematische Evaluation ist der Unterschied zwischen Prototyp und Production.

Die drei Qualitätsdimensionen

1. Retrieval-Qualität

Findet die Pipeline die richtigen Chunks?

  • Precision@K: Wie viele der Top-K Chunks sind tatsächlich relevant?
  • Recall@K: Wie viele der relevanten Chunks wurden gefunden?
  • MRR (Mean Reciprocal Rank): Wie weit oben steht der erste relevante Chunk?

2. Generation-Qualität

Generiert das LLM korrekte Antworten aus den Chunks?

  • Faithfulness: Ist die Antwort durch die Quellen belegt? (Keine Halluzinationen)
  • Answer Relevancy: Beantwortet die Antwort tatsächlich die gestellte Frage?
  • Completeness: Enthält die Antwort alle relevanten Informationen?

3. End-to-End-Qualität

Wie gut funktioniert das Gesamtsystem?

  • Correctness: Stimmt die finale Antwort?
  • Latency: Wie schnell kommt die Antwort?
  • User Satisfaction: Bewerten echte Nutzer die Antworten positiv?

RAGAS Framework

RAGAS (Retrieval Augmented Generation Assessment) ist der De-facto-Standard für RAG-Evaluation:

MetrikMisstBereich
FaithfulnessHalluzinationsfreiheit0–1 (höher = besser)
Answer RelevancyRelevanz der Antwort0–1
Context PrecisionQualität des Retrievals0–1
Context RecallVollständigkeit des Retrievals0–1

Evaluation-Workflow

  1. Golden Dataset erstellen: 50–100 Frage-Antwort-Paare mit erwarteten Quellen
  2. Automatisierte Tests: RAGAS-Metriken nach jedem Pipeline-Change berechnen
  3. Human Evaluation: Stichproben von Domain-Experten bewerten lassen
  4. A/B-Testing: Verschiedene Konfigurationen vergleichen (Chunk-Größe, Reranker, Prompts)
  5. Production Monitoring: Nutzer-Feedback, Latency, Fehlerrate tracken

Häufige Probleme und Fixes

ProblemUrsacheFix
Falsche AntwortenIrrelevante ChunksReranking, besseres Chunking
„Ich weiß nicht"Relevante Doku fehltDokumentbasis erweitern
HalluzinationenSchwacher PromptSystem-Prompt verschärfen
LangsamZu viele ChunksTop-K reduzieren, Caching

Praxis-Tipp: Investieren Sie 30 % Ihrer RAG-Entwicklungszeit in Evaluation. Ein Golden Dataset mit 50 Fragen, das Sie nach jeder Änderung durchlaufen, spart Wochen an Debugging.