Lektion 4 von 5·10 Min Lesezeit

Evaluation und Benchmarking

Ein fine-getuntes Modell fühlt sich besser an — aber ist es das wirklich? Ohne systematische Evaluation fliegen Sie blind. Dieser Guide zeigt, wie Sie Modell-Qualität messbar und vergleichbar machen.

Metriken je nach Use Case

Text-Generierung

MetrikWas sie misstTool
BLEUN-Gram-Übereinstimmung mit ReferenzSacreBLEU
ROUGERecall-basierte Überlappungrouge-score
BERTScoreSemantische Ähnlichkeitbert-score
Human EvalMenschliche Bewertung (Goldstandard)Custom

Klassifizierung

  • Accuracy, Precision, Recall, F1-Score
  • Confusion Matrix für Fehleranalyse
  • AUC-ROC für Schwellenwert-Optimierung

Domain-spezifisch

  • Medizin: Accuracy auf medizinischen Benchmarks (MedQA, PubMedQA)
  • Recht: Precision bei Vertragsanalyse
  • Code: Pass@K auf HumanEval, Funktionalitätstests

Das Evaluation-Setup

1. Test-Set vorbereiten

  • Nie Training-Daten zum Testen verwenden (Data Leakage!)
  • 80/10/10-Split: Training / Validation / Test
  • Test-Set sollte die reale Verteilung widerspiegeln
  • Edge Cases und Adversarial Examples einbeziehen

2. Baseline definieren

Vergleichen Sie immer gegen:

  • Das Basismodell (ohne Fine-Tuning)
  • Den besten Prompt-Engineering-Ansatz
  • Ggf. RAG-basierte Lösung
  • Das vorherige Fine-Tuning (bei Updates)

3. A/B-Testing

                   ┌─ Modell A (Baseline) ──────────────┐
Traffic (50/50) ──┤                                      ├─ Vergleich
                   └─ Modell B (Fine-Tuned) ────────────┘

Metriken: Accuracy, Latenz, User-Zufriedenheit, Kosten
Dauer: Mindestens 1 Woche mit statistisch signifikantem Traffic

4. Regression-Tests

Beim Fine-Tuning auf Aufgabe A kann die Performance auf Aufgabe B sinken (Catastrophic Forgetting):

  • Vor dem Training: Benchmark auf Aufgaben A, B, C erstellen
  • Nach dem Training: Alle Benchmarks erneut laufen
  • Threshold: Maximal 5 % Verschlechterung auf anderen Aufgaben
  • Fix: Diverse Trainingsdaten, Multi-Task-Training, Regularisierung

Experiment-Tracking

Jeder Trainings-Run muss dokumentiert werden:

ParameterBeispiel
ModellLlama 3.1 70B
MethodeQLoRA (r=16, alpha=32)
Datenv2.3, 1.500 Beispiele
Epochs3
Learning Rate2e-4
ErgebnisF1: 0.87, BLEU: 0.42

Tools: Weights & Biases, MLflow, Neptune

Häufige Evaluations-Fehler

  • ❌ Nur Loss-Kurve anschauen (sagt wenig über reale Qualität)
  • ❌ Kein Baseline-Vergleich (alles fühlt sich „gut" an)
  • ❌ Test-Set zu klein oder nicht repräsentativ
  • ❌ Keine Regression-Tests nach Updates

Praxis-Tipp: Erstellen Sie ein „Evaluation Playbook" mit 50 Test-Fällen, die Sie nach jedem Training durchlaufen. Automatisieren Sie, was möglich ist — aber menschliche Bewertung bleibt für Stil und Ton unverzichtbar.