Evaluation und Benchmarking

Ein fine-getuntes Modell fühlt sich besser an — aber ist es das wirklich? Ohne systematische Evaluation fliegen Sie blind. Dieser Guide zeigt, wie Sie Modell-Qualität messbar und vergleichbar machen.

Metriken je nach Use Case

Text-Generierung

Metrik	Was sie misst	Tool
BLEU	N-Gram-Übereinstimmung mit Referenz	SacreBLEU
ROUGE	Recall-basierte Überlappung	rouge-score
BERTScore	Semantische Ähnlichkeit	bert-score
Human Eval	Menschliche Bewertung (Goldstandard)	Custom

Klassifizierung

Accuracy, Precision, Recall, F1-Score
Confusion Matrix für Fehleranalyse
AUC-ROC für Schwellenwert-Optimierung

Domain-spezifisch

Medizin: Accuracy auf medizinischen Benchmarks (MedQA, PubMedQA)
Recht: Precision bei Vertragsanalyse
Code: Pass@K auf HumanEval, Funktionalitätstests

Das Evaluation-Setup

1. Test-Set vorbereiten

Nie Training-Daten zum Testen verwenden (Data Leakage!)
80/10/10-Split: Training / Validation / Test
Test-Set sollte die reale Verteilung widerspiegeln
Edge Cases und Adversarial Examples einbeziehen

2. Baseline definieren

Vergleichen Sie immer gegen:

Das Basismodell (ohne Fine-Tuning)
Den besten Prompt-Engineering-Ansatz
Ggf. RAG-basierte Lösung
Das vorherige Fine-Tuning (bei Updates)

3. A/B-Testing

                   ┌─ Modell A (Baseline) ──────────────┐
Traffic (50/50) ──┤                                      ├─ Vergleich
                   └─ Modell B (Fine-Tuned) ────────────┘

Metriken: Accuracy, Latenz, User-Zufriedenheit, Kosten
Dauer: Mindestens 1 Woche mit statistisch signifikantem Traffic

4. Regression-Tests

Beim Fine-Tuning auf Aufgabe A kann die Performance auf Aufgabe B sinken (Catastrophic Forgetting):

Vor dem Training: Benchmark auf Aufgaben A, B, C erstellen
Nach dem Training: Alle Benchmarks erneut laufen
Threshold: Maximal 5 % Verschlechterung auf anderen Aufgaben
Fix: Diverse Trainingsdaten, Multi-Task-Training, Regularisierung

Experiment-Tracking

Jeder Trainings-Run muss dokumentiert werden:

Parameter	Beispiel
Modell	Llama 3.1 70B
Methode	QLoRA (r=16, alpha=32)
Daten	v2.3, 1.500 Beispiele
Epochs	3
Learning Rate	2e-4
Ergebnis	F1: 0.87, BLEU: 0.42

Tools: Weights & Biases, MLflow, Neptune

Häufige Evaluations-Fehler

❌ Nur Loss-Kurve anschauen (sagt wenig über reale Qualität)
❌ Kein Baseline-Vergleich (alles fühlt sich „gut" an)
❌ Test-Set zu klein oder nicht repräsentativ
❌ Keine Regression-Tests nach Updates

Praxis-Tipp: Erstellen Sie ein „Evaluation Playbook" mit 50 Test-Fällen, die Sie nach jedem Training durchlaufen. Automatisieren Sie, was möglich ist — aber menschliche Bewertung bleibt für Stil und Ton unverzichtbar.