Ein fine-getuntes Modell fühlt sich besser an — aber ist es das wirklich? Ohne systematische Evaluation fliegen Sie blind. Dieser Guide zeigt, wie Sie Modell-Qualität messbar und vergleichbar machen.
| Metrik | Was sie misst | Tool |
|---|---|---|
| BLEU | N-Gram-Übereinstimmung mit Referenz | SacreBLEU |
| ROUGE | Recall-basierte Überlappung | rouge-score |
| BERTScore | Semantische Ähnlichkeit | bert-score |
| Human Eval | Menschliche Bewertung (Goldstandard) | Custom |
Vergleichen Sie immer gegen:
┌─ Modell A (Baseline) ──────────────┐
Traffic (50/50) ──┤ ├─ Vergleich
└─ Modell B (Fine-Tuned) ────────────┘
Metriken: Accuracy, Latenz, User-Zufriedenheit, Kosten
Dauer: Mindestens 1 Woche mit statistisch signifikantem Traffic
Beim Fine-Tuning auf Aufgabe A kann die Performance auf Aufgabe B sinken (Catastrophic Forgetting):
Jeder Trainings-Run muss dokumentiert werden:
| Parameter | Beispiel |
|---|---|
| Modell | Llama 3.1 70B |
| Methode | QLoRA (r=16, alpha=32) |
| Daten | v2.3, 1.500 Beispiele |
| Epochs | 3 |
| Learning Rate | 2e-4 |
| Ergebnis | F1: 0.87, BLEU: 0.42 |
Tools: Weights & Biases, MLflow, Neptune
Praxis-Tipp: Erstellen Sie ein „Evaluation Playbook" mit 50 Test-Fällen, die Sie nach jedem Training durchlaufen. Automatisieren Sie, was möglich ist — aber menschliche Bewertung bleibt für Stil und Ton unverzichtbar.