Lektion 4 von 5·11 Min Lesezeit

Monitoring und Observability

AI-Systeme in Produktion sind Black Boxes, wenn Sie sie nicht beobachten. Im Gegensatz zu klassischer Software können AI-Modelle leise degradieren — ohne einen einzigen Fehler zu werfen. Monitoring ist Ihre Versicherung.

Die drei Säulen der Observability

1. Metriken (Was passiert?)

Quantitative Daten über das Systemverhalten:

Infrastruktur-Metriken:

  • GPU-Auslastung (Ziel: 70–85 %)
  • Speicherverbrauch (HBM und RAM)
  • Netzwerk-Throughput und Latenz
  • Request-Queue-Länge

AI-spezifische Metriken:

  • Latenz (P50/P95/P99): Wie schnell antwortet das Modell? (Ziel: P95 < 2s)
  • Tokens pro Sekunde: Durchsatz des Modells
  • Error Rate: Fehlgeschlagene Anfragen (Ziel: < 0,1 %)
  • Cost per Request: Was kostet eine einzelne Anfrage?

Qualitäts-Metriken:

  • User Feedback Score: Daumen hoch/runter pro Antwort
  • Hallucination Rate: Wie oft erfindet das Modell Fakten? (manuell samplen)
  • Task Completion Rate: Wie oft löst die AI die Aufgabe des Nutzers?

2. Logging (Was ist passiert?)

Strukturierte Logs für Debugging und Audit:

Jede AI-Anfrage loggen:

  • Timestamp, User-ID, Session-ID
  • Input-Prompt (anonymisiert, wenn PII)
  • Modell-Name und -Version
  • Output, Token-Count, Latenz
  • Kosten pro Anfrage

Log-Levels:

  • INFO: Jede erfolgreiche Anfrage
  • WARN: Langsame Anfragen (> P95), hohe Token-Counts
  • ERROR: Fehlgeschlagene Anfragen, Timeout, Rate-Limit-Hits

3. Alerting (Wann reagieren?)

Automatische Benachrichtigungen bei Anomalien:

Critical Alerts (sofort reagieren):

  • Error Rate > 5 % über 5 Minuten
  • Latenz P95 > 10 Sekunden
  • GPU-Auslastung > 95 % über 10 Minuten
  • Kosten > 150 % des Tagesbudgets

Warning Alerts (innerhalb 1h prüfen):

  • Latenz-Anstieg > 50 % gegenüber Baseline
  • User-Feedback-Score sinkt um 20 %
  • Ungewöhnlich hoher Token-Verbrauch

Dashboard-Empfehlung

Ein gutes AI-Dashboard zeigt auf einen Blick:

  1. Request-Volumen (Trend + aktuelle Rate)
  2. Latenz-Verteilung (Histogramm P50/P95/P99)
  3. Fehlerrate (Time Series, letzte 24h)
  4. Kosten (kumuliert heute, Prognose Monatsende)
  5. Modell-Verteilung (welches Modell wie oft genutzt)

Tools: Grafana + Prometheus (Open Source), Datadog (Enterprise), Langfuse (AI-spezifisch, Open Source).

Goldene Regel: Was Sie nicht messen, können Sie nicht verbessern. Starten Sie mit 5 Metriken und erweitern Sie schrittweise.