Lektion 5 von 6·10 Min Lesezeit

Monitoring & Observability

Ein Multi-Agent-System ohne Monitoring ist wie ein Auto ohne Armaturenbrett — Sie wissen nicht, ob es funktioniert, bis es zu spät ist. Observability geht über einfaches Logging hinaus: Sie müssen verstehen, was jeder Agent tut, wie lange er braucht und was er kostet.

Die drei Säulen der Observability

SäuleWas wird erfasstTools
LogsWas ist passiert? (Textuelle Aufzeichnung)n8n Execution Log, Loki
MetricsWie viel? Wie schnell? (Zahlenwerte über Zeit)Prometheus, Grafana
TracesWelchen Weg nahm die Anfrage? (End-to-End-Pfad)OpenTelemetry, Jaeger

Execution Logging in n8n

Structured Logging pro Agent

Implementieren Sie ein einheitliches Log-Format für alle Agents:

{
  "timestamp": "2026-02-20T14:30:00Z",
  "pipeline_id": "abc-123",
  "agent": "researcher",
  "action": "execute",
  "status": "completed",
  "duration_ms": 4523,
  "input_tokens": 250,
  "output_tokens": 1200,
  "model": "gpt-4o",
  "cost_usd": 0.0185,
  "metadata": { "sources_found": 5, "confidence": 87 }
}

Log-Levels für Multi-Agent-Systeme

LevelVerwendungBeispiel
DEBUGAgent-Input/Output (nur Entwicklung)Vollständiger Prompt und Response
INFOErfolgreiche Agent-Ausführung„Researcher completed in 4.5s"
WARNRetry oder Fallback ausgelöst„Writer retry 2/3 after timeout"
ERRORAgent-Fehler, DLQ-Eintrag„Reviewer failed: invalid JSON"
FATALPipeline abgebrochen„Circuit breaker open for all agents"

Performance Metrics

Key Performance Indicators (KPIs)

MetrikBeschreibungZielwert
Agent-Latenz (p50/p95/p99)Wie lange braucht ein Agent?p95 < 10s
Pipeline-LatenzEnd-to-End-Dauer der gesamten Pipeline< 30s
ErfolgsrateAnteil erfolgreicher Executions> 99 %
Retry-RateWie oft werden Retries benötigt?< 5 %
Fallback-RateWie oft springt der Fallback ein?< 1 %
Token-VerbrauchInput + Output Tokens pro PipelineBudget-abhängig

Prometheus Metrics (Beispiel)

# Agent-Latenz
agent_execution_duration_seconds{agent="researcher", status="success"} 4.523

# Token-Verbrauch
agent_tokens_total{agent="writer", type="input"} 250
agent_tokens_total{agent="writer", type="output"} 1200

# Fehler-Zähler
agent_errors_total{agent="reviewer", error_type="timeout"} 3

Cost Tracking pro Agent

Kosten-Transparenz ist bei Multi-Agent-Systemen kritisch — jeder Agent verbraucht Tokens.

Cost Dashboard

AgentModellAvg. Tokens/RunKosten/RunRuns/TagKosten/Tag
ResearcherGPT-4o1.500$0.023500$11.50
WriterGPT-4o2.000$0.030500$15.00
ReviewerGPT-4o-mini800$0.002500$1.00
Gesamt$27.50

Kosten-Optimierung

  • Modell-Tiering: Einfache Agents nutzen günstigere Modelle (GPT-4o-mini, Claude Haiku)
  • Caching: Identische Anfragen zwischenspeichern (Redis, 5 Min TTL)
  • Token-Limits: Maximale Token pro Agent begrenzen
  • Batch-Processing: Anfragen bündeln statt einzeln verarbeiten

OpenTelemetry Integration

Für End-to-End-Tracing über alle Agents hinweg:

Pipeline Start
  └── Orchestrator (span: 28.5s)
       ├── Researcher Agent (span: 4.5s)
       │    ├── LLM Call (span: 3.8s) [model: gpt-4o, tokens: 1500]
       │    └── DB Write (span: 0.2s)
       ├── Writer Agent (span: 8.2s)
       │    ├── DB Read (span: 0.1s)
       │    ├── LLM Call (span: 7.5s) [model: gpt-4o, tokens: 2000]
       │    └── DB Write (span: 0.3s)
       └── Reviewer Agent (span: 3.1s)
            ├── DB Read (span: 0.1s)
            └── LLM Call (span: 2.8s) [model: gpt-4o-mini, tokens: 800]

Praxis-Tipp: Beginnen Sie mit drei Metriken: Agent-Latenz, Erfolgsrate und Kosten pro Pipeline. Diese drei allein decken 80 % der Probleme auf. Fügen Sie OpenTelemetry-Tracing hinzu, wenn Sie mehr als 5 Agents haben und Debugging über die Pipeline hinweg nötig wird.