Lektion 4 von 6·10 Min Lesezeit

Kosten-Monitoring & Optimierung

AI Agents können schnell teuer werden — insbesondere bei GPT-4-class-Modellen und hohem Volumen. OpenClaw bietet granulares Kosten-Tracking und datengestützte Optimierungsempfehlungen.

Token Usage Tracking

Echtzeit-Kostenberechnung

OpenClaw berechnet Kosten pro Trace basierend auf aktuellen Modellpreisen:

Trace: order-processing-agent (tr_x9k2m1)
─────────────────────────────────────────
Modell:         gpt-4o (2025-08-06)
Input Tokens:   1,245 × $2.50/1M  = $0.003113
Output Tokens:  389 × $10.00/1M   = $0.003890
Tool Calls:     2 × avg $0.001    = $0.002000
Embedding:      1 × 512 tokens    = $0.000051
─────────────────────────────────────────
Gesamt:                              $0.009054

Kosten-Aggregation

DimensionBeispielNutzen
Per AgentSupport Agent: €847/MonatAgent-Level-Budgets
Per TeamSales Team: €2.100/MonatAbteilungs-Allokation
Per ProjectOnboarding Flow: €340/MonatProjekt-ROI
Per CustomerMandant A: €120/MonatMandanten-Abrechnung
Per ModelGPT-4o: €3.200/MonatModell-Vergleich

Cost Allocation per Team/Project

OpenClaw ordnet Kosten automatisch zu:

with oc.trace("support-agent") as trace:
    trace.set_cost_center({
        "team": "customer-success",
        "project": "tier-1-support",
        "budget_id": "CS-2026-Q1"
    })

Budget-Management

# budgets.yml
budgets:
  - id: CS-2026-Q1
    name: "Customer Success Q1 2026"
    limit: 5000 EUR
    period: quarterly
    alerts:
      - at: 50%   # €2.500
        channels: [email]
      - at: 80%   # €4.000
        channels: [slack, email]
      - at: 95%   # €4.750
        channels: [slack, pagerduty, email]
      - at: 100%  # €5.000
        action: throttle  # Agent-Throughput reduzieren

Budget Alerts

OpenClaw warnt proaktiv:

  • Trend-basiert — "Bei aktuellem Verbrauch überschreiten Sie das Budget in 8 Tagen"
  • Anomalie-basiert — "Token-Verbrauch 340% über Durchschnitt der letzten 7 Tage"
  • Schwellenwert-basiert — "80% des Monatsbudgets aufgebraucht (Tag 18 von 28)"

Optimierungsempfehlungen

OpenClaw analysiert Nutzungsmuster und gibt konkrete Empfehlungen:

1. Modell-Downgrade

Empfehlung: Modell-Downgrade für intent-classification
──────────────────────────────────────────────────────
Aktuell:    gpt-4o ($2.50/$10.00 per 1M tokens)
Empfohlen:  gpt-4o-mini ($0.15/$0.60 per 1M tokens)
Grund:      Accuracy-Differenz nur 0,3% bei diesem Task
Ersparnis:  ~€420/Monat (94% Reduktion für diesen Span)

2. Prompt-Optimierung

Empfehlung: Prompt-Komprimierung für support-agent
──────────────────────────────────────────────────
Aktuell:    Durchschnittlich 2.100 Input-Tokens pro Call
Problem:    System-Prompt enthält 1.400 redundante Tokens
Empfohlen:  Prompt auf 700 Tokens kürzen (Few-Shot → Instruction)
Ersparnis:  ~€180/Monat (33% Reduktion Input-Kosten)

3. Caching

Empfehlung: Semantic Cache für FAQ-Anfragen
──────────────────────────────────────────
Aktuell:    68% der Support-Anfragen sind wiederkehrend
Empfohlen:  Semantic Cache mit 0.95 Similarity-Threshold
Ersparnis:  ~€560/Monat (Cache-Hit eliminiert LLM-Call)

Kosten-Dashboard

Das Kosten-Dashboard zeigt:

  • Daily Burn Rate — Tagesaktuelle Ausgaben mit Trend
  • Budget Utilization — Fortschrittsbalken pro Budget
  • Cost per Interaction — Durchschnittkosten pro Agent-Interaktion
  • Model Cost Comparison — Kosten nach Modell aufgeschlüsselt
  • Optimization Potential — Geschätzte Einsparungen durch empfohlene Maßnahmen

Best Practice: Setzen Sie von Anfang an Cost Centers und Budgets auf. Ohne klare Kostenzuordnung wachsen AI-Ausgaben unkontrolliert. Die meisten Unternehmen sind überrascht, wenn sie erstmals sehen, was einzelne Agents tatsächlich kosten.