Lektion 5 von 5·10 Min Lesezeit

Kosten optimieren

AI-Kosten können schnell außer Kontrolle geraten. Die gute Nachricht: Mit den richtigen Strategien senken Sie Ihre Inference-Kosten um 50–80 % — ohne Qualitätsverlust.

Die 5 Hebel der Kostenoptimierung

1. Intelligentes Model-Routing

Nicht jede Anfrage braucht das stärkste Modell.

Routing-Strategie:

  • Einfache Fragen (FAQ, Zusammenfassung): GPT-4o-mini oder Llama 3 8B → ~95 % günstiger
  • Standard-Aufgaben (Textgenerierung, Analyse): GPT-4o oder Claude Sonnet → Baseline
  • Komplexe Aufgaben (Code-Review, Reasoning): Claude Opus oder GPT-4o → Premium-Kosten

Automatische Klassifikation: Ein kleines Classifier-Modell (< 1B Parameter) entscheidet in < 10 ms, welches Modell die Anfrage bearbeitet. Einsparung: 40–60 % der Gesamtkosten.

2. Caching-Strategien

Das günstigste Token ist das, das Sie nicht generieren.

  • Exact Match Cache: Identische Anfragen → Redis-Lookup (1 ms statt 2 s)
  • Semantic Cache: Ähnliche Anfragen → Vector-Similarity-Suche
  • Prompt Caching: Anthropic/OpenAI bieten bis zu 90 % Rabatt auf wiederholte Prompt-Präfixe
  • Response Caching: Stabile Antworten (z. B. Produktbeschreibungen) mit TTL cachen

Typische Cache-Hit-Rate: 20–40 % → direkte Kostenreduktion.

3. Batching

Anfragen bündeln statt einzeln senden.

  • Synchrones Batching: Sammeln Sie Anfragen für 100 ms, dann als Batch senden
  • Asynchrones Batching: Nicht-zeitkritische Aufgaben (Reports, Analysen) in der Nacht verarbeiten
  • Batch-APIs: OpenAI bietet 50 % Rabatt für asynchrone Batch-Anfragen (24h SLA)

4. Smaller Models gezielt einsetzen

Große Modelle sind nicht immer besser.

Benchmark-Ergebnisse 2026:

  • GPT-4o-mini erreicht 92 % der GPT-4o-Qualität bei 1/20 der Kosten
  • Llama 3.2 3B für Klassifikation: 97 % Accuracy bei 1/100 der Kosten eines 70B-Modells
  • Spezialisierte Fine-Tuned Models schlagen General-Purpose-Models in ihrem Bereich

Regel: Testen Sie immer zuerst das kleinste Modell. Skalieren Sie nur hoch, wenn die Qualität nicht reicht.

5. Token-Optimierung

Weniger Tokens = weniger Kosten.

  • Prompts kürzen: System-Prompts auf das Wesentliche reduzieren (oft 50 % kürzer möglich)
  • Output begrenzen: max_tokens setzen, um Endlos-Antworten zu verhindern
  • Structured Output: JSON statt Fließtext — präziser und tokeneffizienter
  • Kontext-Fenster: Nur relevante Dokumente im Kontext, nicht alle

Kosten-Dashboard

Tracken Sie täglich:

  1. Kosten pro Use Case (nicht nur gesamt)
  2. Kosten pro Nutzer (Power-User identifizieren)
  3. Cache-Hit-Rate (Ziel: > 30 %)
  4. Modell-Verteilung (wie viel % läuft auf günstigem Modell?)

Ziel 2026: Unter 0,01 € pro Nutzer-Interaktion. Mit den richtigen Optimierungen ist das für die meisten Use Cases erreichbar.

📝

Quiz

Frage 1 von 3

Welche Kostenoptimierungsstrategie bringt typischerweise die größte Einsparung?