Lektion 2 von 5·12 Min Lesezeit

GPU-Auswahl und Inference-Kosten

GPUs sind das Herzstück jeder AI-Infrastruktur. Die richtige Wahl entscheidet über Performance, Kosten und Skalierbarkeit Ihrer AI-Anwendungen.

Die GPU-Landschaft 2026

NVIDIA H100 — Der aktuelle Standard

  • 80 GB HBM3 Speicher, bis zu 3.958 TFLOPS (FP8)
  • Preis: ~30.000–40.000 € pro GPU (Einzelkauf)
  • Cloud-Kosten: ~2,50–4,00 €/Stunde (on-demand)
  • Ideal für: Inference mittlerer bis großer Modelle (bis 70B Parameter)

NVIDIA H200 — Mehr Speicher, mehr Speed

  • 141 GB HBM3e Speicher — fast doppelt so viel wie H100
  • 30–40 % schnellere Inference durch höhere Bandbreite
  • Preis: ~35.000–50.000 € pro GPU
  • Ideal für: Große Modelle (70B+), lange Kontexte, Multi-Modal

NVIDIA B200 (Blackwell) — Next Generation

  • 192 GB HBM3e, FP4-Unterstützung für effiziente Inferenz
  • Bis zu 2,5x schneller als H100 bei Inference
  • Verfügbarkeit: Zunehmend ab Q2 2026
  • Ideal für: Wer heute neu investiert und zukunftssicher sein will

Alternativen

  • AMD MI300X: 192 GB HBM3, wettbewerbsfähig bei Preis/Leistung
  • Google TPU v5p: Optimal für JAX/TensorFlow-Workloads in GCP
  • AWS Inferentia2: Günstigste Option für reine Inferenz-Workloads

Inference-Kosten kalkulieren

API-basiert (Managed)

Am einfachsten — Sie zahlen pro Token:

ModellInput (1M Token)Output (1M Token)
GPT-4o~2,50 €~10,00 €
Claude 3.5 Sonnet~3,00 €~15,00 €
Llama 3 70B (hosted)~0,60 €~0,80 €

Self-Hosted

Eigene GPU-Infrastruktur — höhere Vorabkosten, aber günstiger bei Volumen:

Kostenberechnung pro Anfrage:

  1. GPU-Stunde: ~3,00 € (H100 Cloud) oder ~0,80 € (eigene, amortisiert über 3 Jahre)
  2. Durchsatz: ~50 Anfragen/Sekunde (Llama 70B, optimiert)
  3. Kosten pro Anfrage: ~0,000016 € (Self-Hosted) vs. ~0,002 € (API)

Optimierungs-Strategien

  • Quantisierung: FP16 → INT8 → INT4 reduziert Speicherbedarf um 50–75 %, Latenz um 30–50 %
  • Batching: Mehrere Anfragen gleichzeitig verarbeiten — Durchsatz verdreifachen
  • Model Distillation: Kleinere Modelle trainieren, die das große Modell imitieren
  • vLLM & TensorRT-LLM: Optimierte Inference-Engines mit PagedAttention

Entscheidungshilfe: Unter 10.000 Anfragen/Tag → API. Über 100.000 → Self-Hosted evaluieren. Dazwischen → es kommt auf den Use Case an.