Lektion 1 von 5·11 Min Lesezeit

Voice Agents Architektur

Conversational AI Voice Agents sind die nächste Evolution von Chatbots. Statt Text tippen sprechen Nutzer natürlich — und der Agent antwortet in Echtzeit mit menschlicher Stimme. Die Architektur dahinter ist komplex, aber entscheidend für Latenz, Qualität und Nutzererlebnis.

Conversational AI Agents

Was ist ein Voice Agent?

Ein Voice Agent ist ein autonomes System, das Gespräche in natürlicher Sprache führt:

Nutzer spricht → ASR → LLM → TTS → Nutzer hört
      ↑                  ↓
      └── Turn-Taking ───┘

Architektur-Komponenten

KomponenteFunktionElevenLabs-Feature
ASRSprache → TextScribe STT
LLMVerständnis + AntwortIntegriert (GPT-4o, Claude)
TTSText → SpracheTurbo v2.5 (< 300 ms)
Turn ManagerGesprächssteuerungConversational AI Engine
Tool RouterExterne APIs aufrufenFunction Calling
MemoryKontext über TurnsSession State

ElevenLabs Conversational AI Setup

const agent = await elevenlabs.conversationalAI.create({
  name: 'Kundenservice-Agent',
  voice_id: 'brand-voice-id',
  model: {
    provider: 'openai',
    model_id: 'gpt-4o',
  },
  system_prompt: `Du bist ein freundlicher Kundenservice-Agent
    für DeepReshape. Du hilfst bei Fragen zu Produkten,
    Bestellungen und technischem Support.`,
  tools: [
    { name: 'check_order_status', description: '...' },
    { name: 'create_ticket', description: '...' },
  ],
  first_message: 'Hallo! Wie kann ich Ihnen helfen?',
})

Turn-Taking

Das fundamentale Problem

In einem Telefongespräch sprechen Menschen abwechselnd — mit natürlichen Übergängen. Ein Voice Agent muss dieses Verhalten replizieren:

  • Wann soll der Agent zuhören? (Nutzer spricht)
  • Wann soll der Agent antworten? (Nutzer hat aufgehört)
  • Was passiert bei Überlappung? (Beide sprechen gleichzeitig)

ElevenLabs Turn-Taking

FeatureBeschreibung
End-of-Turn DetectionErkennt, wann der Nutzer fertig ist (~300 ms)
Filler Words"Hmm", "Also" während der LLM-Verarbeitung
BackchannelingKurze Bestätigungen: "Ja", "Verstehe"
Silence HandlingNachfrage nach 5 Sekunden Stille

Interruption Handling

Warum Interruptions kritisch sind

Wenn ein Nutzer den Agent unterbricht, muss das System sofort reagieren:

  1. Audio-Output stoppen — sofort aufhören zu sprechen
  2. Neuen Input verarbeiten — was sagt der Nutzer?
  3. Kontext anpassen — bisherige Antwort verwerfen oder anpassen
  4. Neu antworten — auf den Interrupt reagieren

Latenz-Budget

Interrupt-Erkennung:    50 ms
Audio-Stopp:           100 ms
ASR-Verarbeitung:      200 ms
LLM-Response:          300 ms
TTS-Start:             200 ms
─────────────────────────────
Gesamt:                850 ms (Ziel: < 1.000 ms)

Emotion Detection

Emotionale Intelligenz für Voice Agents

Moderne Voice Agents erkennen emotionale Zustände des Nutzers:

  • Frustration: Lautere Stimme, schnelleres Sprechen, Seufzen
  • Verwirrung: Zögern, "Ähm"-Laute, Wiederholungen
  • Zufriedenheit: Ruhiger Ton, positive Wörter
  • Dringlichkeit: Schnelles Sprechen, kurze Sätze

Reaktion auf Emotionen

Erkannte EmotionAgent-Reaktion
FrustrationEmpathisch: "Ich verstehe, dass das frustrierend ist. Lassen Sie mich direkt helfen."
VerwirrungKlärend: "Lassen Sie mich das anders erklären..."
DringlichkeitEffizient: Kürzere Antworten, schneller zum Punkt
ZufriedenheitBestätigend: "Freut mich, dass ich helfen konnte!"

Voice Agent Lifecycle

Von der Entwicklung zum produktiven Einsatz

Phase 1 — Design (1–2 Wochen):

  • Persona definieren (Stimme, Tonalität, Grenzen)
  • Dialog-Flows entwerfen
  • Tools und Integrationen planen
  • Testfälle erstellen

Phase 2 — Entwicklung (2–4 Wochen):

  • Agent konfigurieren (Prompt, Voice, Tools)
  • Backend-Integrationen bauen (CRM, Ticketsystem)
  • Testing: Happy Path + Edge Cases
  • Latenz optimieren

Phase 3 — Pilotbetrieb (2–4 Wochen):

  • 10 % des Traffics auf Voice Agent
  • Monitoring: Containment Rate, CSAT, Latenz
  • Tägliche Analyse fehlgeschlagener Gespräche
  • Iterative Verbesserung

Phase 4 — Rollout (fortlaufend):

  • Schrittweise Traffic-Erhöhung
  • A/B-Testing verschiedener Konfigurationen
  • Neue Use Cases hinzufügen
  • Kontinuierliches Monitoring

Praxis-Tipp: Investieren Sie 50 % Ihrer Zeit in Phase 1 (Design). Ein gut designter Agent mit 3 Use Cases schlägt einen schlecht designten mit 20. Conversational Design ist wichtiger als Technologie.

📝

Quiz

Frage 1 von 3

Welches Latenz-Budget sollte für die gesamte Interrupt-Verarbeitung angestrebt werden?