Voice Agents Architektur

Conversational AI Voice Agents sind die nächste Evolution von Chatbots. Statt Text tippen sprechen Nutzer natürlich — und der Agent antwortet in Echtzeit mit menschlicher Stimme. Die Architektur dahinter ist komplex, aber entscheidend für Latenz, Qualität und Nutzererlebnis.

Conversational AI Agents

Was ist ein Voice Agent?

Ein Voice Agent ist ein autonomes System, das Gespräche in natürlicher Sprache führt:

Nutzer spricht → ASR → LLM → TTS → Nutzer hört
      ↑                  ↓
      └── Turn-Taking ───┘

Architektur-Komponenten

Komponente	Funktion	ElevenLabs-Feature
ASR	Sprache → Text	Scribe STT
LLM	Verständnis + Antwort	Integriert (GPT-4o, Claude)
TTS	Text → Sprache	Turbo v2.5 (< 300 ms)
Turn Manager	Gesprächssteuerung	Conversational AI Engine
Tool Router	Externe APIs aufrufen	Function Calling
Memory	Kontext über Turns	Session State

ElevenLabs Conversational AI Setup

const agent = await elevenlabs.conversationalAI.create({
  name: 'Kundenservice-Agent',
  voice_id: 'brand-voice-id',
  model: {
    provider: 'openai',
    model_id: 'gpt-4o',
  },
  system_prompt: `Du bist ein freundlicher Kundenservice-Agent
    für DeepReshape. Du hilfst bei Fragen zu Produkten,
    Bestellungen und technischem Support.`,
  tools: [
    { name: 'check_order_status', description: '...' },
    { name: 'create_ticket', description: '...' },
  ],
  first_message: 'Hallo! Wie kann ich Ihnen helfen?',
})

Turn-Taking

Das fundamentale Problem

In einem Telefongespräch sprechen Menschen abwechselnd — mit natürlichen Übergängen. Ein Voice Agent muss dieses Verhalten replizieren:

Wann soll der Agent zuhören? (Nutzer spricht)
Wann soll der Agent antworten? (Nutzer hat aufgehört)
Was passiert bei Überlappung? (Beide sprechen gleichzeitig)

ElevenLabs Turn-Taking

Feature	Beschreibung
End-of-Turn Detection	Erkennt, wann der Nutzer fertig ist (~300 ms)
Filler Words	"Hmm", "Also" während der LLM-Verarbeitung
Backchanneling	Kurze Bestätigungen: "Ja", "Verstehe"
Silence Handling	Nachfrage nach 5 Sekunden Stille

Interruption Handling

Warum Interruptions kritisch sind

Wenn ein Nutzer den Agent unterbricht, muss das System sofort reagieren:

Audio-Output stoppen — sofort aufhören zu sprechen
Neuen Input verarbeiten — was sagt der Nutzer?
Kontext anpassen — bisherige Antwort verwerfen oder anpassen
Neu antworten — auf den Interrupt reagieren

Latenz-Budget

Interrupt-Erkennung:    50 ms
Audio-Stopp:           100 ms
ASR-Verarbeitung:      200 ms
LLM-Response:          300 ms
TTS-Start:             200 ms
─────────────────────────────
Gesamt:                850 ms (Ziel: < 1.000 ms)

Emotion Detection

Emotionale Intelligenz für Voice Agents

Moderne Voice Agents erkennen emotionale Zustände des Nutzers:

Frustration: Lautere Stimme, schnelleres Sprechen, Seufzen
Verwirrung: Zögern, "Ähm"-Laute, Wiederholungen
Zufriedenheit: Ruhiger Ton, positive Wörter
Dringlichkeit: Schnelles Sprechen, kurze Sätze

Reaktion auf Emotionen

Erkannte Emotion	Agent-Reaktion
Frustration	Empathisch: "Ich verstehe, dass das frustrierend ist. Lassen Sie mich direkt helfen."
Verwirrung	Klärend: "Lassen Sie mich das anders erklären..."
Dringlichkeit	Effizient: Kürzere Antworten, schneller zum Punkt
Zufriedenheit	Bestätigend: "Freut mich, dass ich helfen konnte!"

Voice Agent Lifecycle

Von der Entwicklung zum produktiven Einsatz

Phase 1 — Design (1–2 Wochen):

Persona definieren (Stimme, Tonalität, Grenzen)
Dialog-Flows entwerfen
Tools und Integrationen planen
Testfälle erstellen

Phase 2 — Entwicklung (2–4 Wochen):

Agent konfigurieren (Prompt, Voice, Tools)
Backend-Integrationen bauen (CRM, Ticketsystem)
Testing: Happy Path + Edge Cases
Latenz optimieren

Phase 3 — Pilotbetrieb (2–4 Wochen):

10 % des Traffics auf Voice Agent
Monitoring: Containment Rate, CSAT, Latenz
Tägliche Analyse fehlgeschlagener Gespräche
Iterative Verbesserung

Phase 4 — Rollout (fortlaufend):

Schrittweise Traffic-Erhöhung
A/B-Testing verschiedener Konfigurationen
Neue Use Cases hinzufügen
Kontinuierliches Monitoring

Praxis-Tipp: Investieren Sie 50 % Ihrer Zeit in Phase 1 (Design). Ein gut designter Agent mit 3 Use Cases schlägt einen schlecht designten mit 20. Conversational Design ist wichtiger als Technologie.