Conversational AI Voice Agents sind die nächste Evolution von Chatbots. Statt Text tippen sprechen Nutzer natürlich — und der Agent antwortet in Echtzeit mit menschlicher Stimme. Die Architektur dahinter ist komplex, aber entscheidend für Latenz, Qualität und Nutzererlebnis.
Ein Voice Agent ist ein autonomes System, das Gespräche in natürlicher Sprache führt:
Nutzer spricht → ASR → LLM → TTS → Nutzer hört
↑ ↓
└── Turn-Taking ───┘
| Komponente | Funktion | ElevenLabs-Feature |
|---|---|---|
| ASR | Sprache → Text | Scribe STT |
| LLM | Verständnis + Antwort | Integriert (GPT-4o, Claude) |
| TTS | Text → Sprache | Turbo v2.5 (< 300 ms) |
| Turn Manager | Gesprächssteuerung | Conversational AI Engine |
| Tool Router | Externe APIs aufrufen | Function Calling |
| Memory | Kontext über Turns | Session State |
const agent = await elevenlabs.conversationalAI.create({
name: 'Kundenservice-Agent',
voice_id: 'brand-voice-id',
model: {
provider: 'openai',
model_id: 'gpt-4o',
},
system_prompt: `Du bist ein freundlicher Kundenservice-Agent
für DeepReshape. Du hilfst bei Fragen zu Produkten,
Bestellungen und technischem Support.`,
tools: [
{ name: 'check_order_status', description: '...' },
{ name: 'create_ticket', description: '...' },
],
first_message: 'Hallo! Wie kann ich Ihnen helfen?',
})
In einem Telefongespräch sprechen Menschen abwechselnd — mit natürlichen Übergängen. Ein Voice Agent muss dieses Verhalten replizieren:
| Feature | Beschreibung |
|---|---|
| End-of-Turn Detection | Erkennt, wann der Nutzer fertig ist (~300 ms) |
| Filler Words | "Hmm", "Also" während der LLM-Verarbeitung |
| Backchanneling | Kurze Bestätigungen: "Ja", "Verstehe" |
| Silence Handling | Nachfrage nach 5 Sekunden Stille |
Wenn ein Nutzer den Agent unterbricht, muss das System sofort reagieren:
Interrupt-Erkennung: 50 ms
Audio-Stopp: 100 ms
ASR-Verarbeitung: 200 ms
LLM-Response: 300 ms
TTS-Start: 200 ms
─────────────────────────────
Gesamt: 850 ms (Ziel: < 1.000 ms)
Moderne Voice Agents erkennen emotionale Zustände des Nutzers:
| Erkannte Emotion | Agent-Reaktion |
|---|---|
| Frustration | Empathisch: "Ich verstehe, dass das frustrierend ist. Lassen Sie mich direkt helfen." |
| Verwirrung | Klärend: "Lassen Sie mich das anders erklären..." |
| Dringlichkeit | Effizient: Kürzere Antworten, schneller zum Punkt |
| Zufriedenheit | Bestätigend: "Freut mich, dass ich helfen konnte!" |
Phase 1 — Design (1–2 Wochen):
Phase 2 — Entwicklung (2–4 Wochen):
Phase 3 — Pilotbetrieb (2–4 Wochen):
Phase 4 — Rollout (fortlaufend):
Praxis-Tipp: Investieren Sie 50 % Ihrer Zeit in Phase 1 (Design). Ein gut designter Agent mit 3 Use Cases schlägt einen schlecht designten mit 20. Conversational Design ist wichtiger als Technologie.
Welches Latenz-Budget sollte für die gesamte Interrupt-Verarbeitung angestrebt werden?