ElevenLabs ist nicht nur für TTS bekannt — die Plattform bietet auch leistungsstarke Speech-to-Text-Funktionen und Audio-Analyse-Tools. Von Transkription über Speaker Diarization bis hin zur Echtzeit-Verarbeitung.
Die ElevenLabs Speech-to-Text API transkribiert Audio in Text mit hoher Genauigkeit:
const formData = new FormData()
formData.append('audio', audioFile)
formData.append('model_id', 'scribe_v1')
formData.append('language_code', 'de')
const response = await fetch(
'https://api.elevenlabs.io/v1/speech-to-text',
{
method: 'POST',
headers: { 'xi-api-key': process.env.ELEVENLABS_API_KEY },
body: formData,
}
)
const result = await response.json()
// { text: "Willkommen bei...", language: "de", segments: [...] }
| System | WER Deutsch | WER Englisch | Echtzeit | Preis/Min |
|---|---|---|---|---|
| ElevenLabs Scribe | ~4 % | ~3 % | Ja | 0,005 € |
| OpenAI Whisper | ~5 % | ~4 % | Nein | Gratis (lokal) |
| Deepgram | ~4 % | ~3 % | Ja | 0,0043 € |
| Azure Speech | ~5 % | ~4 % | Ja | 0,0093 € |
Speaker Diarization erkennt und trennt verschiedene Sprecher in einer Aufnahme:
{
"segments": [
{ "speaker": "Speaker_1", "start": 0.0, "end": 3.5, "text": "Guten Tag, wie kann ich helfen?" },
{ "speaker": "Speaker_2", "start": 3.8, "end": 7.2, "text": "Ich habe eine Frage zu meiner Bestellung." },
{ "speaker": "Speaker_1", "start": 7.5, "end": 11.0, "text": "Natürlich, können Sie mir Ihre Bestellnummer nennen?" }
]
}
| Sprecher | Genauigkeit | Empfehlung |
|---|---|---|
| 2 | 95–98 % | Exzellent |
| 3–5 | 90–95 % | Sehr gut |
| 6–10 | 80–90 % | Gut, manuelle Prüfung empfohlen |
| 10+ | 70–80 % | Herausfordernd, Pre-Enrollment hilft |
Über reine Transkription hinaus analysiert ElevenLabs auch emotionale Inhalte:
Für Live-Anwendungen bietet ElevenLabs Echtzeit-Transkription per WebSocket:
const ws = new WebSocket(
'wss://api.elevenlabs.io/v1/speech-to-text/stream'
)
ws.onopen = () => {
ws.send(JSON.stringify({
type: 'config',
api_key: process.env.ELEVENLABS_API_KEY,
model_id: 'scribe_v1',
language_code: 'de',
}))
}
// Audio-Chunks senden
mediaRecorder.ondataavailable = (event) => {
ws.send(event.data)
}
// Transkripte empfangen
ws.onmessage = (event) => {
const data = JSON.parse(event.data)
console.log('Transkript:', data.text)
}
Praxis-Tipp: Kombinieren Sie Speech-to-Text mit der TTS-API für vollständige Voice-Pipelines: Audio rein → Transkription → LLM-Verarbeitung → Antwort-Audio raus. Das ist die Grundlage jedes Voice Agents.