Speech-to-Text & Audio Intelligence

ElevenLabs ist nicht nur für TTS bekannt — die Plattform bietet auch leistungsstarke Speech-to-Text-Funktionen und Audio-Analyse-Tools. Von Transkription über Speaker Diarization bis hin zur Echtzeit-Verarbeitung.

Transkription API

Grundfunktion

Die ElevenLabs Speech-to-Text API transkribiert Audio in Text mit hoher Genauigkeit:

const formData = new FormData()
formData.append('audio', audioFile)
formData.append('model_id', 'scribe_v1')
formData.append('language_code', 'de')

const response = await fetch(
  'https://api.elevenlabs.io/v1/speech-to-text',
  {
    method: 'POST',
    headers: { 'xi-api-key': process.env.ELEVENLABS_API_KEY },
    body: formData,
  }
)
const result = await response.json()
// { text: "Willkommen bei...", language: "de", segments: [...] }

Unterstützte Formate

Audio: MP3, WAV, FLAC, OGG, M4A, WebM
Maximale Dateigröße: 1 GB
Sprachen: 99+ Sprachen mit automatischer Erkennung
Genauigkeit: Word Error Rate (WER) von 3–5 % für Deutsch

Qualitätsvergleich

System	WER Deutsch	WER Englisch	Echtzeit	Preis/Min
ElevenLabs Scribe	~4 %	~3 %	Ja	0,005 €
OpenAI Whisper	~5 %	~4 %	Nein	Gratis (lokal)
Deepgram	~4 %	~3 %	Ja	0,0043 €
Azure Speech	~5 %	~4 %	Ja	0,0093 €

Speaker Diarization

Wer hat was gesagt?

Speaker Diarization erkennt und trennt verschiedene Sprecher in einer Aufnahme:

{
  "segments": [
    { "speaker": "Speaker_1", "start": 0.0, "end": 3.5, "text": "Guten Tag, wie kann ich helfen?" },
    { "speaker": "Speaker_2", "start": 3.8, "end": 7.2, "text": "Ich habe eine Frage zu meiner Bestellung." },
    { "speaker": "Speaker_1", "start": 7.5, "end": 11.0, "text": "Natürlich, können Sie mir Ihre Bestellnummer nennen?" }
  ]
}

Genauigkeit nach Sprecheranzahl

Sprecher	Genauigkeit	Empfehlung
2	95–98 %	Exzellent
3–5	90–95 %	Sehr gut
6–10	80–90 %	Gut, manuelle Prüfung empfohlen
10+	70–80 %	Herausfordernd, Pre-Enrollment hilft

Use Cases

Meeting-Protokolle: Automatische Zuordnung von Aussagen zu Teilnehmern
Call-Center-Analyse: Kunde vs. Agent getrennt analysieren
Interview-Transkription: Fragen und Antworten klar trennen
Compliance-Recording: Wer hat wann was gesagt?

Audio-Analyse

Sentiment & Emotion Detection

Über reine Transkription hinaus analysiert ElevenLabs auch emotionale Inhalte:

Sentiment: Positiv, neutral, negativ
Emotionen: Freude, Ärger, Traurigkeit, Überraschung, Angst
Intensität: Stärke der erkannten Emotion
Trends: Emotionsverlauf über das Gespräch

Sprach-Analyse-Metriken

Sprechgeschwindigkeit: Wörter pro Minute
Pausen: Häufigkeit und Dauer von Stille
Überlappungen: Wie oft sprechen Personen gleichzeitig?
Filler Words: "Ähm", "Äh", "Also" — Frequenz zählen

Echtzeit-Transkription

WebSocket-basiert

Für Live-Anwendungen bietet ElevenLabs Echtzeit-Transkription per WebSocket:

const ws = new WebSocket(
  'wss://api.elevenlabs.io/v1/speech-to-text/stream'
)

ws.onopen = () => {
  ws.send(JSON.stringify({
    type: 'config',
    api_key: process.env.ELEVENLABS_API_KEY,
    model_id: 'scribe_v1',
    language_code: 'de',
  }))
}

// Audio-Chunks senden
mediaRecorder.ondataavailable = (event) => {
  ws.send(event.data)
}

// Transkripte empfangen
ws.onmessage = (event) => {
  const data = JSON.parse(event.data)
  console.log('Transkript:', data.text)
}

Latenz-Erwartungen

Interim Results: ~200 ms (vorläufig, kann sich ändern)
Final Results: ~500 ms (bestätigt, stabil)
End-of-Speech Detection: ~300 ms nach Sprechende

Anwendungen

Live-Untertitel: Für Webinare, Konferenzen, Live-Streams
Voice Commands: Sprachbefehle in Echtzeit erkennen
Meeting-AI: Live-Transkription während des Meetings
Accessibility: Echtzeit-Untertitel für Hörgeschädigte

Praxis-Tipp: Kombinieren Sie Speech-to-Text mit der TTS-API für vollständige Voice-Pipelines: Audio rein → Transkription → LLM-Verarbeitung → Antwort-Audio raus. Das ist die Grundlage jedes Voice Agents.