Lektion 4 von 5·10 Min Lesezeit

Speech-to-Text & Audio Intelligence

ElevenLabs ist nicht nur für TTS bekannt — die Plattform bietet auch leistungsstarke Speech-to-Text-Funktionen und Audio-Analyse-Tools. Von Transkription über Speaker Diarization bis hin zur Echtzeit-Verarbeitung.

Transkription API

Grundfunktion

Die ElevenLabs Speech-to-Text API transkribiert Audio in Text mit hoher Genauigkeit:

const formData = new FormData()
formData.append('audio', audioFile)
formData.append('model_id', 'scribe_v1')
formData.append('language_code', 'de')

const response = await fetch(
  'https://api.elevenlabs.io/v1/speech-to-text',
  {
    method: 'POST',
    headers: { 'xi-api-key': process.env.ELEVENLABS_API_KEY },
    body: formData,
  }
)
const result = await response.json()
// { text: "Willkommen bei...", language: "de", segments: [...] }

Unterstützte Formate

  • Audio: MP3, WAV, FLAC, OGG, M4A, WebM
  • Maximale Dateigröße: 1 GB
  • Sprachen: 99+ Sprachen mit automatischer Erkennung
  • Genauigkeit: Word Error Rate (WER) von 3–5 % für Deutsch

Qualitätsvergleich

SystemWER DeutschWER EnglischEchtzeitPreis/Min
ElevenLabs Scribe~4 %~3 %Ja0,005 €
OpenAI Whisper~5 %~4 %NeinGratis (lokal)
Deepgram~4 %~3 %Ja0,0043 €
Azure Speech~5 %~4 %Ja0,0093 €

Speaker Diarization

Wer hat was gesagt?

Speaker Diarization erkennt und trennt verschiedene Sprecher in einer Aufnahme:

{
  "segments": [
    { "speaker": "Speaker_1", "start": 0.0, "end": 3.5, "text": "Guten Tag, wie kann ich helfen?" },
    { "speaker": "Speaker_2", "start": 3.8, "end": 7.2, "text": "Ich habe eine Frage zu meiner Bestellung." },
    { "speaker": "Speaker_1", "start": 7.5, "end": 11.0, "text": "Natürlich, können Sie mir Ihre Bestellnummer nennen?" }
  ]
}

Genauigkeit nach Sprecheranzahl

SprecherGenauigkeitEmpfehlung
295–98 %Exzellent
3–590–95 %Sehr gut
6–1080–90 %Gut, manuelle Prüfung empfohlen
10+70–80 %Herausfordernd, Pre-Enrollment hilft

Use Cases

  • Meeting-Protokolle: Automatische Zuordnung von Aussagen zu Teilnehmern
  • Call-Center-Analyse: Kunde vs. Agent getrennt analysieren
  • Interview-Transkription: Fragen und Antworten klar trennen
  • Compliance-Recording: Wer hat wann was gesagt?

Audio-Analyse

Sentiment & Emotion Detection

Über reine Transkription hinaus analysiert ElevenLabs auch emotionale Inhalte:

  • Sentiment: Positiv, neutral, negativ
  • Emotionen: Freude, Ärger, Traurigkeit, Überraschung, Angst
  • Intensität: Stärke der erkannten Emotion
  • Trends: Emotionsverlauf über das Gespräch

Sprach-Analyse-Metriken

  • Sprechgeschwindigkeit: Wörter pro Minute
  • Pausen: Häufigkeit und Dauer von Stille
  • Überlappungen: Wie oft sprechen Personen gleichzeitig?
  • Filler Words: "Ähm", "Äh", "Also" — Frequenz zählen

Echtzeit-Transkription

WebSocket-basiert

Für Live-Anwendungen bietet ElevenLabs Echtzeit-Transkription per WebSocket:

const ws = new WebSocket(
  'wss://api.elevenlabs.io/v1/speech-to-text/stream'
)

ws.onopen = () => {
  ws.send(JSON.stringify({
    type: 'config',
    api_key: process.env.ELEVENLABS_API_KEY,
    model_id: 'scribe_v1',
    language_code: 'de',
  }))
}

// Audio-Chunks senden
mediaRecorder.ondataavailable = (event) => {
  ws.send(event.data)
}

// Transkripte empfangen
ws.onmessage = (event) => {
  const data = JSON.parse(event.data)
  console.log('Transkript:', data.text)
}

Latenz-Erwartungen

  • Interim Results: ~200 ms (vorläufig, kann sich ändern)
  • Final Results: ~500 ms (bestätigt, stabil)
  • End-of-Speech Detection: ~300 ms nach Sprechende

Anwendungen

  • Live-Untertitel: Für Webinare, Konferenzen, Live-Streams
  • Voice Commands: Sprachbefehle in Echtzeit erkennen
  • Meeting-AI: Live-Transkription während des Meetings
  • Accessibility: Echtzeit-Untertitel für Hörgeschädigte

Praxis-Tipp: Kombinieren Sie Speech-to-Text mit der TTS-API für vollständige Voice-Pipelines: Audio rein → Transkription → LLM-Verarbeitung → Antwort-Audio raus. Das ist die Grundlage jedes Voice Agents.