Lektion 2 von 5·10 Min Lesezeit

Voice Cloning & Design

Voice Cloning ist die Killer-Funktion von ElevenLabs. Ob Sie Ihre eigene Stimme digitalisieren, eine Markenstimme erstellen oder eine völlig neue Stimme aus einer Beschreibung generieren — die Möglichkeiten sind beeindruckend. Aber mit großer Macht kommt große Verantwortung.

Instant Voice Cloning

So funktioniert es

Instant Cloning erstellt eine synthetische Stimme aus wenigen Sekunden Audio (mindestens 30 Sekunden empfohlen).

Ablauf:

  1. Audio hochladen (MP3, WAV, M4A — sauber, ohne Hintergrundgeräusche)
  2. ElevenLabs extrahiert die Stimmcharakteristik
  3. Die geklonte Stimme steht sofort zur Verfügung
  4. Text eingeben → Audio in der geklonten Stimme

Qualitäts-Tipps für Instant Cloning

  • Sauberes Audio: Keine Hintergrundmusik, kein Hall, kein Echo
  • Natürliches Sprechen: Nicht ablesen, sondern frei sprechen
  • Vielfalt: Verschiedene Sätze mit unterschiedlicher Betonung
  • Länge: 1–3 Minuten für gute Ergebnisse, 30 Sekunden als Minimum
  • Format: WAV oder FLAC bevorzugt (verlustfrei)

Limitierungen

  • Ähnlichkeit: 70–80 % (gut für Prototypen)
  • Emotionale Bandbreite eingeschränkt
  • Akzent wird nur grob erfasst
  • Nicht für finale Produktion empfohlen

Professional Voice Cloning

Der Unterschied

Professional Cloning trainiert ein dediziertes Modell auf Ihrer Stimme:

AspektInstantProfessional
Audio benötigt30 Sek.–3 Min.30+ Minuten
Ähnlichkeit70–80 %95–99 %
EmotionenBegrenztVollständig
TrainingszeitSekundenStunden
PlanAb StarterAb Pro

Audio-Anforderungen für Professional Cloning

  • Mindestens 30 Minuten hochwertiges Audio
  • Studioqualität empfohlen (externer Mikrofon, ruhiger Raum)
  • Verschiedene Inhalte: Fragen, Aussagen, Ausrufe, Flüstern
  • Keine Postproduktion: Kein Kompressor, kein EQ, kein Noise Gate
  • Samplerate: 44,1 kHz oder höher

Voice Design — Stimme aus Beschreibung

Eine neue Stimme erstellen

Voice Design generiert eine völlig neue Stimme aus einer Textbeschreibung:

Beschreibung: "Weiblich, mittleres Alter, warm und beruhigend,
leichter süddeutscher Akzent, professionell aber zugänglich"

Steuerbare Parameter

  • Geschlecht: Männlich, weiblich, androgyn
  • Alter: Jung, mittel, älter
  • Akzent: Regional oder international
  • Tonalität: Warm, autoritär, energetisch, beruhigend
  • Sprechgeschwindigkeit: Langsam bis schnell

Use Cases für Voice Design

  • Markenstimme ohne Sprecher: Keine reale Person nötig
  • Konsistenz: Die Stimme altert nicht und ist immer verfügbar
  • A/B-Testing: Verschiedene Stimmen testen
  • Anonymität: Stimme ohne Bezug zu einer realen Person

Ethik und Consent

ElevenLabs' eigene Regeln

ElevenLabs hat strenge Richtlinien implementiert:

  • Consent-Verification: Bei Professional Cloning muss die geklonte Person schriftlich zustimmen
  • Audio-Wasserzeichen: Alle generierten Audios enthalten unsichtbare Marker (SynthID-Technologie)
  • Missbrauchserkennung: Automatische Erkennung von Deepfake-Versuchen
  • DMCA-Prozess: Stimmen können gemeldet und entfernt werden

Best Practices für Unternehmen

  1. Schriftliche Einwilligung der Person vor dem Cloning
  2. Nutzungszweck dokumentieren — wofür wird die Stimme eingesetzt?
  3. Lösch-Policy: Wann und wie wird das Stimmmodell gelöscht?
  4. Kennzeichnung: AI-generierte Sprache immer als solche kennzeichnen
  5. Zugriffskontrolle: Wer darf die geklonte Stimme verwenden?

Verantwortung: Voice Cloning ist kein Spielzeug. Jede geklonte Stimme repräsentiert eine Person — behandeln Sie sie mit dem gleichen Respekt wie biometrische Daten.