In einem ambitionierten Experiment hat der bekannte deutsche Radiosender SWR3 einen Tag lang Beiträge von einer künstlichen Intelligenz (KI) moderieren lassen. Das Modell der KI-Stimme wurde von uns trainiert und basiert auf Tonaufnahmen von Volker Janitz, einem der Moderatoren des Senders. Dieses Prozess bezeichnet man auch als “Voice Cloning”.
Seit einiger Zeit trägt Künstliche Intelligenz (KI) immer stärker zur Transformation verschiedener Industriesektoren bei, wobei die Radiobranche keine Ausnahme darstellt. Besonders faszinierend ist der aufkommende Trend der Nutzung von KI-Stimmen, deren Einsatz in der Produktion zahlreiche Vorteile bieten könnte.
Einer davon ist, dass Radiosender ihre Inhalte effizienter und in größerem Umfang produzieren können, da künstliche KI-Moderator:innen rund um die Uhr und ohne Pause verfügbar sind, also zum Beispiel auch im Nachtdienst oder für Geisterfahrer-Meldungen, wo jede Sekunde zählt. Darüber hinaus sind KI-Stimmen in der Lage, Inhalte in verschiedenen Sprachen und Dialekten zu liefern, die die Moderator:innen vielleicht gar nicht sprechen – was die Reichweite der Sender deutlich erhöht. Auch für Radiospots – zum Beispiel für täglich wechselnde Angebote im Lebensmittelhandel – lassen sich synthetische Stimmen mit hoher Effizienz einsetzen.
SWR3 testet KI-Radiomoderation
SWR3 ist ein populärer, öffentlich-rechtlicher regionaler Musiksender des Südwestrundfunks (SWR) und immer wieder für eine Überraschung gut. Mitarbeiter des Senders sind mit der Idee an uns herangetreten, eine Sendung zu produzieren, bei der sich KI Stimmen und “echte” Menschenstimmen abwechseln, bzw. in den Dialog treten.
So wurden uns zunächst – nach unseren Vorgaben – Tonaufnahmen von Moderator Volker Janitz übermittelt. Diese Audioaufnahmen nutzen wir, um das Sprachmodell zu trainieren und so die synthetische Stimme zu erzeugen. Wie so oft lag der Teufel im Detail, eine besondere Herausforderung stellte vor allem die Feinabstimmung dar. Die Betonung bestimmter Wörter, Verzerrungen bei längeren Texten, die Aussprache von Zahlen, die Modulation der Stimme zum Satzende usw. Das Ergebnis ließ jedoch aufhorchen.
“Es gibt zwar einige Bibliotheken und Frameworks, die den Cloning-Prozess erleichtern, aber die Erzeugung hochwertiger deutscher KI-Stimmen bleibt anspruchsvoll” – Michael Katzlberger
Hören Sie selbst: Menschliche Stimme versus KI Stimme
Trotz der bestehenden Hindernisse konnte eine KI-Version der Stimme von Moderator Janitz erstellt werden, die tatsächlich kaum von seiner zu unterscheiden war. Aber hören Sie selbst, hier der Vergleich:

BEISPIEL 1 – “Sprachbiotop”
Der “echte” Volker:
Der “KI” Volker:

BEISPIEL 2 – “Verkehrsmeldung”
Der “echte” Volker:
Der “KI” Volker:
Das Motiv des Senders – informieren, aufzeigen, hörbar machen
Am Mittwoch, den 19.7.2023 ging die Sendung mit dem Namen „SWR3-Report Künstliche Intelligenz: Nutzen und Risiken für uns“ online. SWR3 testet KI-Radiomoderation. Das Motiv des Senders: Künstliche Intelligenz gibt es als Schlagwort schon seit Jahren. Aber in der breiteren Öffentlichkeit wurde die Durchschlagskraft dieser Jahrhunderttechnologie erst durch den Launch von Chat GPT realisiert. Mit dem Schwerpunkt KI will der Sender informieren, aufzeigen und hörbar machen, was möglich ist, und sich den Sorgen und den Fragen der Hörer:innen annehmen.
Die Technologie – Text To Speech (TTS)
Unser Experiment wurde mit einem sogenannten “Text-to-Speech (TTS) System” durchgeführt. Dabei wird geschriebener Text in gesprochene Sprache umgewandelt. Dahinter steht eine Technologie, die man Deep Learning nennt und das als Teilgebiet des maschinellen Lernens gilt.

Bei der Sprachsynthese beginnt mit zunächst mit der Analyse des Eingabetextes. Wörter werden in Phoneme zerlegt, das sind kleinste sprachliche Einheiten, die einen Unterschied in der Bedeutung ausmachen können. Ein wichtiger Aspekt bei der Erzeugung synthetischer Stimmen ist die Einbeziehung von Emotionalität und Persönlichkeit, um die Sprache natürlicher und menschenähnlicher zu gestalten. Hierfür werden Techniken eingesetzt, die es den Modellen ermöglichen, den Kontext und die Stimmung eines Textes zu verstehen und ihre Aussprache entsprechend anzupassen.
In den letzten Jahren haben KI-Modelle wie Googles Tacotron und WaveNet die Qualität der synthetischen Stimmen erheblich verbessert. Diese nutzen komplexe neuronale Netzwerke, um menschliche Sprache zu analysieren und zu lernen, wie sie erzeugt wird. Diese Modelle können dann neue Sprache erzeugen, die in Klangqualität, Intonation und Rhythmus der menschlichen Sprache sehr nahe kommt.
Risiken, Herausforderungen und Chancen
Wie bei fast allen revolutionären Technologien bringt auch die Entwicklung synthetischer Stimmen eine Menge Herausforderungen mit sich. So gibt es ernstzunehmende Bedenken hinsichtlich der Datensicherheit und des Datenschutzes, da KI-gesteuerte Systeme eine große Menge an Daten (=Stimmen) benötigen. Zudem sind Telefonbetrügern Tür und Tor geöffnet, wenn sie die Möglichkeit haben, Stimmen aller Art zu kopieren (Audio Deepfakes).


BEISPIEL – “Telefonbetrug”
So könnte sich ein betrügerischer Anruf anhören. Stimmen und Straßenlärm sind gefaked:
Auf der anderen Seite können synthetische Stimmen für die Produktion von Hörbüchern eingesetzt werden, im Customer Service (z.B. Call Center) unterstützen, ebenso in der Gaming Industrie oder im Dialog zwischen Mensch und Maschine über einen Smart Home Speaker. Eine Stimmen-KI kann auch Menschen helfen, die ihre Stimme zum Beispiel aufgrund einer Kehlkopferkrankung oder anderer medizinischer Probleme verloren haben.
Für die Radiobranche sind KI-Stimmen jedoch unbestreitbar ein aufregender Fortschritt, der die Art und Weise, wie wir Radio hören, nachhaltig verändern könnte. Mit zunehmender Verfeinerung der Technologie, auf die wir wohl nicht mehr lange warten müssen, könnten synthetische Stimmen menschliche Moderator:innen so genau imitieren, dass es für die Zuhörer fast unmöglich wird, den Unterschied zu erkennen.
Weiterführende Links:
> SWR3 testet KI-Radiomoderation (Ausschnitte aus der Sendung im Podcast)