26. April 2024
Val Kilmer bekommt synthetische KI Stimme

Val Kilmer hat seine Stimme verloren. KI bringt sie zurück

Der Hollywood-Schauspieler Val Kilmer, bekannt aus Filmen wie aus „Batman Forever“, „The Doors“ oder „Top Gun“ verlor nach einer Kehlkopfkrebsoperation im Jahr 2015 seine natürliche Stimme. Seine Karriere schien damit beendet. Fünf Jahre danach wandten sich seine Vertreter an Sonantic, ein britisches Softwareunternehmen, um seine verlorene Stimme digital wiederherzustellen.  

Das Projekt startete im Dezember 2020, nachdem Kilmer die Dreharbeiten zu „Val“, einer Dokumentation über seine Hollywood-Karriere und seinen Kampf gegen den Krebs, beendet hatte. Sonantic ist es schließlich gelungen, den KI-Sprachsynthesealgorithmus so zu trainieren, dass er die Stimme des Stars  mit sehr hoher Genauigkeit nachahmt. Val Kilmers KI-Stimme kam zwar in der Dokumentation nicht zum Einsatz,  das Unternehmen hat jedoch einen kurzen Demo-Clip auf YouTube veröffentlicht:

Stimmen-Klone für Voice Assistants und Videospiele

Mittlerweile bieten eine Reihe von Start-ups künstlich intelligente Stimmen-Klone für digitale Assistenten, Videospiele und Filmstudios an. Sonantic positioniert sich mit diesem Projekt als  weiteres Unternehmen, das sich auf Sprachsynthese spezialisiert hat. Das erst drei Jahre alte Unternehmen arbeitet in erster Linie mit Spieleherstellern wie Obsidian Entertainment und Remedy Games von den Xbox Game Studios zusammen und vergibt Lizenzen für seinen synthetischen Sprachdienst an Studios, die damit künstliche Stimmen bearbeiten und steuern können. Sonatics innovative Technologie revolutioniert die Spiele- und Filmproduktion und ermöglicht es den Studios, kreative Arbeitsabläufe zu beschleunigen und das Storytelling zu skalieren.

Was ist eine Sprachsynthese?

Als Sprachsynthese bezeichnet man  eine computergenerierte Audioausgabe, die die menschliche Sprache imitiert. Die Sprachsynthese kann in einer Vielzahl von Anwendungen eingesetzt werden. Diese Technologie wurde ursprünglich entwickelt, um Menschen mit Behinderungen (insbesondere Sehbehinderten) in ihrem täglichen Leben zu helfen. Eine der wohl berühmtesten digitalen Stimmen ist die des Physik-Genies Stephen Hawking, der die Text 2 Speech Anwendung nutzte, um mit seiner Umgebung zu kommunizieren (HIER können sie seine Stimme ausprobieren).

Während frühe elektronische Stimmen noch sehr roboterhaft klangen, erreichen sie heute eine Qualität, bei der es mitunter schwierig ist, sie von menschlichen zu unterscheiden.

Beispiel für eine professionelle Sprachsynthese mit deutschen Stimmen (männlich/ weiblich):

„Vals Team wollte ihm seine Stimme zurückgeben, damit er weiterhin kreativ sein kann.“ – Zeena Qureshi, CEO und Mitbegründerin von Sonantic

Drei Stunden Tonmaterial sind nötig

Die Tontechniker von Sonantic benötigen normalerweise drei Stunden Tonmaterial, um eine Stimme in hoher Qualität neu  erstellen zu können. Aufgrund von Beschränkungen bei der Filmlizenzierung musste das Unternehmen Val Kilmers Stimme jedoch mit weniger als 30 Minuten Tonmaterial nachbilden. Nach Angaben des Unternehmens zogen die Techniker Samples aus altem Filmmaterial und „reinigten“ sie, um Hintergrundgeräusche zu entfernen. Die Voice Engine begann dann mit dem Training des Modells. Am Ende erstellte Sonantic mehr als 40 verschiedene Stimmmodelle und wählte das beste, hochwertigste und ausdrucksstärkste aus.

„Wir sehen das Ganze als eine Art Photoshop für Stimmen, mit dem man kleine Bereiche ausbessern kann“ – John Flynn, Chief Technology Officer Sonantic

Das Ergebnis – ein Desktop basiertes Text-2-Speech Programm

Das Ergebnis ist ein desktopbasiertes Text-to-Speech-Programm, das nach Angaben des Herstellers die Projektionsebenen und Emotionen von Kilmer nachahmen kann. Die Sprachsoftware kann Textzeilen laut vorlesen und Kilmers stimmliche Feinheiten in Sprache, Ausdruck und Tonfall ausdrücken.

Synthetische Emotionen
Mit Sonantic kann man realistische Schreie erstellen und so die Stimme der Schauspieler schonen.  Screenshot: https://www.sonantic.io

„Ich habe neun Jahre damit verbracht, Kindern mit Autismus zu helfen, zu lernen, wie sie ihre Stimme als besseres Kommunikationsinstrument einsetzen können. Das Projekt mit Val hat mir erneut gezeigt, wie ermutigend es sein kann, wenn Menschen Herausforderungen beim Sprechen überwinden.“
– Zeena Qureshi, CEO und Mitbegründerin von Sonantic

Rechtliche, ethische und wirtschaftliche Bedenken

Im Fall von Val Kilmer bietet die Technologie der Sprachsynthese Möglichkeiten für Menschen, die Schwierigkeiten beim Sprechen haben, oder für Schauspieler, die ihre Stimmbänder nach langen Schrei-Sitzungen im Studio schonen müssen. Die Technologie löst aber auch rechtliche, ethische und wirtschaftliche Bedenken aus. Als Beispiel sei genannt, dass Synchronsprecher um ihren Lebensunterhalt fürchten müssen.

Sonantic meint zwar, ihr Produkt sei nicht dazu gedacht, Schauspieler zu ersetzen. Aber wie bei vielen neuen Technologien gibt es auch hier eine helle und eine dunkle Seite. Disruptive Technologien wie die der KI-Sprachsynthese müssen mit ausgefeilten Sicherheitsstandards einhergehen. Diese werden bei Sonantic nach eigenen Angaben eingehalten. Ihre  Algorithmen werden nicht auf Daten angewendet, ohne dass der Eigentümer der Stimme seine Zustimmung gegeben hat.

Sie interessierten sich für die Umwandlung von Text in synthetische Stimmen?

Wenn sie für ihr Audio- oder Video-Projekt synthetische Stimmen oder ModeratorInnen benötigen, wenden sie sich bitte vertrauensvoll an uns!

JETZT ANFRAGEN!

 

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →