5. Juni 2023

Googles computergenerierte Stimme ist von der menschlichen nicht mehr zu unterscheiden

Es ist ein lang gehegter Traum der Menschen mit Maschinen zu interagieren. Die Fähigkeit von Computern, natürliche menschliche Sprache zu verstehen, wurde in den letzten Jahren durch den Einsatz von Deep Neural Networks revolutioniert. Die Sprachgenerierung mit dem Computer – ein Verfahren, das üblicherweise als Sprachsynthese oder Text-to-Speech (TTS) bezeichnet wird – basiert jedoch noch weitgehend auf dem so genannten konkatenativen TTS, bei dem eine sehr große Datenbank mit kurzen Sprachfragmenten von einem einzelnen Sprecher aufgenommen und dann zu vollständigen Wort und Satzbildungen rekombiniert wird. Dies macht es schwierig, die Stimme zu modifizieren, z.B. durch Umschalten auf einen anderen Sprecher oder durch Veränderung der Betonung oder Emotion der Sprache, ohne eine ganz neue Datenbank aufzunehmen.

WaveNet revolutioniert dieses veraltete Modell, indem es direkt die rohe Wellenform des Audiosignals modelliert, und das Sample für Sample. Das heißt, dass WaveNet nicht nur natürlich klingende Sprache liefert, sondern auch jede Art von Audio, einschließlich Musik, modellieren kann.

Ein von Google im Dezember 2017 veröffentlichtes Forschungspapier beschreibt ein Text-to-Speech-System mit dem Namen Tacotron 2, das eine nahezu menschliche Genauigkeit bei der Nachahmung von Stimmen einer Person erzeugt.

Das System ist Googles zweite offizielle Generation der Technologie, die aus zwei neuronalen Netzen besteht. Das erste Netzwerk übersetzt den Text in ein  Spektrogramm (PDF), das ist eine visuelle Art und Weise Audiofrequenzen über die Zeit darzustellen. Dieses Spektrogramm wird dann in WaveNet eingespeist. WaveNet ist ein Deep Neural Network (DNN) aus Alphabets KI-Forschungslabor DeepMind zur Erzeugung von rohen Audio-Wellenformen, das in der Lage ist eine bessere und realistischere Sprache zu erzeugen als alle bisherigen Technologien. Geschwindigkeit und Qualität des WaveNet Modells wurden in den letzten Monaten konstant verbessert. So wird z.B. jetzt schon die Google Assistant-Stimmen für US-Englisch und Japanisch auf allen Plattformen über WaveNet generiert. Leider ist das System aktuell nur darauf trainiert Frauenstimmen zu imitieren. Um WaveNet “männlich” zu machen müsste DeepMind das System erneut trainiert werden.

Hier ein Beispiel, das von WaveNet computergeneriert wurde. Tacotron 2 kann auch mit schwer auszusprechenden Wörtern, Namen und Interpunktionen umgehen. So werden beispielsweise großgeschriebene Wörter betont.

 

Bei diesen faszinierenden Ergebnissen bleibt abzuwarten, was DeepMind als nächstes präsentiert. WaveNets eröffnen sämtlichen Industrien eine Vielzahl an kreativen Möglichkeiten für TTS, Musikgenerierung und Audiomodellierung im Allgemeinen.

 

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

%d Bloggern gefällt das: