Es ist ein lang gehegter Traum der Menschen mit Maschinen zu interagieren. Die Fähigkeit von Computern, natürliche menschliche Sprache zu verstehen, wurde in den letzten Jahren durch den Einsatz von Deep Neural Networks revolutioniert. Die Sprachgenerierung mit dem Computer – ein Verfahren, das üblicherweise als Sprachsynthese oder Text-to-Speech (TTS) bezeichnet wird – basiert jedoch noch weitgehend auf dem so genannten konkatenativen TTS, bei dem eine sehr große Datenbank mit kurzen Sprachfragmenten von einem einzelnen Sprecher aufgenommen und dann zu vollständigen Wort und Satzbildungen rekombiniert wird. Dies macht es schwierig, die Stimme zu modifizieren, z.B. durch Umschalten auf einen anderen Sprecher oder durch Veränderung der Betonung oder Emotion der Sprache, ohne eine ganz neue Datenbank aufzunehmen.
WaveNet revolutioniert dieses veraltete Modell, indem es direkt die rohe Wellenform des Audiosignals modelliert, und das Sample für Sample. Das heißt, dass WaveNet nicht nur natürlich klingende Sprache liefert, sondern auch jede Art von Audio, einschließlich Musik, modellieren kann.
Ein von Google im Dezember 2017 veröffentlichtes Forschungspapier beschreibt ein Text-to-Speech-System mit dem Namen Tacotron 2, das eine nahezu menschliche Genauigkeit bei der Nachahmung von Stimmen einer Person erzeugt.
Das System ist Googles zweite offizielle Generation der Technologie, die aus zwei neuronalen Netzen besteht. Das erste Netzwerk übersetzt den Text in ein Spektrogramm (PDF), das ist eine visuelle Art und Weise Audiofrequenzen über die Zeit darzustellen. Dieses Spektrogramm wird dann in WaveNet eingespeist. WaveNet ist ein Deep Neural Network (DNN) aus Alphabets KI-Forschungslabor DeepMind zur Erzeugung von rohen Audio-Wellenformen, das in der Lage ist eine bessere und realistischere Sprache zu erzeugen als alle bisherigen Technologien. Geschwindigkeit und Qualität des WaveNet Modells wurden in den letzten Monaten konstant verbessert. So wird z.B. jetzt schon die Google Assistant-Stimmen für US-Englisch und Japanisch auf allen Plattformen über WaveNet generiert. Leider ist das System aktuell nur darauf trainiert Frauenstimmen zu imitieren. Um WaveNet “männlich” zu machen müsste DeepMind das System erneut trainiert werden.
Hier ein Beispiel, das von WaveNet computergeneriert wurde. Tacotron 2 kann auch mit schwer auszusprechenden Wörtern, Namen und Interpunktionen umgehen. So werden beispielsweise großgeschriebene Wörter betont.
Bei diesen faszinierenden Ergebnissen bleibt abzuwarten, was DeepMind als nächstes präsentiert. WaveNets eröffnen sämtlichen Industrien eine Vielzahl an kreativen Möglichkeiten für TTS, Musikgenerierung und Audiomodellierung im Allgemeinen.
- Mehr zu WaveNet unter https://deepmind.com/blog/wavenet-generative-model-raw-audio/
- Das WaveNet Paper für Fortgeschrittene abzurufen unter https://arxiv.org/pdf/1609.03499.pdf
- Informationen zu Tacotron2 unter https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
- Google Duplex, Unglaubliche Beispiele unter https://www.youtube.com/watch?v=ijwHj2HaOT0