WaveNet – menschenähnliche synthetische Sprache

In der Text-to-Speech API von Google können Audiodaten in nahezu natürlicher, menschlicher Sprache erstellt werden. Dabei wird auch die WaveNet-Technologie eingesetzt.

Mit WaveNet generierte Sprache klingt natürlicher und menschenähnlicher als bei klassischen Sprachausgabesystemen. Dabei kann man aus einer Vielzahl von benutzerdefinierten Stimmen auswählen, die nach Sprache und Geschlecht variieren. Auf Deutsch stehen derzeit 4 WaveNet Stimmen zur Verfügung. Hier die Beispiele:


Männlich, WaveNet Stimme 1

Männlich, WaveNet Stimme 1

Weiblich, WaveNet Stimme 1

Weiblich, WaveNet Stimme 1


Die WaveNet-Technologie kommt auch bei der Sprachsynthese für den Google Assistant, die Google-Suche und Google Translate zum Einsatz.

Michael Katzlberger ist Gründer und Geschäftsführer von TUNNEL23, einer der führenden, unabhängigen Agenturen für digitale Werbung in Österreich. Seit den 90er Jahren beschäftigt er sich in erster Linie mit innovativen Projekten zur Weiterentwicklung digitaler Werbeformen, insbesondere im Online und Mobile Bereich sowie Artificial Intelligence in der Kreativbranche.