2. Dezember 2021

WaveNet – menschenähnliche synthetische Sprache

In der Text-to-Speech API von Google können Audiodaten in nahezu natürlicher, menschlicher Sprache erstellt werden. Dabei wird auch die WaveNet-Technologie eingesetzt.

Mit WaveNet generierte Sprache klingt natürlicher und menschenähnlicher als bei klassischen Sprachausgabesystemen. Dabei kann man aus einer Vielzahl von benutzerdefinierten Stimmen auswählen, die nach Sprache und Geschlecht variieren. Auf Deutsch stehen derzeit 4 WaveNet Stimmen zur Verfügung. Hier die Beispiele:


Männlich, WaveNet Stimme 1

Männlich, WaveNet Stimme 1

Weiblich, WaveNet Stimme 1

Weiblich, WaveNet Stimme 1


Die WaveNet-Technologie kommt auch bei der Sprachsynthese für den Google Assistant, die Google-Suche und Google Translate zum Einsatz.

Michael Katzlberger

Michael Katzlberger war von 2001-2021 Geschäftsführer von TUNNEL23, einer der führenden, meistausgezeichneten digitalen Kreativagenturen in Österreich. Seit 2016 widmet sich Katzlberger intensiv dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen.

Alle Beiträge ansehen von Michael Katzlberger →