2. Dezember 2023

WaveNet – menschenähnliche synthetische Sprache

In der Text-to-Speech API von Google können Audiodaten in nahezu natürlicher, menschlicher Sprache erstellt werden. Dabei wird auch die WaveNet-Technologie eingesetzt.

Mit WaveNet generierte Sprache klingt natürlicher und menschenähnlicher als bei klassischen Sprachausgabesystemen. Dabei kann man aus einer Vielzahl von benutzerdefinierten Stimmen auswählen, die nach Sprache und Geschlecht variieren. Auf Deutsch stehen derzeit 4 WaveNet Stimmen zur Verfügung. Hier die Beispiele:


Männlich, WaveNet Stimme 1

Männlich, WaveNet Stimme 1

Weiblich, WaveNet Stimme 1

Weiblich, WaveNet Stimme 1


Die WaveNet-Technologie kommt auch bei der Sprachsynthese für den Google Assistant, die Google-Suche und Google Translate zum Einsatz.

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →