Im September 2023 führte OpenAI den Voice Mode in ChatGPT ein und eröffnete den Nutzern eine neue Interaktionsmöglichkeit mit dem KI-Assistenten. Diese Funktion umfasst fünf einzigartige Stimmen – Breeze, Cove, Ember, Juniper und Sky – die sorgfältig über einen Zeitraum von fünf Monaten ausgewählt wurden. Dieser Prozess beinhaltete die Zusammenarbeit mit professionellen Sprechern, Talentagenturen, Casting-Direktoren und Branchenberatern, um sicherzustellen, dass die Stimmen vielseitig, ansprechend und global akzeptiert sind.

Die Suche nach den perfekten Stimmen begann Anfang 2023. OpenAI arbeitete mit renommierten Casting-Direktoren und Produzenten zusammen, um Kriterien für die Stimmen festzulegen. Dabei wurde großer Wert auf Vielfalt und Authentizität gelegt. Die Stimmen sollten nicht nur zeitlos und vertrauenswürdig, sondern auch warm und einladend sein. Schauspieler mit unterschiedlichen Hintergründen und Sprachkenntnissen wurden bevorzugt, um eine möglichst breite Nutzerbasis anzusprechen.
Im Mai 2023 folgte ein Aufruf zur Einreichung von Bewerbungen, der innerhalb einer Woche über 400 Einsendungen von Sprecher:innen und Schauspieler:innen einbrachte. Diese wurden gebeten, ein Skript mit typischen ChatGPT-Antworten einzusprechen, das Themen wie Achtsamkeit, Reiseplanung und alltägliche Gespräche abdeckte. Ein internes Team von OpenAI prüfte die Einsendungen aus produkt- und forschungsorientierter Perspektive und wählte schließlich die fünf finalen Stimmen aus.
Aufnahme und Einführung
Nach der Auswahl flogen die Sprecher im Juni und Juli 2023 nach San Francisco, um die endgültigen Aufnahmen zu machen. Dabei trafen sie sich persönlich mit den Produkt- und Forschungsteams von OpenAI, um sicherzustellen, dass die Aufnahmen den hohen Qualitätsstandards entsprachen. Am 25. September 2023 wurden die Stimmen offiziell in ChatGPT eingeführt, was einen bedeutenden Meilenstein in der Weiterentwicklung der KI-Interaktionen markierte.
OpenAI gegen Scarlett Johansson – Die Voice-Mode Kontroverse
Kurz nach der Einführung der neuen KI-Stimmen geriet OpenAI allerdings in eine Kontroverse, als Scarlett Johansson behauptete, die Stimme Sky ähnele ihrer eigenen. Laut einem Bericht von ORF forderten ihre Anwälte eine diesbezügliche Erklärung von OpenAI. Das Unternehmen stellte klar, dass die Stimme von einer anderen Schauspielerin stammt und es niemals beabsichtigt war, Johanssons Stimme zu imitieren.
Da es ausgerechnet Johannssons Stimme war, die im Sci-Fi Kultfilm „HER“(2013) von Spike Jonze eingesetzt wurde, darf bezweifelt werden, dass dies keine Absicht war. Im Film verliebt sich der Hauptdarsteller in die Stimme seines AI-Betriebssystems. Seit dem Spring-Upfate von OpenAI werden im Netz deshalb auch immer wieder Parallelen zwischen dem „emotionalen“ GPT Voice Mode und „HER“ gezogen.
Die „offizielle“ Stimme von Scarlett Johannsson im Film „HER“ (2013):
Zum Vergleich: die Stimme „Sky“ von OpenAI (Spring Update Präsentation, 2024):
Die Nutzung der Sky-Stimme wurde vorübergehend eingestellt. Johansson betonte die Notwendigkeit von Transparenz und rechtlichen Schutzmaßnahmen zum Schutz persönlicher Identitäten in einer Zeit, in der Deepfakes immer realistischer werden. Dieser Vorfall unterstreicht die Herausforderungen, denen sich Technologieunternehmen gegenübersehen, wenn es darum geht, ethische Standards und den Schutz geistigen Eigentums zu wahren.
Zukünftige Pläne
OpenAI plant die Einführung eines neuen Voice Mode für GPT-4o, der zunächst für ChatGPT Plus-Nutzer in der Alpha-Version verfügbar sein wird. Diese neue Funktion soll natürlichere Sprachinteraktionen ermöglichen, Unterbrechungen besser handhaben, Gruppengespräche effektiv managen, Hintergrundgeräusche herausfiltern und sich an verschiedene Tonlagen anpassen.
Darüber hinaus beabsichtigt OpenAI, die Vielfalt der Stimmen in ChatGPT zu erweitern, um den unterschiedlichen Interessen und Vorlieben der Nutzer gerecht zu werden. Dies zeigt das Engagement des Unternehmens, kontinuierlich zu innovieren und gleichzeitig ethische Überlegungen und den Schutz der kreativen Gemeinschaft zu berücksichtigen.
Komplexe ethische und rechtliche Herausforderungen
Die Einführung des Voice Mode in ChatGPT stellt einen bedeutenden Fortschritt in der KI-Technologie dar und verbessert die Nutzerinteraktion durch sorgfältig ausgewählte und entwickelte Stimmen. Die Kontroverse um Scarlett Johansson hebt jedoch die komplexen ethischen und rechtlichen Herausforderungen hervor, die mit solchen Innovationen einhergehen.