3. Oktober 2023
text 2 music

Generative AI in der Musik – Text 2 Music Beispiele

Im allgemeinen Trubel um ChatGPT, Midjourney, DeepFake und co. gehen die großen Fortschritte im Bereich der Musikproduktion mit KI leider etwas unter. Zu unrecht, wie ich meine! Während die Aufmerksamkeit vor allem auf renerative AI-Technologien gelenkt wird, die sich mit Bildern, Videos und Texten beschäftigen, öffnen sich in der Musikwelt Türen zu faszinierenden Möglichkeiten, die die Grenzen der Kreativität erweitern.

Es ist ein aufregendes Zeitalter, in dem Maschinen nicht nur Bits und Bytes sind, sondern die Klanglandschaften unserer Träume zum Leben erwecken können. Algorithmen, die von den Meistern der Musik inspiriert sind, komponieren die  Melodien der Zukunf, die unsere Seelen berühren. Das ist die neue Realität, in die wir in den nächsten Jahren eintauchen werden. Dabei geht es aber nicht darum, die menschliche Kreativität zu ersetzen, sondern sie zu ergänzen und zu erweitern.

“Wie klingt die Hölle?” “Wie klingt eine verliebte  Flamenco-Gitarristin?”

Die Fusion von KI und Musik geht über bloße Komposition hinaus. Mit sogenannten “Prompts”, also Textbeschreibungen, können ab sofort Musikstücke und Sound-Designs kreiert  werden. Eine Technologie, die bisher nur in unseren kühnsten Fantasien existierte eröffnet auch Laien und Nicht-Musikern eine völlig neues Universum. Zugleich können andere kreative Berufsgruppen Ihnen Horizont erweitern. So kann zum Beispiel ein Buchautor sein Werk vertonen, indem er Textpassagen durch die Musik-KI seiner Wahl  jagt.

Text 2 Music – Beispiele

Hier ein paar Beispiele, die wir mittels Beschreibungen, sogenannter “Prompts” und verschiedenen GenAI Programmen (siehe auch unten) erstellt haben:

Text-Prompt: “Unglaublich trauriges Solo-Streichinstrument, wunderbar gespielt von einer 25-jährigen Frau, die ihren Hund bei einem Unfall verloren hat.”


Text-Prompt: “Old School Hip Hop Beat mit fettem Bass, der wie die Reifen eines Muscle Cars klingt.”


Text-Prompt als Beispiel für Sounddesign: “Wie klingt die Hölle?”


Text-Prompt: “Lounge-Track mit House-Einfluss über wundervolle schneebedeckte Berge in Österreich”


Der Text-Prompt kann auch länger sein: “Das Musikstück hat eine tiefgründige und melancholische Atmosphäre, die durch das markante Solocello noch verstärkt wird. Die Klänge des Cellos sind reich an Emotionen und vermitteln eine tiefe Traurigkeit, die das Herz berührt. Die Melodie entfaltet sich langsam und anmutig, mit sanften Bögen und ausdrucksstarken Phrasen, die eine Aura von Einsamkeit und Verlust schaffen. Die Tonart könnte in Moll sein, was zu der melancholischen Stimmung beiträgt. Die Dynamik wechselt subtil zwischen weichen, zerbrechlichen Passagen und zarten Crescendi, die die Intensität der Gefühle verstärken. Das Solocello steht im Mittelpunkt, begleitet von einem sanften Streichorchester, das die harmonischen Strukturen unterstützt.”


KI-Music  und KI-Video – Multimodale KIs auf dem Vormarsch

Die Erweiterung unserer kreativen Möglichkeiten betrifft auch den Bereich der Produktion von Bildern auf Basis von Musikstücken und umgekehrt, also “image 2 music” und “music 2 image”. Und in weiterer Folge “video 2 music” und “music 2 video”. Ein kleiner Vorgeschmack, was wir auf dem Spielfeld der multimodalen KIs erwarten können.

Wie kann man sich ein “Image 2 music” KI-Modell vorstellen? Ein Beispiel

Schritt 1: Man verfügt über eine Fotografie einer jungen, leidenschaftlich verliebten Flamenco-Gitarristin, die Songs auf den Stiegen in der U-Bahn spielt.

flamenco ai - image to music

 

Schritt 2: Eine spezialisierte KI wie “Clip” von Open AI, dem Entwickler von ChatGPT, “liest” dieses Foto aus. D.h. es entsteht eine Textbeschreibung dieses Bildes. In unserem Beispiel: “Verliebte Flamenco Gitarristin spielt auf Stiegen in der U-Bahn.”

Schritt 3: Diese Textbeschreibung fungiert als unser “Prompt” für den KI-Musikgenerator, der einen Track komponiert. Basis dafür sind Sammlungen von Musik-Text-Kombinationen wie “MusicCaps” von Google, detailliert beschrieben durch Experten und sehr fortgeschrittene Algorithmen.

Google MusicCaps
Bild: Auszug aus den “MusicCaps” von Google, einer Tabelle, in der Lieder von Experten beschrieben werden

Schritt 4: Unser Flamenco-Musikstück ist fertig! Aus dem Bild lässt sich mittels Stable Diffusion Technologie auch ein Video erzeugen. Hier für gibt es unzählige Software Tools und Generative AI Video-Modelle wie zum Beispiel Kaiber.ai. Aus dem entstandenen Material lässt sich dann ein Musikvideo schneiden.

Google MusicLM und Meta AudioCraft/ MusicGEN

Google MusicLM und AudioCraft sind die Speerspitze der neuen Generation von generative KI-Modellen. In den Händen von kreativen Musikschaffenden könnten sie die Branche revolutionieren, ähnlich wie Synthesizer und elektrische Gitarren in ihrer Anfangszeit. Auch wenn die Qualität noch nicht zufriedenstellend ist, die Track-Länge begrenzt, die Scripts buggy sind und man von isolierten Tonspuren derzeit nur träumen kann: Da ist ein Funken Kreativität in der Maschine, den man schon sehen und hören kann.

Google MusicLM ist ein innovatives Modell, das Musik genau nach Textvorgaben wie obig genannt “Old School Hip Hop Beat mit fettem Bass, der wie die Reifen eines Muscle Cars klingt” kreiert. Dieses Modell  produziert Tracks in einer Qualität von 24 kHz, die über mehrere Minuten hinweg beständig sind. MusicLM ist zudem in der Lage, auf Text und eine Melodie gleichzeitig zu reagieren, indem es Melodien, die gepfiffen oder gesummt werden, im beschriebenen Stil des Textes modifiziert. Diese Funktion hat mich persönlich besonders beeindruckt.

Aber auch Meta hat im August 2023 einen neuen Open-Source AI-Code namens AudioCraft veröffentlicht, der beeindruckend gut funktioniert. AudioCraft besteht aus drei AI-Modellen, die sich jeweils auf verschiedene Bereiche der Klanggenerierung konzentrieren. Mit MusicGen können aus Texteingaben Musikstücke generiert werden. AudioGen erstellt Audio aus schriftlichen Aufforderungen, wie das Bellen von Hunden oder Vogelgezwitscher. Eine verbesserte Version von Meta’s EnCodec ermöglicht eine klarere Klangerzeugung.

Eine harmonische Allianz zwischen Mensch und Maschine

KI kann bei der Komposition neuer Melodien und Texte helfen, virtuelle Instrumente und Soundeffekte erzeugen, Musikempfehlungen und personalisierte Marketingstrategien bieten, musikalische Elemente analysieren und sogar in Live-Auftritten zur improvisierten Musik beitragen. Darüber hinaus ermöglicht sie die Generierung von visueller Kunst, die mit der Musik synchronisiert ist, und findet Anwendung in der Musiktherapie. Jetzt gesellt sich die Komposition von Musikstücken auf Textbasis dazu.

Insgesamt eröffnet die Integration von KI in die Musikwelt aufregende Möglichkeiten für Musiker:innen, ihre Kreativität zu erweitern und innovative Musikstücke zu schaffen.

 

 

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →
%d Bloggern gefällt das: