30. September 2023
stability.ai - text 2 Image

Stable Diffusion – Verständlich erklärt

Stable Diffusion ist eine KI-Technologie,  die in der Lage ist, fotorealistische Bilder aus beliebigen Texteingaben zu erzeugen. Im Gegensatz zu bestehenden Modellen wie DALL-E von Open AI oder Midjourney, ist Stable Diffusion als Open-Source Software verfügbar. Stable Diffusion ist ein Produkt des gemeinschaftsorientiertes Start-up Stability.ai mit Sitz in London, das im Jahr 2020 von Gründer und CEO Emad Mostaque ins Leben gerufen wurde. Das Unternehmen hat es sich zur Aufgabe gemacht, die vielfältigen Fähigkeiten Künstlicher Intelligenz zu demokratisieren und nicht einzuschränken. 

Einführung

Stable Diffusion ist ein textbasiertes maschinelles Lernmodell zur syntehtischen Bilderzeugung. Das Modell hat die besondere Fähigkeit, Bilder aus Text zu erzeugen. Stable Diffusion ist Open Source Software und für die Allgemeinheit zugänglich. Somit kann jeder Interessierte das Modell für nicht-kommerzielle und kommerzielle Zwecke unter den Bedingungen der Lizenz Creative ML OpenRAIL-M verwenden. Voraussetzung für den Einsatz ist, dass dabei keine Gesetze verletzt werden dürfen, keine Personen diskriminiert oder beleidigt und keine Fake News oder Informationen damit erzeugt und verbreitet werden.

Mit welchen Daten wurde Stable Diffusion trainiert?

Stable Diffusion wurde anhand von drei umfangreichen Datensätzen trainiert, die von LAION gesammelt wurden, einer gemeinnützigen Organisation, deren Rechenzeit größtenteils vom Eigentümer von Stable Diffusion selbst, Stability.ai, finanziert wurde. LAION ist eine Non-Profit-Organisation mit Mitgliedern aus der ganzen Welt, die sich zum Ziel gesetzt hat, umfangreiche Modelle für maschinelles Lernen, Datensätze und den dazugehörigen Code der Allgemeinheit zugänglich zu machen.

Im Unterschied zu vergleichbaren KI Modellen wie DALL-E 2, bei dem die Bilddatenquelle unbekannt ist, gehen die Entwickler von Stability.ai offen mit der Information um, wie ihr Modell entstanden ist. Das Stable Diffusion-Modell wurde mit dem sogenannten LAION Aesthetics-Datensatz trainiert, einer Teilmenge des LAION 5B-Datensatzes, der 120 Millionen Bild-Text-Paare aus dem vollständigen Satz mit fast 6 Milliarden Bild-Text-Paaren enthält.

Stable-Diffusion-LAION
Beispiele für benutzerdefinierte Textaufforderungen aus den Modell für Text-Bild-Synthese, LDM-8 (KL), das auf der LAION-Datenbank trainiert wurde. Quelle: https://arxiv.org/pdf/2112.10752.pdf

 

Von den 12 Millionen Bildern, mit denen trainiert wurde, stammen ca 47 %  von 100 Domänen, wobei Pinterest 8,5 % des gesamten Datensatzes ausmacht. Weitere wichtige Quellen sind WordPress.com, Blogspot, Flickr, DeviantArt und Wikimedia.

Was steckt dahinter? Wie Stable Diffusion funktioniert

Stable Diffusion ist ein sogenanntes Deep-Learning-System. Dabei verwendet man künstliche neuronale Netze, die in der Lage sind, der KI beizubringen, Muster oder Symbole in Daten zu erkennen. Stable Diffusion erlernt so die Verbindung zwischen Bild und Text durch einen “latenten Diffusionsmodellprozess“. Diese Methode wurde in einem von KI-Forschern der Ludwig-Maximilians-Universität München veröffentlichten Papier mit dem Titel “High-Resolution Image Synthesis with Latent Diffusion Models” beschrieben.

Diffusionsmodelle funktionieren, indem sie Bilddaten nehmen und ihnen “Rauschen” hinzufügen. Dieses Rauschen besteht aus kleinen Punkten auf dem Bild, die die Qualität des Bildes zerstören. Das “Rauschen” löscht langsam alle erkennbaren Details im Bild aus, bis es zu reinem “Rauschen” wird. Das Modell lernt dann, das Rauschen rückgängig zu machen, indem es das Bild allmählich entpixelt und das Bild wiederherstellt. Nach dem Training ist das Modell dann in der Lage, Daten zu erzeugen, indem es zufällig abgetastetes Rauschen durch den erlernten Entrauschungsprozess verarbeitet.

 

Diffusion Modell
Quelle: https://medium.com/mlearning-ai/enter-the-world-of-diffusion-models-4485fb5c5986

 

“Unser Hauptanliegen ist es, bahnbrechende Ideen zu entwickeln und sie in praktische Lösungen umzusetzen, um eine integrative, kommunikativere und kreative Zukunft für alle zu schaffen.” – Quelle: Stability.ai Website

Gamechanger für die Kreativindustrie

Stable Diffusion, das die menschlichen Künste nachahmt und neue Bilderwelten erzeugt,  ist ohne Übertreibung einer der Game Changer für die Zukunft der Kreativindustrie. Generative KIs läuten eine Revolution ein. Und wir sind live dabei!

Weiterführende Links:

> Stable Diffusion Community: https://discord.gg/stablediffusion
> Stable Diffusion auf Colab: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb
> Öffentlicher Demonstrationsbereich ist hier zu finden: https://huggingface.co/spaces/stabilityai/stable-diffusion
> Für Anwender: http://beta.dreamstudio.ai
> Das offizielle Paper: https://arxiv.org/pdf/2112.10752.pdf
> Effie Kreativ-Projekt von 3LIOT.ai nutzt Stable Diffusion: https://katzlberger.ai/2022/10/11/effie-2022-setzt-auf-ki-generierte-bilder/

 

 

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →
%d Bloggern gefällt das: