25. April 2024
DALL-E erfindet Bilder nach Texteingabe

DALL-E erfindet Bilder nach Texteingabe

DALL-E ist eine Künstliche Intelligenz von OpenAI, die Bilder aus Textbeschreibungen erstellt. Sie verwendet eine Version des bekannten GPT-3-Transformer-Modells und des CLIP Machine-Learning Modells, um natürlichsprachliche Eingaben zu interpretieren und entsprechende Bilder zu erzeugen. DALL-E kann sowohl Bilder von realistischen als auch von Fantasie-Objekten erzeugen. Eines der Ziele von OpenAI ist es, Sprachmodellen ein besseres Verständnis für die alltäglichen Konzepte von Menschen zu geben.

DALL-E (ein Kofferwort, zusammengesetzt aus Disney Pixar´s „WALL-E“ und des Künstlers Salvatore „Dalí“) macht seinem Namen als Künstler alle Ehre. Es gibt mittlerweile zwar einige neuronale Netze, die realistische Bilder generieren können,  aber  DALL-E ist anders. Die KI ist als eine der wenigen in der Lage, Bilder aus natürlichsprachlichen Eingabeaufforderungen zu erzeugen. Aktuell kommt da wohl nur das Chinesische Pendant WuDao 2.0, das kürzlich veröffentlicht wurde,  als ernsthafter Konkurrent in Frage.

DALL-E ist multimodal und hat das Potenzial, die Kreativbranche aufzumischen

Das Modell von DALL-E ist eine multimodale Implementierung des bekannten und heftig diskutierten GPT-3 Sprachmodells mit 12 Milliarden Parametern, die „Text gegen Pixel austauscht“, trainiert auf Text-Bild-Paaren aus dem Internet. Es verwendet das sogenannte „Zero-Shot-Learning“, um die Ausgabe aus einer Beschreibung ohne weiteres Training zu generieren. Zero-Shot bedeutet, dass die KI eine Aufgabe löst, ohne vorher dafür trainiert worden zu sein.

DALL-E, kreiere bitte „einen Sessel in Form einer Avocado“.

DALL-E erfindet Bilder nach Texteingabe
DALL-E erfindet Bilder nach Texteingabe und könnte in naher Zukunft für Designer hochinteressant werden. Die Eingabeaufforderung war bei diesen Bildern „ein Sessel in Form einer Avocado“.  DALL-E verfügt über die Fähigkeit, sich von einer nicht verwandten Idee inspirieren zu lassen und dabei dennoch die Form des zu entwerfenden Objekts zu behalten. So kann im Idealfall ein Objekt erzeugt werden, das praktisch und funktional zu sein scheint.

CLIP  – Contrastive Language-Image Pre-training

DALL-E wurde zusammen mit CLIP entwickelt, einem separaten Machine Learning Modell, dessen Aufgabe es ist, den Output von DALL-E zu verstehen und zu bewerten. CLIP (Contrastive Language-Image Pre-training) ist das erste multimodale Modell, das sich mit Computer Vision befasst und wurde von OpenAI am 5. Januar 2021 veröffentlicht. Es ist eine bahnbrechende Entwicklung, die versucht, eine Lücke zu schließen, die KI-Forscher schon länger beschäftigt.

DALL-E kreiert, CLIP kuratiert.

Neuronale Netzwerke und insbesondere Computer-Vision-Modelle sind nämlich dafür bekannt, dass sie bei bestimmten Aufgaben gut funktionieren, aber oft nicht auf Aufgaben verallgemeinert werden können, für die sie nicht trainiert wurden. Ein Vision-Modell kann also z.B. perfekt Frisuren erkennen, aber keine Fliegen usw. Es funktioniert nur in einem engen, abgeschlossenen Rahmen.

AI World Domination

 

CLIP hingegen  ist ein neuronales Netzwerk, das auf eine Vielzahl von (Bild-, Text-) Paaren trainiert wurde und in natürlicher Sprache instruiert werden kann. Es kann agieren, ohne direkt für die Aufgabe optimiert zu sein, ähnlich wie es bei GPT-3 oder WuDao 2.0 der Fall ist. Die Bilder, die DALL-E generiert, werden also von CLIP kuratiert, welches die qualitativ hochwertigsten Bilder für jede beliebige Eingabeaufforderung präsentiert.

DALL-E, bitte zeichne „eine Skizze des Tieres“.

DALL-E erfindet Bilder nach Texteingabe und kann auch Katzen zeichnen
DALL-E ist in der Lage, verschiedene Arten von Bildtransformationen auf Fotos von Tieren wir z.B. Katzen  anzuwenden. Die Eingabeaufforderung „eine Skizze des Tieres“ zeigt DALL-E´s Fähigkeit für Illustrationen und Produktdesign.

 

Was kann DALL-E?

Für Kreativschaffende bedeutet DALL-E einen völlig neuen Zugang und kann eine große Inspirationsquelle sein. DALL-E ist in der Lage, Bilder in einer Vielzahl von Stilen zu erzeugen, von fotorealistischen Bildern bis hin zu Gemälden und Emojis. Es kann auch Objekte in seinen Bildern „manipulieren und neu anordnen“. Eine Fähigkeit, die von seinen Schöpfern bei OpenAI hervorgehoben wird, ist die korrekte Platzierung von Designelementen in neuartigen Kompositionen ohne explizite Anweisungen: „Wenn man DALL-E z. B. bittet, einen Rettich zu zeichnen, der sich die Nase schnäuzt, einen Milchkaffee schlürft oder auf einem Einrad fährt, zeichnet er die Hände und die Füße oft an plausiblen Stellen.“

DALL-E erfindet Bilder nach Texteingabe und kann Fotos von Wahrzeichen generieren
DALL-E kann auch berühmte Wahrzeichen generieren und geht auch auf Geo-Daten und die Uhrzeit ein. Wenn der Himmel z. B. dunkel ist, erkennt DALL-E, dass es Nacht ist, und schaltet die Lichter in den Gebäuden ein.

 

Das GPT  – Generative Pretrained Transformer – Sprachmodell

Das Generative Pre-trained Transformer (GPT) Modell wurde ursprünglich 2018 von OpenAI unter Verwendung der Transformer-Architektur von google entwickelt und hat in der Entwicklergemeinde für viel Aufmerksamkeit gesorgt. Insbesondere GPT-3 hat die Herzen von Programmierern, aber auch Kreativen höher schlagen lassen. Auch ich habe das GPT-3 Modell getestet, mit durchaus überraschenden Ergebnissen.

Warum DALL-E für die Kreativbranche relevant ist

OpenAI hat den Quellcode für beide Modelle DALL-E und CLIP bisher nicht freigegeben. Eine „kontrollierte Demo“ von DALL-E ist allerdings auf der Website von OpenAI verfügbar, wo man mit einer begrenzten Auswahl von Beispiel-Eingabeaufforderungen arbeiten kann.

Aus meiner persönlichen Sicht hat DALL-E das disruptive Potenzial, kreative Bereiche wie die Stockfotografie, das Produktdesign, aber auch den Fachbereich der Illustrationen empfindlich zu treffen. 

OpenAI demonstriert mit DALL-E erneut, dass künstliche Intelligenz durchaus zu Kreativität fähig ist.

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →