DALL-E ist eine Künstliche Intelligenz von OpenAI, die Bilder aus Textbeschreibungen erstellt. Sie verwendet eine Version des bekannten GPT-3-Transformer-Modells und des CLIP Machine-Learning Modells, um natürlichsprachliche Eingaben zu interpretieren und entsprechende Bilder zu erzeugen. DALL-E kann sowohl Bilder von realistischen als auch von Fantasie-Objekten erzeugen. Eines der Ziele von OpenAI ist es, Sprachmodellen ein besseres Verständnis für die alltäglichen Konzepte von Menschen zu geben.
DALL-E (ein Kofferwort, zusammengesetzt aus Disney Pixar´s “WALL-E” und des Künstlers Salvatore “Dalí”) macht seinem Namen als Künstler alle Ehre. Es gibt mittlerweile zwar einige neuronale Netze, die realistische Bilder generieren können, aber DALL-E ist anders. Die KI ist als eine der wenigen in der Lage, Bilder aus natürlichsprachlichen Eingabeaufforderungen zu erzeugen. Aktuell kommt da wohl nur das Chinesische Pendant WuDao 2.0, das kürzlich veröffentlicht wurde, als ernsthafter Konkurrent in Frage.
DALL-E ist multimodal und hat das Potenzial, die Kreativbranche aufzumischen
Das Modell von DALL-E ist eine multimodale Implementierung des bekannten und heftig diskutierten GPT-3 Sprachmodells mit 12 Milliarden Parametern, die “Text gegen Pixel austauscht”, trainiert auf Text-Bild-Paaren aus dem Internet. Es verwendet das sogenannte “Zero-Shot-Learning”, um die Ausgabe aus einer Beschreibung ohne weiteres Training zu generieren. Zero-Shot bedeutet, dass die KI eine Aufgabe löst, ohne vorher dafür trainiert worden zu sein.
DALL-E, kreiere bitte “einen Sessel in Form einer Avocado”.

CLIP – Contrastive Language-Image Pre-training
DALL-E wurde zusammen mit CLIP entwickelt, einem separaten Machine Learning Modell, dessen Aufgabe es ist, den Output von DALL-E zu verstehen und zu bewerten. CLIP (Contrastive Language-Image Pre-training) ist das erste multimodale Modell, das sich mit Computer Vision befasst und wurde von OpenAI am 5. Januar 2021 veröffentlicht. Es ist eine bahnbrechende Entwicklung, die versucht, eine Lücke zu schließen, die KI-Forscher schon länger beschäftigt.
DALL-E kreiert, CLIP kuratiert.
Neuronale Netzwerke und insbesondere Computer-Vision-Modelle sind nämlich dafür bekannt, dass sie bei bestimmten Aufgaben gut funktionieren, aber oft nicht auf Aufgaben verallgemeinert werden können, für die sie nicht trainiert wurden. Ein Vision-Modell kann also z.B. perfekt Frisuren erkennen, aber keine Fliegen usw. Es funktioniert nur in einem engen, abgeschlossenen Rahmen.
CLIP hingegen ist ein neuronales Netzwerk, das auf eine Vielzahl von (Bild-, Text-) Paaren trainiert wurde und in natürlicher Sprache instruiert werden kann. Es kann agieren, ohne direkt für die Aufgabe optimiert zu sein, ähnlich wie es bei GPT-3 oder WuDao 2.0 der Fall ist. Die Bilder, die DALL-E generiert, werden also von CLIP kuratiert, welches die qualitativ hochwertigsten Bilder für jede beliebige Eingabeaufforderung präsentiert.
DALL-E, bitte zeichne “eine Skizze des Tieres”.

Was kann DALL-E?
Für Kreativschaffende bedeutet DALL-E einen völlig neuen Zugang und kann eine große Inspirationsquelle sein. DALL-E ist in der Lage, Bilder in einer Vielzahl von Stilen zu erzeugen, von fotorealistischen Bildern bis hin zu Gemälden und Emojis. Es kann auch Objekte in seinen Bildern “manipulieren und neu anordnen”. Eine Fähigkeit, die von seinen Schöpfern bei OpenAI hervorgehoben wird, ist die korrekte Platzierung von Designelementen in neuartigen Kompositionen ohne explizite Anweisungen: “Wenn man DALL-E z. B. bittet, einen Rettich zu zeichnen, der sich die Nase schnäuzt, einen Milchkaffee schlürft oder auf einem Einrad fährt, zeichnet er die Hände und die Füße oft an plausiblen Stellen.”

Das GPT – Generative Pretrained Transformer – Sprachmodell
Das Generative Pre-trained Transformer (GPT) Modell wurde ursprünglich 2018 von OpenAI unter Verwendung der Transformer-Architektur von google entwickelt und hat in der Entwicklergemeinde für viel Aufmerksamkeit gesorgt. Insbesondere GPT-3 hat die Herzen von Programmierern, aber auch Kreativen höher schlagen lassen. Auch ich habe das GPT-3 Modell getestet, mit durchaus überraschenden Ergebnissen.
Warum DALL-E für die Kreativbranche relevant ist
OpenAI hat den Quellcode für beide Modelle DALL-E und CLIP bisher nicht freigegeben. Eine “kontrollierte Demo” von DALL-E ist allerdings auf der Website von OpenAI verfügbar, wo man mit einer begrenzten Auswahl von Beispiel-Eingabeaufforderungen arbeiten kann.
Aus meiner persönlichen Sicht hat DALL-E das disruptive Potenzial, kreative Bereiche wie die Stockfotografie, das Produktdesign, aber auch den Fachbereich der Illustrationen empfindlich zu treffen.
OpenAI demonstriert mit DALL-E erneut, dass künstliche Intelligenz durchaus zu Kreativität fähig ist.