Die Selbstportraits einer Künstlichen Intelligenz, die wir mit dem Schweizer Kreativen und Cannes Gewinner Andy Lusti und dem ADC Switzerland für das NZZ am Sonntag Magazin kreiert haben, haben für viel Diskussionsstoff gesorgt. Die Werke wurden mit einer KI-Technologie namens GAN erschaffen, die es unter anderem erlaubt, durch die Eingabe von Texten Bilder zu erzeugen. Diese können sowohl fotorealistisch und realitätsnah, als auch kunstvoll dystopisch sein.
Die Portraits sind durch die Kombination verschiedener, hochkomplexer KI-Bausteine entstanden. Für die Bildsynthese sind Generative Adversarial Networks (GANs) aktuell das effektivste generative Modell, das technologieaffige Kreative nutzen können. Dennoch sind GANs in der Regel auf die Erzeugung kleiner Bildformate beschränkt und somit z.B. für den Print nicht geeignet. Die Größe der erzeugten Bilder ist zumeist auf 64×64 oder 128×128 Pixel beschränkt.

BigGAN synthetisiert hochauflösende Bilder
Eine Lösung für dieses Problem bietet das sogenannte BigGAN. BigGAN ist ein Ansatz, hochauflösende als auch hochwertiger originalgetreuer Bilder zu erzeugen. Es wurde von Andrew Brock, et al. erdacht und in ihrem 2018 auf arXiv veröffentlichten Papier mit dem Titel “Large Scale GAN Training for High Fidelity Natural Image Synthesis” beschrieben. BigGAN ist speziell für die Bilderzeugung konzipiert und wurde mit CIFAR- und ImageNet-Bilddatensätzen trainiert.
Woher kommen die Trainingsdaten für BigGAN?
Bei CIFAR-10 und CIFAR-100 handelt es sich um gelabelte Datensätze von 80 Millionen Bildern. Sie wurden von Alex Krizhevsky, Vinod Nair und Geoffrey Hinton kreiert. ImageNet ist eine Datenbank von Bildern die seit 2009 zum Trainieren von künstlichen neuronalen Netzen verwendet wird. Jedes Bild wird einem Substantiv zugeordnet. Die Substantive sind durch das WordNet-Projekt hierarchisch angeordnet. WordNet ist einerDatenbank, die semantische und lexikalische Beziehungen zwischen den Wörtern enthält. Zu jedem Substantiv gibt es im Schnitt mehr als 500 Bilder. In mehr als 14 Millionen Bildern wurde vom Projekt von Hand dokumentiert, welche Objekte abgebildet sind.
CLIP sagt Bild auf Basis von Textinformationen vorher
CLIP (Contrastive Language-Image Pre-Training) ist ein neuronales Netz, das auf eine Vielzahl von (Bild-, Text-)Paaren trainiert wurde. Es kann in natürlicher Sprache angewiesen werden, den relevantesten Textausschnitt für ein Bild vorherzusagen, ohne direkt für die Aufgabe zu optimieren, ähnlich wie die Zero-Shot-Fähigkeiten von GPT-2 und 3. Wir haben in einem unserer letzten Blogartikel im Zusammenhang mit dem Bildgenerierung-Tool DALL-E bereits über CLIP berichtet.

Probleme bei der Generierung als Kunstgriff
Eines der Probleme, die beim Training von BigGAN-Generatoren beschrieben werden, ist die Idee des “Class Leakage”, einer neuen Art von Fehlermodus. Diese Fehler können allerdings für Kreative Menschen von Interesse sein, da die KI neuartige, seltsam-kreative Bilder erstellt. Wir haben ähnliche Effekte bereits bei NVIDIAs GauGAN beobachtet.
Unten sehen Sie ein Beispiel für ein “Class Leakage” – eine Kreuzung zwischen einem Tennisball und einem Hund.

Kann ein Softwareprodukt kreativ sein?
Beim Betrachten dieser Bilder könnte man auf die Idee kommen, dass der Computer ein Bewusstsein, eine Seele und eine Persönlichkeit hat. Hier scheiden sich die Geister. Viele meinen, die Software, die diese Werke erzeugt, ist selbst nicht intelligent. Sie folgt nur Anweisungen, die ihr gegeben werden. Aber nicht zu leugnen ist, dass Kreative jetzt schon diese neuen Werkzeuge nutzen, um neue Arten von Kunst zu schaffen, so wie es bei früheren Werkzeugen der Fall war.
Und vielleicht “malen” KIs eines Tages so gut, dass wir sie als eigenständige Künstler bezeichnen werden.
Sie haben Interesse an der Kreation und Produktion von KI-Inhalten?
Bitte zögern sie nicht, uns zu kontaktieren. Wir helfen gerne weiter:
JETZT ANFRAGEN!