19. Oktober 2021
KI-Selbstporträt evolving

Selbstportrait einer Künstlichen Intelligenz

Die Selbstportraits einer Künstlichen Intelligenz, die wir mit dem Schweizer Kreativen und Cannes Gewinner Andy Lusti für das NZZ Magazin kreiert haben, haben für viel Diskussionsstoff gesorgt. Die Werke wurden mit einer KI-Technologie namens GAN erschaffen, die es unter anderem erlaubt, durch die Eingabe von Texten Bilder zu erzeugen. Diese können sowohl fotorealistisch und realitätsnah, als auch kunstvoll dystopisch sein. 

Die Portraits sind durch die Kombination verschiedener, hochkomplexer KI-Bausteine entstanden. Für die Bildsynthese sind Generative Adversarial Networks (GANs) aktuell das effektivste generative Modell, das technologieaffige Kreative nutzen können. Dennoch sind GANs in der Regel auf die Erzeugung kleiner Bildformate beschränkt und somit z.B. für den Print nicht geeignet. Die Größe der erzeugten Bilder ist  zumeist auf 64×64 oder 128×128 Pixel beschränkt.

KI-Selbstporträt evolving
Bild: „evolving“, von Michael Katzlberger 2021. Wir haben dem GAN folgende Frage gestellt: „Wie sieht eine Künstliche Intelligenz aus?“ Die Antwort der KI war eine Serie von Bildern, die wundervoller und dystopischer nicht sein könnten.

 

BigGAN synthetisiert hochauflösende Bilder

Eine Lösung für dieses Problem bietet das sogenannte BigGAN. BigGAN ist ein Ansatz, hochauflösende  als auch hochwertiger originalgetreuer Bilder zu erzeugen. Es  wurde von Andrew Brock, et al. erdacht  und in ihrem 2018 auf arXiv veröffentlichten Papier mit dem Titel „Large Scale GAN Training for High Fidelity Natural Image Synthesis“ beschrieben. BigGAN ist speziell für die Bilderzeugung konzipiert und wurde mit  CIFAR- und ImageNet-Bilddatensätzen trainiert.

Woher kommen die Trainingsdaten für BigGAN?

Bei CIFAR-10 und CIFAR-100 handelt es sich um gelabelte Datensätze von 80 Millionen Bildern. Sie wurden von Alex Krizhevsky, Vinod Nair und Geoffrey Hinton kreiert. ImageNet ist eine Datenbank von Bildern die seit 2009 zum Trainieren von künstlichen neuronalen Netzen verwendet wird. Jedes Bild wird einem Substantiv zugeordnet. Die Substantive sind durch das WordNet-Projekt hierarchisch angeordnet. WordNet ist  einerDatenbank, die semantische und lexikalische Beziehungen zwischen den Wörtern enthält. Zu jedem Substantiv gibt es im Schnitt mehr als 500 Bilder. In mehr als 14 Millionen Bildern wurde vom Projekt von Hand dokumentiert, welche Objekte abgebildet sind.

CLIP sagt Bild auf Basis von Textinformationen vorher

CLIP (Contrastive Language-Image Pre-Training) ist ein neuronales Netz, das auf eine Vielzahl von (Bild-, Text-)Paaren trainiert wurde.  Es kann in natürlicher Sprache angewiesen werden, den relevantesten Textausschnitt für ein Bild vorherzusagen, ohne direkt für die Aufgabe zu optimieren, ähnlich wie die Zero-Shot-Fähigkeiten von GPT-2 und 3. Wir haben  in einem unserer letzten Blogartikel im Zusammenhang mit dem Bildgenerierung-Tool DALL-E bereits über CLIP berichtet.

Kann Künstliche Intelligenz kreativ sein?
Quelle: „Kreativ mit KI“, Artikel in der NZZ Beilage 09/2021. Eine KI gibt Antworten auf Fragen zum Thema Kreativität und „zeichnet“ sich selbst.

Probleme bei der Generierung als Kunstgriff

Eines der Probleme, die beim Training von BigGAN-Generatoren beschrieben werden, ist die Idee des „Class Leakage“, einer neuen Art von Fehlermodus. Diese Fehler können allerdings für Kreative Menschen von Interesse sein, da die KI neuartige, seltsam-kreative Bilder erstellt. Wir haben ähnliche Effekte bereits bei NVIDIAs GauGAN beobachtet.

Unten sehen Sie ein Beispiel für ein „Class Leakage“  –  eine Kreuzung zwischen einem Tennisball und einem Hund.

BigGAN
Beispiele für Class Leakage in einem Bild, das von einem  BigGAN erzeugt wurde. Entnommen aus: Large Scale GAN Training for High Fidelity Natural Image Synthesis. Bildquelle: https://machinelearningmastery.com/a-gentle-introduction-to-the-biggan/

 

Kann ein Softwareprodukt kreativ sein?

Beim Betrachten dieser Bilder könnte man auf die Idee kommen, dass der Computer ein Bewusstsein,  eine Seele und eine Persönlichkeit hat. Hier scheiden sich die Geister. Viele meinen, die Software, die diese Werke erzeugt, ist selbst nicht intelligent. Sie folgt nur Anweisungen, die ihr gegeben werden. Aber nicht zu leugnen ist, dass Kreative jetzt schon diese neuen Werkzeuge nutzen, um neue Arten von Kunst zu schaffen, so wie es bei früheren Werkzeugen der Fall war.

Und vielleicht „malen“  KIs eines Tages so gut, dass wir sie als eigenständige Künstler bezeichnen werden.

Sie haben Interesse an der Kreation und Produktion von KI-Inhalten?

Bitte zögern sie nicht, uns zu kontaktieren. Wir helfen gerne weiter:

JETZT ANFRAGEN!

 

Michael Katzlberger

Michael Katzlberger war von 2001-2021 Geschäftsführer von TUNNEL23, einer der führenden, meistausgezeichneten digitalen Kreativagenturen in Österreich. Seit 2016 widmet sich Katzlberger intensiv dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen.

Alle Beiträge ansehen von Michael Katzlberger →
%d Bloggern gefällt das: