GauGAN ist ein Deep-Learning-Modell aus der NVIDIA Forschungsabteilung. Es verwandelt grobe Kritzeleien in fotorealistische Kunstwerke. Das Tool nutzt dabei generative “gegnerische” Netzwerke – kurz GAN. Künstliche Intelligenz wird kreativ.
Getauft wurde das Deep-Learning-Modell “GauGAN”, eine Hommage an den französischen Postimpressionisten Paul Gauguin, der Mitbegründer des Synthetismus war.
Was sind GAN?
GAN (Generative Adversarial Networks) sind eine Gruppe von Algorithmen für unüberwachtes Lernen. Sie bestehen aus zwei künstlichen neuronalen Netzwerken, die ein Nullsummenspiel durchführen. Eines davon erstellt Kandidaten (der Generator), das zweite neuronale Netzwerk bewertet die Kandidaten (der Diskriminator).
Das Ziel des Generators ist es zu lernen, Ergebnisse nach einer bestimmten Verteilung zu erzeugen. Der Diskriminator wird hingegen darauf trainiert, die Ergebnisse des Generators von den Daten aus der echten, vorgegebenen Verteilung zu unterscheiden. Die Zielfunktion des Generators besteht dann darin, Ergebnisse zu erzeugen, die der Diskriminator nicht unterscheiden kann.
Wofür werden GAN eingesetzt?
GAN werden unter anderem zur Erstellung photorealistischer Bilder zur Visualisierung verschiedener Gegenstände eingesetzt. Aber auch zur Modellierung von Bewegungsmustern in Videos, zur Erstellung von 3D-Modellen von Objekten aus 2D-Bildern und zur Bildbearbeitung astronomischer Bilder ist das GAN geeignet.
Was ist ein GauGAN?
GauGAN gibt Künstlern, Designern, Game-Developer, Landschaftsgestaltern, Architekten und Stadtplanern nun ein leistungsstarkes Werkzeug zur Schaffung virtueller Welten in die Hand. Mit einer KI, die versteht, wie die reale Welt aussieht, können diese Fachkräfte fast in Echtzeit Prototypen-Ideen einer künstlichen Szene erschaffen und verbessern.
“Es ist viel einfacher, Designs mit einfachen Skizzen zu erstellen. Diese Technologie ist in der Lage, Skizzen in sehr realistische Bilder zu konvertieren” – Bryan Catanzaro, Vice President of Applied Deep Learning Research bei NVIDIA.
Das KI-Modell füllt z.B. Landschaften mit einem “intelligenten Pinsel” – und das mit beeindruckenden Ergebnissen. Man zeichnet einen Teich ein und benachbarte Elemente wie Bäume und Felsen erscheinen als Spiegelungen im Wasser. Benennt man eine Segmentbeschriftung von “Gras” auf “Schnee”, verwandelt sich das gesamte Bild sich in eine Winterszene, in der beispielsweise ein Laubbaum plötzlich kahl wird.
Trotz mangelndem Verständnis der physischen Welt können GAN aufgrund ihrer Struktur als kooperierendes Paar von Netzwerken überzeugende Ergebnisse liefern: einen Generator und einen Diskriminator. Der Generator erzeugt Bilder, die er dem Diskriminator präsentiert. Trainiert auf realen Bildern, coacht der Diskriminator den Generator mit Pixel für Pixel Feedback, wie er den Realismus seiner synthetischen Bilder verbessern kann.
“… und dann ist das neuronale Netzwerk in der Lage, alle Details und Texturen sowie Reflexionen, Schatten und Farben auszufüllen, basierend auf dem, was es über echte Bilder gelernt hat.”, meint Catanzaro



Training mit Millionen Realbildern
Nach dem Training mit einer Million Realbildern weiß der Diskriminator, dass echte Teiche und Seen Reflexionen enthalten – so lernt der Generator, eine überzeugende Nachahmung zu schaffen.
GauGAN ermöglicht es Benutzern u.a. auch, einen Stilfilter hinzuzufügen, also ein erzeugtes Bild zu ändern, um den Stil eines bestimmten Malers anzupassen.
Diese Technologie ist nicht nur das Zusammenfügen von Teilen anderer Bilder oder das Schneiden und Einfügen von Texturen. Es ist eigentlich die Synthese neuer Bilder … – Bryan Catanzaro, Vice President of Applied Deep Learning Research bei NVIDIA
Was bringt die Zukunft? Wie kreativ ist Künstliche Intelligenz?
Während sich GauGAN auf Naturelemente wie Land, Meer und Himmel konzentriert, ist das zugrunde liegende neuronale Netzwerk in der Lage, auch andere Landschaftselemente wie Gebäude, Straßen und Menschen auszufüllen.
Wir können gespannt sein, was wir im Bereich der künstlichen Kreativität noch alles sehen werden. Ist da wirklich eine Idee im Computer? Kann eine KI tatsächlich malen? Die brillanten Werke der Künstler Robbie Barrat und Mario Klingemann geben möglicherweise einen Vorgeschmack darauf.