Aus Texten mittels Künstlicher Intelligenz automatisch Bilder generieren? Was wie Science-Fiction klingt, ist schon Realität. Auch wenn die ersten Ergebnisse noch eher dystopisch anmuten, kann das sogenannte Attentional Generative Adversarial Network (AttnGAN) bereits jetzt Texte in Bilder konvertieren.
Das Attentional Generative Adversarial Network (oder AttnGAN) beginnt mit einem groben, niedrigauflösenden Bild und verbessert es dann in mehreren Schritten, um ein finales Bild zu erhalten.
In bisherigen Ansätzen zur Erzeugung eines Bildes aus einem Satz mit GANs wurde immer der gesamte Satz als einzelner Vektor kodiert und das GAN von diesem Vektor abhängig gemacht. Das Attentional Generative Adversarial Network (AttnGAN) verwendet zwar auch den Satzvektor, verbessert aber die bisherigen Ansätze, indem es das Bild in mehreren Stufen auch mit Wortvektoren verfeinert.
“Blackbird” von den Beatles als KI-Kunstwerk
In einem ersten Versuch haben wir die ersten Zeilen des Songs “Blackbird” aus dem Album “The Beatles” von den Beatles synthetisiert. Trainiert wurde das Machine Learning Modell mit dem COCO Dataset, das 330.000 Bilder umfasst. Es ist ein großes Datenset für die Objekterkennung, Segmentierung und Beschriftung. Sowie dem Caltech-UCSD Birds 200 CUB dataset, das Bilder von 200 Vogelarten beinhaltet.
Die Textpassage des Songs lautet:
Blackbird singing in the dead of night
Take these broken wings and learn to fly
All your life
You were only waiting for this moment to arise
Blackbird singing in the dead of night
Take these sunken eyes and learn to see
All your life
You were only waiting for this moment to be free

“23 Dohlen” von Deichkind als Beweis für künstliche Kreativität
In einem weiteren Experiment haben wir den Text “23 Dohlen” vom Album “Arbeit nervt” der Deutschen HipHop Band Deichkind in ein synthetisches Bild verwandelt. Trainiert wurde das Modell ebenso mit dem COCO Dataset und dem CUB dataset.

Was ist ein GAN?
Ein GAN ist eine Kombination aus zwei neuronalen Netzwerken, die “gegeneinander” arbeiten. Einem sogenannten Generator, der interessante Daten aus Rauschen erzeugt und einem Diskriminator, der “gefälschte” Daten erkennt, die vom Generator hergestellt wurden. Das Duo wird iterativ trainiert.
Dem Discriminator wird im Training beigebracht, reale Daten (Bilder, Text was auch immer) von den vom Generator erzeugten zu unterscheiden.
Der Generator hingegen ist darauf trainiert, Daten zu erzeugen, die den Diskriminator täuschen sollen. Die zufällige Eingabe sorgt dafür, dass der Generator immer wieder neue Daten liefert – im Wesentlichen als Inspiration.
Der Diskriminator wird so zu einem besseren Detektiv und der Generator zu einem besseren Fälscher. Nach einer ausreichenden Anzahl von Trainings kann der Generator überraschend realistische Bilder erzeugen. Das ist die Basis für viele kreative Anwendungen im Bereich GAN.
Mehr unter:
>> Die Macht der GANs, wie man KI Bildfälschungen erkennt
>> attnGAN Paper auf Archive