AttnGAN – mit KI aus Texten Bilder erzeugen

Aus Texten Bilder machen - mit Künstlicher Intelligenz

Aus Texten mittels Künstlicher Intelligenz automatisch Bilder generieren? Was wie Science-Fiction klingt, ist schon Realität. Auch wenn die ersten Ergebnisse noch eher dystopisch anmuten, kann das sogenannte Attentional Generative Adversarial Network (AttnGAN) bereits jetzt Texte in Bilder konvertieren. 

Das Attentional Generative Adversarial Network (oder AttnGAN) beginnt mit einem groben, niedrigauflösenden Bild und verbessert es dann in mehreren Schritten, um ein finales Bild zu erhalten.

In bisherigen Ansätzen zur Erzeugung eines Bildes aus einem Satz mit GANs wurde immer der gesamte Satz als einzelner Vektor kodiert und das GAN von diesem Vektor abhängig gemacht. Das Attentional Generative Adversarial Network (AttnGAN) verwendet zwar auch den Satzvektor, verbessert aber die bisherigen Ansätze, indem es das Bild in mehreren Stufen auch mit Wortvektoren verfeinert.

„Blackbird“ von den Beatles als KI-Kunstwerk
In einem ersten Versuch haben wir die ersten Zeilen des Songs „Blackbird“ aus dem Album „The Beatles“ von den Beatles synthetisiert. Trainiert wurde das Machine Learning Modell mit dem COCO Dataset, das 330.000 Bilder umfasst. Es ist ein großes Datenset für die Objekterkennung, Segmentierung und Beschriftung. Sowie dem Caltech-UCSD Birds 200 CUB dataset, das Bilder von 200 Vogelarten beinhaltet.

Die Textpassage des Songs lautet:

Blackbird singing in the dead of night
Take these broken wings and learn to fly
All your life
You were only waiting for this moment to arise
Blackbird singing in the dead of night
Take these sunken eyes and learn to see
All your life
You were only waiting for this moment to be free

Blackbird Text von den Beatles wird zu synthetisiertem KI-Bild
„Blackbird“ von den Beatles, von Künstlicher Intelligenz interpretiert. Auch wenn das Ergebnis seltsam anmutet, hat die Maschine etwas Neues erschaffen.

 

„23 Dohlen“ von Deichkind als Beweis für künstliche Kreativität
In einem weiteren Experiment haben wir den Text „23 Dohlen“ vom Album „Arbeit nervt“ der Deutschen HipHop Band Deichkind in ein synthetisches Bild verwandelt. Trainiert wurde das Modell ebenso mit dem COCO Dataset und dem CUB dataset.

23 Dohlen - attnGAN
So psychedelisch sieht ein Deichkind Song aus, wenn man ihn durch ein attnGAN jagt. KI kann kreativ sein!

 

Was ist ein GAN?
Ein GAN ist eine Kombination aus zwei neuronalen Netzwerken, die „gegeneinander“ arbeiten.  Einem sogenannten Generator, der interessante Daten aus Rauschen erzeugt und einem Diskriminator, der „gefälschte“ Daten erkennt, die vom Generator hergestellt wurden. Das Duo wird iterativ trainiert.

Dem Discriminator wird im Training beigebracht, reale Daten (Bilder, Text was auch immer) von den vom Generator erzeugten zu unterscheiden.
Der Generator hingegen ist darauf trainiert, Daten zu erzeugen, die den Diskriminator täuschen sollen. Die zufällige Eingabe sorgt dafür, dass der Generator immer wieder neue Daten liefert – im Wesentlichen als Inspiration.

Der Diskriminator wird so zu einem besseren Detektiv und der Generator zu einem besseren Fälscher. Nach einer ausreichenden Anzahl von Trainings kann der Generator überraschend realistische Bilder erzeugen. Das ist die Basis für viele kreative Anwendungen im Bereich GAN.

Mehr unter:

>> Die Macht der GANs, wie man KI Bildfälschungen erkennt
>> attnGAN Paper auf Archive

 

%d Bloggern gefällt das: