Die rasante Entwicklung von GAN, die Audio, Bilder und Video generisch erzeugen können, erreicht das nächste Level. Aktuell verfügbare Machine Learning Modelle sind zwar in der Lage, Bilder zu und Stimmen zu synthetisieren. Oder sogar das Gesicht einer Person mittels DeepFake auf einen Videoclip zu übertragen. Diese Techniken hinken jedoch bei der künstlichen Generierung von natürlich wirkenden Videos hinterher, die Ergebnisse blieben bisher eher enttäuschend. Mit DVD-GAN wird sich dass ändern. Es ist ein Algorithmus, der völlig neuartige Videos produziert.
Vielleicht haben Sie schon von FaceApp gehört, der mobilen App, die Künstliche Intelligenz zur Transformation von Selfies nutzt. Oder der Website thispersondoesnotexist.com, die bei Reload unglaublich realistische Portraits von Menschen ausspuckt, die nicht existieren. Die auf KI spezialisierte Google Tochter DeepMind stellt nun in einem neuen Forschungsprojekt DVD-GAN vor, eine KI-Anwendung zur Erzeugung synthetischer Videos.
Mit DVD-GAN Videos künstlich herstellen
DVD-GAN steht nicht für “Digital Versatile Disc”, sondern für “Dual Video Discriminator” und kann Videos mit Auflösungen bis zu 256×256 Pixel und Längen bis zu 48 Bildern produzieren. In unterstehendem GIF sehen Sie einen Satz von vier sekündigen, synthetisierten Videoclips. Diese wurden mit einem großen Datensatz von hochauflösenden YouTube-Clips trainiert (Kinetics-600).
Wie funktioniert DVD-GAN?
DVD-GAN enthält zwei Diskriminatoren: einen räumlichen Diskriminator, der den Inhalt und die Struktur eines einzelnen Frames verarbeitet, indem er zufällig Vollauflösungsbilder abliest, und einen zeitlichen Diskriminator, der ein Lernsignal liefert, um Bewegung zu erzeugen. Ein separates Modul – ein Transformer – ermöglicht die Verarbeitung der erlernten Informationen über das gesamte KI-Modell hinweg.
Surreale Video-Clips wie von Geisterhand erstellt
Auf den ersten Blick scheinen die Clips erkennbare Aktionen wie Werfen, Fussballspielen, Tanzen, Skifahren und Springen zu zeigen. Bei genauerer Betrachtung zeigt sich jedoch, dass ein Großteil der erzeugten Videoinhalte verschwommen, undeutlich oder sogar surreal ist. Füße verschwinden oder schießen aus dem Boden, Arme verlängern sich wie von Geisterhand …

Video-Synthetisierung als technische Herausforderung
Die Forscher hatten aufgrund der hohen Datenkomplexität und der hohen Rechenanforderungen Schwierigkeiten, frühere Modelle der Videogeneration effizient mit großen Datensätzen zu trainieren. DeepMind hat diese Herausforderung gemeistert, indem es sein selbst entwickeltes Bilderzeugungsmodell BigGAN auf Video erweitert und zusätzliche Techniken zur Beschleunigung des Trainings eingeführt hat, darunter eine Dual-Diskriminator-Architektur, die aus einem räumlichen Diskriminator und einem zeitlichen Diskriminator besteht, und eine trennbare Selbstaufmerksamkeit, die in Folge über die Höhe, Breite und Zeitachse angewendet wird.
GAN als Wunderwaffe für Kreative
GAN, eine Abkürzung für Generative Adversarial Networks sind in der Informatik eine Gruppe von Algorithmen für unüberwachtes Lernen. bestehen aus zwei künstlichen neuronalen Netzwerken, die ein Nullsummenspiel durchführen. Erfunden wurde GAN vom ehemaligen Google Mitarbeiter Ian Goodfellow. In den letzten 4 Jahren gab es große Fortschritte in der Entwicklung KI-basierter Systeme zur Synthetisierend von Bildern. GAN gibt den Kreativen ein leistungsstarkes Werkzeug zur Schaffung nie dagewesener, virtueller Welten in die Hand.
4.5 years of GAN progress on face generation. https://t.co/kiQkuYULMC https://t.co/S4aBsU536b https://t.co/8di6K6BxVC https://t.co/UEFhewds2M https://t.co/s6hKQz9gLz pic.twitter.com/F9Dkcfrq8l
— Ian Goodfellow (@goodfellow_ian) January 15, 2019
DeepMind mit dem richtigen Ansatz
Das DeepMind Team ist überzeugt, mit DVD-GAN den richtigen Ansatz zur Generierung von künstliche erschaffenen Videos gefunden zu haben, geben in ihrem Beitrag aber auch zu, dass noch viel Arbeit zu leisten ist, bis realistische Videos in einem uneingeschränkten Umfeld konsistent erzeugt werden können.
Mehr Info unter https://arxiv.org/abs/1907.06571