11. Dezember 2023
DVD-GAN

DVD-GAN – Realistische Videos von einer KI erzeugt

Die rasante Entwicklung von GAN, die Audio, Bilder und Video generisch erzeugen können, erreicht das nächste Level. Aktuell verfügbare Machine Learning Modelle sind zwar in der Lage, Bilder zu und Stimmen zu synthetisieren. Oder sogar das Gesicht einer Person mittels DeepFake auf einen Videoclip zu übertragen. Diese Techniken hinken jedoch bei der künstlichen Generierung von natürlich wirkenden Videos hinterher, die Ergebnisse blieben bisher eher enttäuschend. Mit DVD-GAN wird sich dass ändern. Es ist ein Algorithmus, der völlig neuartige Videos produziert.

Vielleicht haben Sie schon von FaceApp gehört, der mobilen App, die Künstliche Intelligenz zur Transformation von Selfies nutzt. Oder der Website thispersondoesnotexist.com, die bei Reload unglaublich realistische Portraits von Menschen ausspuckt, die nicht existieren. Die auf KI spezialisierte Google Tochter DeepMind stellt nun in einem neuen Forschungsprojekt DVD-GAN vor, eine KI-Anwendung zur Erzeugung synthetischer Videos.

Mit DVD-GAN Videos künstlich herstellen
DVD-GAN steht nicht für “Digital Versatile Disc”, sondern für  “Dual Video Discriminator” und kann Videos mit Auflösungen bis zu 256×256 Pixel und Längen bis zu 48 Bildern produzieren. In unterstehendem GIF sehen Sie einen Satz von vier sekündigen, synthetisierten Videoclips. Diese wurden mit einem großen Datensatz von hochauflösenden YouTube-Clips trainiert (Kinetics-600).

Wie funktioniert DVD-GAN?
DVD-GAN enthält zwei Diskriminatoren: einen räumlichen Diskriminator, der den Inhalt und die Struktur eines einzelnen Frames verarbeitet, indem er zufällig Vollauflösungsbilder abliest, und einen zeitlichen Diskriminator, der ein Lernsignal liefert, um Bewegung zu erzeugen. Ein separates Modul – ein Transformer – ermöglicht die Verarbeitung der erlernten Informationen über das gesamte KI-Modell hinweg.

Surreale Video-Clips wie von Geisterhand erstellt
Auf den ersten Blick scheinen die Clips erkennbare Aktionen wie Werfen, Fussballspielen, Tanzen, Skifahren und Springen zu zeigen. Bei genauerer Betrachtung zeigt sich jedoch, dass ein Großteil der erzeugten Videoinhalte verschwommen, undeutlich oder sogar surreal ist. Füße verschwinden oder schießen aus dem Boden, Arme verlängern sich wie von Geisterhand …

DVD-GAN Videos synthetisch erzeugen
DVD-GAN Videos synthetisch erzeugen. Quelle: DeepMind


Video-Synthetisierung als technische Herausforderung

Die Forscher hatten aufgrund der hohen Datenkomplexität und der hohen Rechenanforderungen Schwierigkeiten, frühere Modelle der Videogeneration effizient mit großen Datensätzen zu trainieren. DeepMind hat diese Herausforderung gemeistert, indem es sein selbst entwickeltes Bilderzeugungsmodell BigGAN auf Video erweitert und zusätzliche Techniken zur Beschleunigung des Trainings eingeführt hat, darunter eine Dual-Diskriminator-Architektur, die aus einem räumlichen Diskriminator und einem zeitlichen Diskriminator besteht, und eine trennbare Selbstaufmerksamkeit, die in Folge über die Höhe, Breite und Zeitachse angewendet wird.

GAN als Wunderwaffe für Kreative
GAN, eine Abkürzung für Generative Adversarial Networks sind in der Informatik eine Gruppe von Algorithmen für unüberwachtes Lernen. bestehen aus zwei künstlichen neuronalen Netzwerken, die ein Nullsummenspiel durchführen. Erfunden wurde GAN vom ehemaligen Google Mitarbeiter Ian Goodfellow. In den letzten 4 Jahren gab es große Fortschritte in der Entwicklung KI-basierter Systeme zur Synthetisierend von Bildern. GAN gibt den Kreativen ein leistungsstarkes Werkzeug zur Schaffung nie dagewesener, virtueller Welten in die Hand.

DeepMind mit dem richtigen Ansatz
Das DeepMind Team ist überzeugt, mit DVD-GAN  den richtigen Ansatz zur Generierung von künstliche erschaffenen Videos gefunden zu haben, geben in ihrem Beitrag aber auch zu, dass noch viel Arbeit zu leisten ist, bis realistische Videos in einem uneingeschränkten Umfeld konsistent erzeugt werden können.

Mehr Info unter https://arxiv.org/abs/1907.06571

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →
%d