30. September 2023

Text-to-Video: Der Beginn einer neuen Ära

Text-To-Image (T2I) Programme wie DALL-E 2 haben die Welt im Sturm erobert. Nur wenige Monate später scheint bereits ein neuer Wandel in der Kreativszene bevorzustehen: Text-to-Video (T2V) Generatoren, mit denen durch einfache Text-Inputs in kürzester Zeit Videos erzeugt werden können. Insbesondere Metas „Make-A- Video“ und Googles „Imagen“ stehen hierbei bereits in den Startlöchern. Was steckt hinter diesen Innovationen?

Mit simplen Text-Befehlen in Sekundenschnelle detailreiche Gemälde, realistische Porträts oder kreative Vektorgrafiken erstellen zu lassen, war bis vor geraumer Zeit noch unvorstellbar. Waren die Anfänge dieser KI-Bildgenerierungen doch eher von verschwommenen Ergebnissen sowie langwierigen Prozessen geprägt. Doch seit 2022 folgt ein Meilenstein nach dem anderen in der Entwicklung von T2I-Generatoren. Diese rasanten Fortschritte führte nun dazu, dass nun bald nicht mehr nur statische Bilder per Text generiert werden können, sondern auch Videos (T2V). In dieser Entwicklungsstufe buhlen aktuell zwei große Technologiekonzerne um die Pole Position: Meta und Google. Beide haben vor kurzem in ihren Papers die ersten vielversprechenden Insights sowie Demo-Beispiele veröffentlicht.

Meta: Make-A-Video

„Make-A-Video is a state-of-the-art AI system that generates videos from text.“ – Meta

Im Detail besteht der T2V Generator aus drei Hauptbestandteilen:

  1. Text-to-Image (T2I)-Modell: Hierbei werden unterschiedliche Netzwerke genutzt, um hochauflösende Bilder per Text-Befehle zu generieren.
  2. Spatiotemporal Convolutional and Attention Layers: In diesem Schritt erfolgt die Erweiterung des 2-D Bildes um eine Zeitdimension (movement with time).
  3. Spatiotemporal und Frame Interpolation Networks: Zuständig für die Erzeugung hoher Bildraten.
Architektur Meta Make-A-Video

 

Durch diese drei Komponenten kann die KI die Einzelteile eines Bildes verstehen und wie Bilder in Beziehung gesetzt und aneinandergereiht werden müssen, um eine Bewegung zu schaffen.

Weiteres wurden für das Training der KI markierte Bilder und nicht-markierte Videos genutzt. Auf diese Weise lernt die KI eben nicht nur wie die Welt aussieht, sondern auch wie sie sich bewegt. Der dafür verwendete Trainings-Datensatz bestand laut Simon Willison aus 10,7 Millionen Shutterstock-Videos und nach Andy Baio aus zusätzlichen 3,3 Millionen von Microsoft gesammelten YouTube-Videos.

Wie sehr die von Meta geschaffene Text-to-Video Technologie bereits ausgereift ist, kann anhand der von ihnen veröffentlichten Demo-Beispielen begutachtet werden.

Demo-Beispiele von Metas Make-A-Video veröffentlicht auf https://makeavideo.studio.

Google: Imagen Video

„Imagen Video produces diverse and temporally-coherent videos that are well-aligned with the given prompt.” Google

Die Architektur des Google T2V-Generators besteht ebenfalls aus drei Hauptkomponenten:

  1. T5-Text-Encoder: Der Text-Input wird in einen für die KI verständlichen Zieltext kodiert.
  2. Basis Video-Diffusion Model: Dieser Bestandteil dient für die Erstellung eines Basis-Videos.
  3. Spatial und Temporal Super-Resolution Diffusion Models: Abschließenden erfolgt eine Hochskalierung und Ergänzung des Basis-Videos.
architektur_google_imagen_video
Architektur Google Imagen Video: T5 und Basis Video

 

Durch das Zusammenspiel dieser zuvor beschriebenen Komponenten wird basierend auf einem Text-Input zuerst ein Video aus 16 Bildern mit einer Auflösung von 24×48 Pixeln erstellt. Pro Sekunde werden hierbei drei Bilder abgespielt. Im nächsten Schritt erfolgt eine Hochskalierung. Bei dieser werden von der KI zusätzliche Bilder vorhergesagt, sodass am Ende ein Video aus 128 Bildern mit einer Auflösung von 720p und 24 Bildern pro Sekunde generiert wird.

Wie auch bei Make-A-Video wurden für Googles Text-to-Video Generator Bilder und Videos für das Training verwendet. Hierzu diente laut dem Tech-Unternehmen ein interner Datensatz bestehend aus 14 Millionen Video-Text-Paaren und 60 Millionen Bild-Text-Paaren sowie den LAION-400M Bild-Text-Datensatz.

Die aktuellen Demo-Ergebnisse wurden von Google auf einer eigenen Microsite veröffentlicht:

Demo-Beispiele von Googles Imagen Video veröffentlicht auf https://imagen.research.google/video/.

Die Zukunft:

Anhand der Demo-Beispiele von beiden Programmen – Make-A-Video und Imagen Video – ist zu erkennen, dass beide Text-to-Video Generatoren noch weitab von der Perfektion sind. Die Bewegungen sind zum Teil unnatürlich, die Auflösung zu gering und die visuellen Elemente des öfteren fragwürdig. Nichtsdestotrotz geben Meta und Google bereits jetzt schon eine Richtungsweisung für das, was in naher Zukunft im Bereich der T2V-Generatoren möglich sein wird: Eine schnellere und einfachere Option für die Erstellung von Videos.

Simone Salomon

Simone Salomon ist seit 2014 als Konzepterin und Texterin mit digitalem Fokus in der Werbebranche tätig. Beginnend im Bereich der Sozialen Medien über Crossmediale Kampagnen lenkte sie ihre berufliche Laufbahn schlussendlich zum kreativen Einsatz von Künstlicher Intelligenz. Die gemeinsame Zusammenarbeit mit Michael Katzlberger führte nicht nur zahlreiche Werbe- und Wissenschafts-Awards sondern inspirierte sie auch zu ihrer aktuellen Masterthesis „GAN-Bilder: Eine kreative Revolution“.

Alle Beiträge ansehen von Simone Salomon →
%d Bloggern gefällt das: