Text-To-Image (T2I) Programme wie DALL-E 2 haben die Welt im Sturm erobert. Nur wenige Monate später scheint bereits ein neuer Wandel in der Kreativszene bevorzustehen: Text-to-Video (T2V) Generatoren, mit denen durch einfache Text-Inputs in kürzester Zeit Videos erzeugt werden können. Insbesondere Metas „Make-A- Video“ und Googles „Imagen“ stehen hierbei bereits in den Startlöchern. Was steckt hinter diesen Innovationen?
Mit simplen Text-Befehlen in Sekundenschnelle detailreiche Gemälde, realistische Porträts oder kreative Vektorgrafiken erstellen zu lassen, war bis vor geraumer Zeit noch unvorstellbar. Waren die Anfänge dieser KI-Bildgenerierungen doch eher von verschwommenen Ergebnissen sowie langwierigen Prozessen geprägt. Doch seit 2022 folgt ein Meilenstein nach dem anderen in der Entwicklung von T2I-Generatoren. Diese rasanten Fortschritte führte nun dazu, dass nun bald nicht mehr nur statische Bilder per Text generiert werden können, sondern auch Videos (T2V). In dieser Entwicklungsstufe buhlen aktuell zwei große Technologiekonzerne um die Pole Position: Meta und Google. Beide haben vor kurzem in ihren Papers die ersten vielversprechenden Insights sowie Demo-Beispiele veröffentlicht.
Meta: Make-A-Video
„Make-A-Video is a state-of-the-art AI system that generates videos from text.“ – Meta
Im Detail besteht der T2V Generator aus drei Hauptbestandteilen:
- Text-to-Image (T2I)-Modell: Hierbei werden unterschiedliche Netzwerke genutzt, um hochauflösende Bilder per Text-Befehle zu generieren.
- Spatiotemporal Convolutional and Attention Layers: In diesem Schritt erfolgt die Erweiterung des 2-D Bildes um eine Zeitdimension (movement with time).
- Spatiotemporal und Frame Interpolation Networks: Zuständig für die Erzeugung hoher Bildraten.

Durch diese drei Komponenten kann die KI die Einzelteile eines Bildes verstehen und wie Bilder in Beziehung gesetzt und aneinandergereiht werden müssen, um eine Bewegung zu schaffen.
Weiteres wurden für das Training der KI markierte Bilder und nicht-markierte Videos genutzt. Auf diese Weise lernt die KI eben nicht nur wie die Welt aussieht, sondern auch wie sie sich bewegt. Der dafür verwendete Trainings-Datensatz bestand laut Simon Willison aus 10,7 Millionen Shutterstock-Videos und nach Andy Baio aus zusätzlichen 3,3 Millionen von Microsoft gesammelten YouTube-Videos.
Wie sehr die von Meta geschaffene Text-to-Video Technologie bereits ausgereift ist, kann anhand der von ihnen veröffentlichten Demo-Beispielen begutachtet werden.
Demo-Beispiele von Metas Make-A-Video veröffentlicht auf https://makeavideo.studio.
Google: Imagen Video
„Imagen Video produces diverse and temporally-coherent videos that are well-aligned with the given prompt.” Google
Die Architektur des Google T2V-Generators besteht ebenfalls aus drei Hauptkomponenten:
- T5-Text-Encoder: Der Text-Input wird in einen für die KI verständlichen Zieltext kodiert.
- Basis Video-Diffusion Model: Dieser Bestandteil dient für die Erstellung eines Basis-Videos.
- Spatial und Temporal Super-Resolution Diffusion Models: Abschließenden erfolgt eine Hochskalierung und Ergänzung des Basis-Videos.

Durch das Zusammenspiel dieser zuvor beschriebenen Komponenten wird basierend auf einem Text-Input zuerst ein Video aus 16 Bildern mit einer Auflösung von 24×48 Pixeln erstellt. Pro Sekunde werden hierbei drei Bilder abgespielt. Im nächsten Schritt erfolgt eine Hochskalierung. Bei dieser werden von der KI zusätzliche Bilder vorhergesagt, sodass am Ende ein Video aus 128 Bildern mit einer Auflösung von 720p und 24 Bildern pro Sekunde generiert wird.
Wie auch bei Make-A-Video wurden für Googles Text-to-Video Generator Bilder und Videos für das Training verwendet. Hierzu diente laut dem Tech-Unternehmen ein interner Datensatz bestehend aus 14 Millionen Video-Text-Paaren und 60 Millionen Bild-Text-Paaren sowie den LAION-400M Bild-Text-Datensatz.
Die aktuellen Demo-Ergebnisse wurden von Google auf einer eigenen Microsite veröffentlicht:
Demo-Beispiele von Googles Imagen Video veröffentlicht auf https://imagen.research.google/video/.
Die Zukunft:
Anhand der Demo-Beispiele von beiden Programmen – Make-A-Video und Imagen Video – ist zu erkennen, dass beide Text-to-Video Generatoren noch weitab von der Perfektion sind. Die Bewegungen sind zum Teil unnatürlich, die Auflösung zu gering und die visuellen Elemente des öfteren fragwürdig. Nichtsdestotrotz geben Meta und Google bereits jetzt schon eine Richtungsweisung für das, was in naher Zukunft im Bereich der T2V-Generatoren möglich sein wird: Eine schnellere und einfachere Option für die Erstellung von Videos.