Die Welt der künstlichen Intelligenz (KI) entwickelt sich rasant, und ein Bereich, der in letzter Zeit erhebliche Fortschritte gemacht hat, ist die Text-to-Video-Generierung. Mit Allegro, einem Open-Source-Modell von Rhymes AI, wird die Erstellung hochwertiger Videos aus einfachen Texteingaben für ein breiteres Publikum zugänglich. Dieser Artikel beleuchtet die Funktionalitäten, die Technologie und die Zukunftsaussichten dieses innovativen Tools.
Allegro ermöglicht die Generierung von sechssekündigen Videos mit einer Auflösung von 720p und 15 Bildern pro Sekunde, basierend auf textuellen Beschreibungen. Die Qualität der generierten Videos erlaubt die Darstellung vielfältiger Szenarien, von Nahaufnahmen von Personen und Tieren bis hin zu komplexen, dynamischen Szenen. Die Vielseitigkeit des Modells bietet Nutzern die Flexibilität, kreative Ideen innerhalb des Sechsekundenformats zu erforschen.
Mehrere Schlüsselfunktionen zeichnen Allegro aus:
- Open Source: Sowohl die Modellgewichte als auch der Code sind frei verfügbar und unter der Apache 2.0 Lizenz veröffentlicht. - Vielseitige Content-Erstellung: Das Modell kann eine breite Palette von Inhalten generieren, von Nahaufnahmen von Menschen und Tieren bis hin zu diversen dynamischen Szenen. - Hochwertige Ausgabe: Allegro erzeugt detaillierte 6-Sekunden-Videos mit 15 FPS und einer Auflösung von 720x1280. Mittels EMA-VFI kann die Bildrate auf 30 FPS interpoliert werden. - Kompakt und effizient: Das Modell verwendet eine VideoVAE mit 175 Millionen Parametern und eine VideoDiT mit 2,8 Milliarden Parametern. Es unterstützt verschiedene Genauigkeiten (FP32, BF16, FP16) und benötigt im BF16-Modus mit CPU-Offloading 9,3 GB GPU-Speicher. Die Kontextlänge beträgt 79,2k, was 88 Frames entspricht.Die Leistungsfähigkeit von Allegro basiert auf drei Kerntechnologien:
1. Verarbeitung großer Videodatenmengen: Um ein Modell zu trainieren, das vielfältige und realistische Videos generieren kann, ist die Verarbeitung enormer Datenmengen erforderlich. Rhymes AI hat dazu systematische Datenverarbeitungs- und Filterpipelines entwickelt, um Trainingsvideos aus Rohdaten zu extrahieren. Ein strukturiertes Datensystem ermöglicht die mehrdimensionale Klassifizierung und Clusterbildung der Daten, was das Modelltraining und die Feinabstimmung für verschiedene Stufen und Zwecke erleichtert.
2. Komprimierung von Videos in visuelle Token: Die Verwaltung der großen Datenmengen bei der Videogenerierung stellt eine Herausforderung dar. Allegro komprimiert Rohvideos in kleinere visuelle Token, wobei wichtige Details erhalten bleiben. Dies ermöglicht eine flüssigere und effizientere Videogenerierung. Ein speziell entwickelter Video Variational Autoencoder (VideoVAE) kodiert Rohvideos in einen räumlich-zeitlichen latenten Raum. Der VideoVAE basiert auf einer vortrainierten Bild-VAE, die um räumlich-zeitliche Modellierungsschichten erweitert wurde.
3. Skalierung des Video Diffusion Transformer: Das Herzstück von Allegro ist die skalierbare Diffusion Transformer-Architektur. Diese verwendet Diffusionsmodelle, um hochauflösende Videoframes zu generieren und so Qualität und flüssige Bewegungen zu gewährleisten. Das Backbone-Netzwerk von Allegro basiert auf der DiT-Architektur (Diffusion Transformer) mit 3D RoPE-Positionseinbettung und vollständiger 3D-Aufmerksamkeit. Diese Architektur erfasst effizient räumliche und zeitliche Beziehungen in Videodaten.
Allegro setzt vielfältige Textbeschreibungen in kurze Videoclips um. Beispielsweise generiert es zu der Eingabe "Rosa Fische schwimmen im Meer" ein Video, das die flüssige Bewegung der farbenfrohen Fische im Wasser darstellt. Bei der Eingabe "Ein Astronaut reitet auf einem Pferd" erzeugt Allegro eine fantastischere Szene mit einer Figur im Raumanzug auf einem Pferd vor einem staubigen Hintergrund. Diese Beispiele demonstrieren die Bandbreite von Allegro bei der Visualisierung sowohl natürlicher als auch imaginärer Szenarien.
Rhymes AI arbeitet aktiv an der Weiterentwicklung von Allegro. Geplante Funktionen umfassen die Bild-zu-Video-Generierung, Bewegungssteuerung und die Unterstützung für längere, narrativebasierte Videos im Storyboard-Stil.
Bibliographie: https://twitter.com/cocktailpeanut/status/1850654919357018281 https://github.com/rhymes-ai/Allegro https://www.youtube.com/watch?v=0tsLqNXQ5Mk https://huggingface.co/blog/RhymesAI/allegro https://www.aibase.com/tool/33907 https://www.youtube.com/watch?v=VmQuIbKJqew