Videobearbeitung stellt eine der spannendsten und herausfordernden Aufgaben in der Welt der künstlichen Intelligenz und des maschinellen Lernens dar. In den letzten Jahren haben Diffusionsmodelle, die auf Text- und Bildinhalten basieren, bemerkenswerte Fortschritte in der Generierung realistischer Bilder erzielt. Die Übertragung dieser Erfolge auf die Videobearbeitung blieb jedoch eine komplexe Herausforderung, vor allem wegen des Mangels an hochwertigen Video-Datasets und der enormen Rechenressourcen, die für das Training solcher Modelle benötigt werden.
In einem innovativen Ansatz präsentiert eine Forschungsgruppe von Google Research und der Hebräischen Universität von Jerusalem ein Diffusionsmodell-basiertes Verfahren namens Dreamix, das in der Lage ist, allgemeine Videos unter Verwendung von Textbeschreibungen sowohl in Bewegung als auch in Erscheinung zu bearbeiten. Das Dreamix-Modell kombiniert während der Inferenzzeit die niedrigauflösenden räumlich-zeitlichen Informationen aus dem Originalvideo mit neu generierten hochauflösenden Informationen, die es im Einklang mit dem leitenden Text-Prompt synthetisiert hat. Um eine hohe Treue zum Originalvideo zu gewährleisten, wird eine Vorabstufe des Feintunings des Modells am Originalvideo durchgeführt, was die Treue erheblich verbessert. Um die Editierbarkeit von Bewegungen zu verbessern, schlagen die Forscher ein neues gemischtes Ziel vor, das gemeinsam mit voller zeitlicher Aufmerksamkeit und mit zeitlicher Aufmerksamkeitsmaskierung feinabgestimmt wird.
Eine weitere bahnbrechende Arbeit, die von einer Forschungsgruppe in China vorgestellt wird, beschreibt eine Methode namens vid2vid-zero, die vorhandene Bild-Diffusionsmodelle für die Bearbeitung von Videos ohne zusätzliches Training auf Videodaten nutzt. Im Kern dieses Verfahrens stehen ein Nulltext-Inversionsmodul für die Text-zu-Video-Ausrichtung, ein rahmenübergreifendes Modellierungsmodul für zeitliche Konsistenz und ein räumliches Regularisierungsmodul zur Wahrung der Treue zum Originalvideo. Ohne jegliches Training ermöglicht es die dynamische Natur des Aufmerksamkeitsmechanismus, bidirektionale zeitliche Informationen zur Testzeit für die Videobearbeitung zu modellieren.
Beide Ansätze, Dreamix und vid2vid-zero, zeigen eindrucksvoll, wie Text-zu-Bild-Diffusionsmodelle für die Videobearbeitung adaptiert werden können, ohne dass umfangreiche und kostspielige Trainingsphasen auf Videodaten erforderlich sind. Diese Techniken eröffnen neue Möglichkeiten für Kreativität und Anpassung in der Videoproduktion und -bearbeitung, insbesondere für Anwendungen, bei denen der Zugriff auf hochwertige Videodaten begrenzt ist oder schnelle Iterationen erforderlich sind.
Abschließend ist festzuhalten, dass die Entwicklung von Methoden wie Dreamix und vid2vid-zero die Grenzen dessen, was mit künstlicher Intelligenz in der Videobearbeitung möglich ist, weiter verschiebt. Während die Forschung in diesem Bereich fortschreitet, ist zu erwarten, dass sich die Fähigkeiten der KI-basierten Videobearbeitung weiter verbessern und eine breitere Palette von Anwendungen ermöglichen werden.
Die hier beschriebenen Forschungsergebnisse und Methoden sind in den folgenden Quellen dokumentiert:
- Eyal Molad et al., "Dreamix: Video Diffusion Models are General Video Editors", arXiv:2302.01329, 2023. [Online]. Verfügbar: https://arxiv.org/abs/2302.01329
- Wen Wang et al., "Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models", arXiv:2303.17599, 2024. [Online]. Verfügbar: https://arxiv.org/html/2303.17599v3
- ICCV 2023 Paper, "Pix2Video: Video Editing using Image Diffusion", 2023. [Online]. Verfügbar: https://openaccess.thecvf.com/content/ICCV2023/papers/Ceylan_Pix2Video_Video_Editing_using_Image_Diffusion_ICCV_2023_paper.pdf
Diese Forschungsergebnisse unterstreichen das Potenzial von KI-basierten Technologien zur revolutionären Veränderung der Videobearbeitungslandschaft und bieten spannende Aussichten für die Zukunft der digitalen Medienproduktion.