Die Animation von Figuren, bei der hochwertige Videos aus einem Referenzbild und einer Zielposenfolge erzeugt werden, hat in den letzten Jahren bedeutende Fortschritte gemacht. Die meisten existierenden Methoden beschränken sich jedoch auf menschliche Figuren und lassen sich in der Regel nicht gut auf anthropomorphe Figuren übertragen, wie sie beispielsweise in der Spiele- und Unterhaltungsindustrie üblich sind. Unsere eingehende Analyse legt nahe, diese Einschränkung auf die unzureichende Modellierung der Bewegung zurückzuführen, die nicht in der Lage ist, das Bewegungsmuster des Antriebsvideos zu erfassen und somit eine Posenfolge starr auf die Zielfigur aufprägt. Um dieses Problem zu lösen, stellt diese Arbeit Animate-X vor, ein universelles Animationsframework basierend auf Latent Diffusion Models (LDM) für verschiedene Figurentypen (zusammenfassend als X bezeichnet), einschließlich anthropomorpher Figuren. Um die Bewegungsdarstellung zu verbessern, führen wir den Pose Indicator ein, der das umfassende Bewegungsmuster aus dem Antriebsvideo sowohl implizit als auch explizit erfasst. Ersteres nutzt CLIP-Bildmerkmale eines Antriebsvideos, um dessen Bewegungsinhalt zu extrahieren, wie z. B. das gesamte Bewegungsmuster und die zeitlichen Beziehungen zwischen den Bewegungen, während letzteres die Verallgemeinerung von LDM stärkt, indem mögliche Eingaben im Voraus simuliert werden, die während der Inferenz auftreten können. Darüber hinaus führen wir einen neuen Animated Anthropomorphic Benchmark (A^2Bench) ein, um die Leistung von Animate-X bei universellen und breit anwendbaren Animationsbildern zu bewerten. Umfangreiche Experimente demonstrieren die Überlegenheit und Effektivität von Animate-X im Vergleich zu State-of-the-Art-Methoden.
Herausforderungen in der Figurenanimation
Die Animation von Figuren, insbesondere die Übertragung von Bewegungen von einem Referenzvideo auf ein statisches Bild, stellt eine komplexe Herausforderung im Bereich der Computergrafik dar. Traditionelle Ansätze, die auf 3D-Modellen und Motion-Capture-Techniken basieren, sind oft aufwendig und erfordern spezielle Hardware. Neuere Verfahren, die auf Deep Learning basieren, haben vielversprechende Ergebnisse erzielt, kämpfen jedoch mit Problemen wie:
- Eingeschränkte Generalisierung: Viele Modelle sind auf bestimmte Figurentypen trainiert und können nicht ohne weiteres auf andere Figuren, z. B. solche mit unterschiedlichen Körperproportionen oder Gliedmaßen, übertragen werden.
- Unnatürliche Bewegungen: Die generierten Animationen können unrealistisch oder abgehackt wirken, insbesondere bei komplexen Bewegungen oder wenn das Referenzvideo und das Zielbild nicht perfekt übereinstimmen.
- Identitätsverlust: Bei der Übertragung von Bewegungen kann die ursprüngliche Identität der Figur im Zielbild verloren gehen, was zu inkonsistenten oder unplausiblen Ergebnissen führt.
Animate-X: Ein neuer Ansatz
Animate-X stellt einen neuen Ansatz für die Figurenanimation vor, der auf Latent Diffusion Models (LDM) basiert und darauf abzielt, die oben genannten Herausforderungen zu adressieren. Im Kern nutzt Animate-X ein vortrainiertes LDM als Rendering-Backbone und integriert drei zusätzliche trainierbare Module zur Steuerung von Aussehen, Bewegung und zeitlicher Glättung.
Verbesserte Bewegungserfassung
Ein Schlüsselelement von Animate-X ist der "Pose Indicator", der eine verbesserte Bewegungserfassung aus dem Referenzvideo ermöglicht. Anstatt sich auf explizite Poseninformationen wie Skelette oder Landmarken zu verlassen, erfasst der Pose Indicator sowohl implizite als auch explizite Bewegungsmerkmale.
- Implizite Bewegungserfassung: Animate-X nutzt CLIP-Bildmerkmale des Referenzvideos, um den Gesamtinhalt der Bewegung zu extrahieren, einschließlich Bewegungsmuster und zeitlicher Zusammenhänge.
- Explizite Bewegungserfassung: Animate-X simuliert während des Trainings mögliche Eingaben, die während der Inferenz auftreten könnten. Dies stärkt die Fähigkeit des Modells, Bewegungen zu verallgemeinern und auf neue Situationen anzuwenden.
Reduzierung von Identitätsverlust
Um dem Verlust der ursprünglichen Identität der Figur entgegenzuwirken, verwendet Animate-X ein spezielles Trainingsschema. Das Modell wird mit Bildern trainiert, die aus verschiedenen Quellen stammen und unterschiedliche Identitäten aufweisen. Dies zwingt das Modell, die Bewegungsinformationen von den Identitätsmerkmalen zu trennen, was zu konsistenteren und realistischere Animationen führt.
Lokale Bewegungssteuerung
Zusätzlich zur globalen Bewegungssteuerung ermöglicht Animate-X auch die Steuerung lokaler Bewegungen, z. B. subtiler Gesichtsausdrücke. Ein zusätzliches ControlNet-Modul lenkt die Aufmerksamkeit des Modells auf lokale Bewegungen, insbesondere im Bereich der Augen und des Mundes. Dies ermöglicht die Erzeugung ausdrucksstarker und detaillierter Animationen.
Evaluierung und Ergebnisse
Animate-X wurde auf verschiedenen Benchmarks evaluiert, darunter ein neu eingeführter Animated Anthropomorphic Benchmark (A^2Bench). Die Ergebnisse zeigen, dass Animate-X im Vergleich zu State-of-the-Art-Methoden in Bezug auf Bildqualität, Bewegungstreue und Identitätserhaltung deutlich bessere Ergebnisse erzielt.
Potenzielle Anwendungen
Animate-X hat das Potenzial, die Figurenanimation in verschiedenen Bereichen zu revolutionieren, darunter:
- Film und Fernsehen: Animate-X kann die Erstellung realistischer und ausdrucksstarker Charakteranimationen für Filme und Fernsehsendungen vereinfachen und beschleunigen.
- Spieleentwicklung: Animate-X kann Spieleentwicklern helfen, schnell und einfach hochwertige Animationen für Spielfiguren zu erstellen.
- Virtuelle Realität: Animate-X kann zur Erstellung immersiverer und interaktiverer Erlebnisse in der virtuellen Realität beitragen.
Zusammenfassung
Animate-X stellt einen bedeutenden Fortschritt im Bereich der Figurenanimation dar. Durch die Kombination von LDMs mit einem neuartigen Ansatz zur Bewegungserfassung, Reduzierung von Identitätsverlust und lokaler Bewegungssteuerung ermöglicht Animate-X die Erstellung hochwertiger, realistischer und ausdrucksstarker Animationen für eine Vielzahl von Figurentypen.
Bibliographie
https://huggingface.co/papers
https://dl.acm.org/doi/10.1145/3641519.3657459
https://arxiv.org/html/2403.15931v3
https://www.researchgate.net/publication/369518297_Improved_First-Order_Motion_Model_of_Image_Animation_with_Enhanced_Dense_Motion_and_Repair_Ability
https://github.com/AliaksandrSiarohin/first-order-model
https://www.researchgate.net/publication/355880369_Motion_Representations_for_Articulated_Animation
https://www.mdpi.com/2076-3417/13/7/4137
https://snap-research.github.io/articulated-animation/
https://arxiv.org/abs/2403.15931
https://openaccess.thecvf.com/content/CVPR2024/papers/Hu_Animate_Anyone_Consistent_and_Controllable_Image-to_Video_Synthesis_for_Character_Animation_CVPR_2024_paper.pdf