Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, realistische Videos zu generieren, hat in den letzten Jahren durch Fortschritte bei Diffusionsmodellen erhebliche Entwicklungen erfahren. Dennoch bleibt die präzise Steuerung von Bewegungen innerhalb dieser generierten Inhalte eine Herausforderung. Bisherige Ansätze zur bewegungsgesteuerten Synthese erforderten oft ein aufwendiges Fine-Tuning modellspezifischer Parameter, was hohe Rechenkosten und Einschränkungen in der Flexibilität mit sich brachte. Eine neue Entwicklung mit dem Namen "Time-to-Move" (TTM) verspricht hier eine signifikante Verbesserung. Dieses Framework ermöglicht eine trainingsfreie, plug-and-play-fähige Steuerung von Bewegungen und Erscheinungsbildern in Videos, die mit Image-to-Video (I2V) Diffusionsmodellen erzeugt werden.
Diffusionsbasierte Videogeneratoren sind in der Lage, visuell überzeugende Videos zu erstellen. Die Kontrolle über die darin enthaltenen Bewegungen ist jedoch oft begrenzt. Während Bild-zu-Video-Modelle (I2V) eine gewisse Kontrolle über das Erscheinungsbild durch die Konditionierung auf ein einzelnes Eingabebild bieten, ist die Bewegungssteuerung meist prompt-gesteuert. Dies führt oft zu unzuverlässigen, groben und unzureichend feinkörnigen Ergebnissen für interaktive Anwendungen.
Ein praktisches generatives Videosystem sollte eine Schnittstelle bereitstellen, die sowohl definiert, was sich bewegt, als auch wohin es sich bewegt. Dabei muss eine realistische, zeitlich kohärente Bewegung gewährleistet und das Erscheinungsbild des Eingabebildes beibehalten werden. Solche präzisen Steuerungsmöglichkeiten sind entscheidend für Anwendungen wie die Erstellung interaktiver Inhalte, Postproduktion und Animations-Prototyping.
Bestehende Methoden zur steuerbaren Bewegung in der Generierung kodieren Benutzerabsichten typischerweise durch zusätzliche Steuersignale wie optischen Fluss oder Punkt-Trajektorien. Diese Methoden erfordern jedoch ein intensives Fine-Tuning der Generatoren, um diese Bewegungskonditionierung zu integrieren. Solche Verfahren sind rechenintensiv in der Trainingsphase, können die Qualität des Originalmodells beeinträchtigen und sind oft modellspezifisch, was architektonische Anpassungen für die Integration der Steuerungen erfordert. Dies motivierte die Entwicklung eines Frameworks, das auf handelsübliche Video-Diffusionsmodelle angewendet werden kann, ohne kostspieliges Tuning oder zusätzliche Daten.
Das TTM-Framework, entwickelt von Forschern wie Assaf Singer und Noam Rotstein, verfolgt einen neuen Ansatz. Die Kernidee besteht darin, grobe Referenzanimationen als Bewegungs-Cues zu verwenden. Diese Referenzen können durch einfache Benutzermanipulationen wie "Cut-and-Drag" oder tiefenbasierte Reprojektion erzeugt werden. TTM adaptiert den Mechanismus von SDEdit, das grobe Layout-Cues für die Bildbearbeitung nutzt, auf den Videobereich. Dabei wird das Erscheinungsbild durch Bildkonditionierung bewahrt.
Ein zentrales Element von TTM ist das sogenannte Dual-Clock Denoising. Dies ist eine regionenabhängige Entrauschungsstrategie, die eine starke Ausrichtung in den bewegungsdefinierten Regionen durchsetzt und gleichzeitig Flexibilität in anderen Bereichen zulässt. Dadurch wird ein Gleichgewicht zwischen der Treue zur Benutzerabsicht und natürlichen Dynamiken erreicht.
Bei herkömmlichen Entrauschungsmethoden, die einen einzelnen Zeitstempel verwenden, entsteht ein Kompromiss: Ein niedriger Rauschpegel kann dazu führen, dass sich unmaskierte Bereiche statisch verhalten, während ein hoher Rauschpegel die Realität verbessert, aber die vorgesehene Bewegung beeinträchtigen kann. Das Dual-Clock Denoising von TTM löst dieses Problem, indem es unterschiedliche effektive Rauschpegel für maskierte und unmaskierte Regionen zuweist. Maskierte Bereiche, in denen die Bewegung explizit vorgegeben ist, erhalten eine stärkere Ausrichtung mit weniger Rauschen (tstrong). Unmaskierte Bereiche, die sich natürlich anpassen sollen, profitieren von einer schwächeren Durchsetzung mit erhöhtem Rauschen (tweak).
Die leichte Modifikation des Sampling-Prozesses in TTM verursacht keine zusätzlichen Trainings- oder Laufzeitkosten und ist mit jedem Backbone-Modell kompatibel. Dies unterscheidet TTM von vielen früheren Methoden, die ein kostspieliges, modellspezifisches Fine-Tuning erforderten. Experimente zeigen, dass TTM vergleichbare oder überlegene Leistungen im Vergleich zu trainingsbasierten Baselines in Bezug auf Realismus und Bewegungsgenauigkeit erzielt.
TTM ermöglicht die gemeinsame Steuerung von Bewegung und Erscheinungsbild. Dies bedeutet, dass nicht nur die Bewegung eines Objekts entlang einer bestimmten Trajektorie gesteuert werden kann, sondern auch dessen Erscheinungsbild, wie Farbe oder Form, gleichzeitig angepasst werden kann. Diese Fähigkeit geht über die Grenzen der reinen Textaufforderung hinaus und bietet eine präzise Kontrolle auf Pixelebene.
Benutzer können in einem Eingabebild Regionen auswählen und deren Trajektorien definieren, um eine grobe animierte Version des beabsichtigten Objekts zu erstellen. TTM kann dann unter Verwendung dieser Informationen hochwertige, dynamische Videos generieren, die die Benutzerabsicht präzise widerspiegeln. Dies gilt auch für die Kamerabewegung: Aus einem einzelnen Bild kann die Tiefe geschätzt und eine gewünschte Kameratrajektorie festgelegt werden, um ein verzerrtes Video des Originalbildes aus verschiedenen Blickwinkeln zu erzeugen. TTM synthetisiert dann ein realistisches Video, das dem angegebenen Kameraweg folgt.
TTM ist als Plug-and-Play-Technik konzipiert und kann in verschiedene Image-to-Video Diffusionsmodelle integriert werden. Implementierungen für Modelle wie Wan 2.2, CogVideoX und Stable Video Diffusion (SVD) sind verfügbar. Die Anpassung von TTM an neue Modelle ist unkompliziert und erfordert in der Regel nur geringen Aufwand. Die Qualität der generierten Videos korreliert dabei oft mit der Leistungsfähigkeit des zugrundeliegenden Basismodells.
Der Prozess von TTM beginnt mit einem Eingabebild und einer benutzerdefinierten Bewegung. Daraus werden ein grob verzerrtes Referenzvideo und eine Maske, die den gesteuerten Bereich kennzeichnet, automatisch erstellt. Das Image-to-Video Diffusionsmodell wird auf das ursprüngliche Eingabebild konditioniert und aus einer verrauschten Version der verzerrten Referenz initialisiert. Dies verankert das Erscheinungsbild und injiziert gleichzeitig die beabsichtigte Bewegung.
Während des Sampling-Prozesses wird das Dual-Clock Denoising angewendet: Innerhalb der Maske wird weniger Rauschen zugelassen, um die vorgegebene Bewegung zu erzwingen, während außerhalb der Maske mehr Rauschen erlaubt wird, um eine natürliche Entwicklung zu ermöglichen. Das Ergebnis ist ein realistisches Video, das die Details der Eingabe beibehält und der Bewegung ohne zusätzliches Training oder architektonische Änderungen folgt.
Die Steuerung des Dual-Clock Denoising erfolgt über zwei Hyperparameter: tweak-index und tstrong-index. Diese geben an, zu welchem Iterationsschritt die Entrauschungsphasen für die Bereiche außerhalb bzw. innerhalb der Maske beginnen. Eine sorgfältige Einstellung dieser Parameter ist entscheidend, um unerwünschte Effekte wie Szenenverformungen oder statische Hintergründe zu vermeiden und gleichzeitig eine präzise Bewegungssteuerung zu gewährleisten.
Das "Time-to-Move"-Framework stellt einen bedeutenden Fortschritt in der kontrollierbaren Videogenerierung dar. Durch seinen trainingsfreien und plug-and-play-fähigen Ansatz bietet es eine effiziente und flexible Lösung zur präzisen Steuerung von Bewegungen und Erscheinungsbildern in generierten Videos. Die Fähigkeit, komplexe Bewegungsabläufe mit einfachen Benutzereingaben zu realisieren und dabei die Kompatibilität mit bestehenden Diffusionsmodellen zu wahren, macht TTM zu einem vielversprechenden Werkzeug für die KI-gestützte Inhaltserstellung.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen