Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Monokulares 3D-Tracking, also die Rekonstruktion von 3D-Bewegungen aus einem einzelnen 2D-Videostrom, ist eine inhärent komplexe Aufgabe. Die Unterscheidung zwischen Kamerabewegung und der Bewegung dynamischer Objekte im Vordergrund ist dabei eine der größten Hürden. Viele bestehende Methoden gehen von einer statischen Kamera aus oder modellieren den 3D-Fluss lediglich im kamerazentrierten Koordinatensystem. Dies erschwert die Analyse von Szenen, in denen sich sowohl die Kamera als auch mehrere Objekte bewegen.
Ein weiteres Problem stellt die dichte Verfolgung aller Pixel über die gesamte Videosequenz dar, insbesondere wenn neue Objekte in späteren Frames erscheinen. Die schiere Menge an Daten und die damit verbundene Rechenkomplexität haben dazu geführt, dass viele Ansätze sich auf die Verfolgung einer begrenzten Anzahl von Punkten konzentrieren.
Track4World, ein von einem Team von Forschern vorgeschlagenes Feedforward-Modell, zielt darauf ab, diese beiden Kernprobleme zu lösen. Es ermöglicht eine effiziente und dichte 3D-Verfolgung nahezu aller Pixel in einem weltzentrierten 3D-Koordinatensystem. Der Ansatz von Track4World basiert auf mehreren Schlüsselkomponenten:
Der Track4World-Workflow beginnt mit der Vorverarbeitung des monokularen Videos unter Verwendung etablierter Vision Foundation Models. Dazu gehören 2D-Tracking-Modelle (wie CoTrackerV3 oder DELTA), Module zur Schätzung von dynamischen Vordergrundmasken (z.B. basierend auf VLM und Grounding-SAM) und monokulare Tiefenschätzungsmodelle (wie UniDepth). Diese Vorhersagen dienen als Grundlage für die nachfolgenden Schritte.
Um eine dichte 2D-Verfolgung nahezu aller Pixel im Video zu erreichen, implementiert Track4World zwei Hauptmodule:
Von spärlichen zu dichten Tracks: Ein Upsampler-Modul, adaptiert von DELTA, wandelt anfänglich spärliche 2D-Tracks in dichte 2D-Tracks um. Dieses Modul ist in der Lage, beliebige 2D-Tracks zu verarbeiten und die räumliche Dichte der Verfolgungspunkte signifikant zu erhöhen.
Verfolgung jedes Frames: Das System wendet die 2D-Verfolgung und das Sparse-to-Dense-Upsampling auf alle Frames des Videos an. Um Rechenredundanzen zu minimieren, werden dabei überlappende und bereits erfasste Bereiche identifiziert und redundante Tracks eliminiert. Dies stellt sicher, dass die Verfolgung effizient bleibt, während gleichzeitig neu erscheinende Objekte erfasst werden.
Der nächste Schritt besteht darin, die geschätzten 2D-Tracks und Kameraposen in ein weltzentriertes 3D-Koordinatensystem zu überführen. Dieser Prozess umfasst drei Phasen:
Initialisierung der Kameraposenschätzung: Mithilfe der geschätzten dynamischen Masken werden zunächst 2D-Tracks in mutmaßlich statischen Regionen identifiziert. Diese werden verwendet, um erste Kameraposen basierend auf monokularen Tiefenkarten zu schätzen. Eine Projektionsverlustfunktion wird minimiert, um die Posen zu optimieren. Zur Effizienzsteigerung wird das Video in Clips unterteilt und die Posen parallel geschätzt.
Verfeinerung des dynamischen Hintergrunds: Da dynamische Masken oft ungenau sind und dynamische Objekte im Hintergrund fälschlicherweise als statisch klassifiziert werden können, wird eine weitere Verfeinerungsstufe eingeführt. Hierbei wird eine "as-static-as-possible"-Restriktion verwendet, um die Kameraposenschätzung zu verbessern und dynamische Hintergründe zu identifizieren. Ein zusätzlicher Objektbewegungs-Term wird eingeführt, um Restbewegungen zu erfassen und gemeinsam mit den Kameraposen und statischen 3D-Koordinaten zu optimieren.
Verfolgung dynamischer Objekte: Schließlich werden die 2D-Tracks der dynamischen Regionen, einschließlich der zuvor identifizierten dynamischen Hintergrundpunkte, in 3D-Tracks umgewandelt. Auch hier kommt eine Initialisierung mittels Tiefenschätzungen und verfeinerten Kameraposen zum Einsatz. Mehrere Verlustfunktionen, darunter Projektionsverlust, Tiefenkonsistenz, "as-rigid-as-possible"-Verlust und ein zeitlicher Glättungsverlust, tragen zur Genauigkeit der dynamischen 3D-Tracks bei.
Umfassende Experimente auf verschiedenen Benchmarks, darunter Sintel, Bonn, TUM-D, ADT und PStudio, belegen die Überlegenheit von Track4World gegenüber bestehenden Methoden. Die Evaluierung erstreckte sich über mehrere Dimensionen:
Ablationsstudien bestätigen die Notwendigkeit jeder einzelnen Komponente des Systems. Insbesondere die Verfolgung jedes Frames und die "as-static-as-possible"-Restriktion sind entscheidend für die Entflechtung statischer und dynamischer Bewegungen sowie die Stabilisierung der Posenschätzung. Die Robustheit gegenüber verschiedenen Tiefenschätzungsmodellen und dynamischen Maskensegmentierern unterstreicht die Flexibilität und Anwendbarkeit des Frameworks.
Track4World stellt einen bedeutenden Fortschritt in der monokularen 3D-Verfolgung dar, indem es eine dichte, weltzentrierte 3D-Verfolgung aller Pixel ermöglicht und gleichzeitig Kamera- und Objektbewegungen entkoppelt. Diese Fähigkeiten eröffnen neue Möglichkeiten für Anwendungen in der Videoanalyse, der 4D-Rekonstruktion, der Szenenverständnis und der Videobearbeitung. Die Architektur des Modells, die auf der Nutzung von Foundation Models basiert, macht es zudem robust gegenüber zukünftigen Fortschritten in diesen Bereichen.
Zukünftige Forschungsarbeiten könnten sich auf die Entwicklung rein Feedforward-basierter Lösungen konzentrieren, um die Abhängigkeit von unterstützenden Modellen zu reduzieren und die Effizienz weiter zu steigern. Das gemeinsame Verarbeiten aller Frames zur direkten Vorhersage des Zustands jedes Frames über die Zeit könnte zu noch konsistenteren und global kohärenteren Trajektorienschätzungen führen. Die Integration von Track4World in bestehende und zukünftige KI-Systeme, wie sie Mindverse als Partner anbietet, verspricht eine erhebliche Bereicherung für die Erstellung und Analyse dynamischer Inhalte.
Bibliography: - Lu, J., Xu, J., Hu, W., Zhu, R., Zhao, C., Yeung, S.-K., Shan, Y., & Liu, Y. (2026). Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels. arXiv. Retrieved from https://arxiv.org/abs/2603.02573 - Lu, J., Xiong, W., Deng, J., Li, P., Huang, T., Dou, Z., Lin, C., Yeung, S.-K., & Liu, Y. (2025). TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels. NeurIPS 2025. Retrieved from https://neurips.cc/virtual/2025/poster/115432 - Lu, J., Xiong, W., Deng, J., Li, P., Huang, T., Dou, Z., Lin, C., Yeung, S.-K., & Liu, Y. (2025). TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels. arXiv. Retrieved from https://arxiv.org/html/2512.08358v1 - Lu, J., Xiong, W., Deng, J., Li, P., Huang, T., Dou, Z., Lin, C., Yeung, S.-K., & Liu, Y. (2025). TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels. Hugging Face. Retrieved from https://huggingface.co/papers/2512.08358 - Lu, J., Xu, J., Hu, W., Zhu, R., Zhao, C., Yeung, S.-K., Shan, Y., & Liu, Y. (n.d.). Track4World: Future of Motion Reconstruction. Project Page. Retrieved from https://jiah-cloud.github.io/Track4World.github.io/ - IGL-HKUST. (n.d.). [NeurIPS 25] TrackingWorld: World-centric Monocular 3D ... GitHub. Retrieved from https://github.com/IGL-HKUST/TrackingWorld - IGL-HKUST. (n.d.). TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels. Emergentmind. Retrieved from https://www.emergentmind.com/papers/2512.08358Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen