Die Schätzung der Geometrie von dynamischen Szenen, in denen sich Objekte im Laufe der Zeit bewegen und verformen, ist nach wie vor eine zentrale Herausforderung in der Computer Vision. Aktuelle Ansätze basieren oft auf mehrstufigen Pipelines oder globalen Optimierungen, die das Problem in Teilaufgaben wie Tiefe und Fluss zerlegen, was zu komplexen und fehleranfälligen Systemen führt.
In einem aktuellen Forschungspapier stellen Wissenschaftler einen neuartigen Ansatz namens "MonST3R" (Motion DUSt3R) vor, der die Geometrie direkt aus dynamischen Szenen schätzt. Der Ansatz basiert auf der Idee, für jeden Zeitpunkt eine Punktkarte zu erstellen, um die Darstellung von DUST3R, die zuvor nur für statische Szenen verwendet wurde, an dynamische Szenen anzupassen.
Die größte Herausforderung bei diesem Ansatz ist der Mangel an geeigneten Trainingsdaten, d.h. dynamischen, posierten Videos mit Tiefenmarkierungen. Um diese Herausforderung zu bewältigen, formulieren die Forscher das Problem als eine Feinabstimmungsaufgabe. Sie identifizierten mehrere geeignete Datensätze und trainierten das Modell strategisch auf diesen begrenzten Daten. Überraschenderweise ermöglichten sie es dem Modell so, mit Dynamik umzugehen, selbst ohne eine explizite Bewegungsdarstellung.
Basierend auf diesem Ansatz führten die Wissenschaftler neue Optimierungen für verschiedene videospezifische Aufgaben ein. Sie demonstrierten eine starke Leistung bei der Schätzung von Videoteife und Kameraposen und übertrafen frühere Arbeiten in Bezug auf Robustheit und Effizienz. Darüber hinaus zeigte MonST3R vielversprechende Ergebnisse für die primär Feed-Forward-basierte 4D-Rekonstruktion.
MonST3R stellt einen vielversprechenden Schritt in Richtung einer robusteren und effizienteren Geometrie-Schätzung in dynamischen Szenen dar. Der Ansatz könnte weitreichende Auswirkungen auf verschiedene Anwendungen haben, darunter Robotik, autonomes Fahren und Augmented Reality.