Die präzise, pixelgenaue Tiefenschätzung ist entscheidend für das Verständnis der geometrischen Szenenstruktur und findet Anwendung in Bereichen wie 3D-Modellierung, Robotik und autonomen Fahrzeugen. Um jedoch eine effektive 3D-Rekonstruktion zu ermöglichen, ist es unerlässlich, zuverlässige metrisch skalierte Tiefeninformationen zu liefern. Dies motiviert die anspruchsvolle und inhärent schlecht gestellte Aufgabe der monokularen metrischen Tiefenschätzung (MMDE).
Während bestehende MMDE-Methoden auf verschiedenen Benchmarks eine bemerkenswerte Genauigkeit gezeigt haben, erfordern sie in der Regel, dass Training und Test auf Datensätzen mit ähnlichen Kameraintrinsitäten und Szenenskalen durchgeführt werden. Darüber hinaus sind die Trainingsdatensätze typischerweise begrenzt in ihrer Größe und weisen eine geringe Diversität in Bezug auf Szenen und Kameras auf. Diese Eigenschaften führen zu einer schlechten Generalisierung auf reale Inferenzszenarien, in denen Bilder in unkontrollierten, beliebig strukturierten Umgebungen und mit Kameras mit beliebigen intrinsischen Parametern aufgenommen werden.
Nur wenige Methoden haben sich der Herausforderung der generalisierbaren MMDE gestellt. Diese Methoden gehen jedoch von kontrollierten Bedingungen zum Testzeitpunkt aus, einschließlich der Kenntnis der Kameraintrinsitäten. Diese Annahme vereinfacht die Aufgabe zwar, hat aber zwei wesentliche Nachteile. Erstens deckt sie nicht das gesamte Anwendungsspektrum ab, z. B. die Verarbeitung von In-the-Wild-Videos und die Analyse von Crowd-Sourcing-Bildern. Zweitens wird das inhärente Rauschen der Kameraparameter direkt in das Modell eingespeist, was zu großen Ungenauigkeiten im Falle von starkem Rauschen führt.
In dieser Arbeit befassen wir uns mit der anspruchsvolleren Aufgabe der generalisierbaren MMDE, ohne auf zusätzliche externe Informationen wie Kameraparameter angewiesen zu sein, und definieren damit die universelle MMDE-Aufgabe. Unser Ansatz, UniDepth genannt, ist der erste, der versucht, diese anspruchsvolle Aufgabe ohne Einschränkungen hinsichtlich der Szenenkomposition und des Setups zu lösen, und zeichnet sich durch seine allgemeine und anpassungsfähige Natur aus. Im Gegensatz zu bestehenden Methoden liefert UniDepth metrische 3D-Vorhersagen für jede Szene allein aus einem einzigen Bild, ohne dass zusätzliche Informationen über die Szene oder die Kamera benötigt werden. Darüber hinaus ermöglicht UniDepth die flexible Einbeziehung zusätzlicher Kamerainformationen zum Testzeitpunkt.
Unser Design führt ein Kameramodul ein, das eine nicht-parametrische, d. h. dichte Kamerarepräsentation ausgibt, die als Prompt für das Tiefenmodul dient. Die ausschließliche Verwendung dieses zusätzlichen Moduls bringt jedoch Herausforderungen in Bezug auf die Trainingsstabilität und die Skalenmehrdeutigkeit mit sich. Wir schlagen eine effektive pseudo-sphärische Darstellung des Ausgaberaums vor, um die Kamera- und Tiefendimensionen dieses Raums zu entkoppeln. Diese Darstellung verwendet Azimut- und Höhenwinkelkomponenten für die Kamera und eine radiale Komponente für die Tiefe, wodurch ein perfekt orthogonaler Raum zwischen der Kameraebene und der Tiefenachse entsteht. Darüber hinaus werden die Kamerakomponenten durch Laplace-Kugelharmonische-Kodierung eingebettet. Abbildung 1 zeigt unseren Kamera-Self-Prompting-Mechanismus und den Ausgaberaum. Darüber hinaus führen wir einen geometrischen Invarianzverlust ein, um die Robustheit der Tiefenschätzung zu verbessern. Die zugrundeliegende Idee ist, dass die kamerakonditonierten Tiefenmerkmale aus zwei Ansichten desselben Bildes eine reziproke Konsistenz aufweisen sollten. Konkret werden zwei geometrische Augmentierungen abgetastet, wodurch für jedes Trainingsbild ein Paar unterschiedlicher Ansichten erzeugt wird, um so unterschiedliche scheinbare Kameras für die Originalszene zu simulieren.
Unser Gesamtbeitrag ist die erste universelle MMDE-Methode, UniDepth, die für jedes Pixel einen Punkt im metrischen 3D-Raum vorhersagt, ohne dass andere Eingaben als ein einzelnes Bild erforderlich sind. Insbesondere entwerfen wir erstens ein promptables Kameramodul, eine Architekturkomponente, die eine dichte Kamerarepräsentation lernt und eine nicht-parametrische Kamerakonditonierung ermöglicht. Zweitens schlagen wir eine pseudo-sphärische Darstellung des Ausgaberaums vor, um die Verflechtung von Kamera- und Tiefenvorhersage zu lösen. Darüber hinaus führen wir einen geometrischen Invarianzverlust ein, um die Kamerainformationen von der zugrundeliegenden 3D-Geometrie der Szene zu entkoppeln. Darüber hinaus haben wir UniDepth umfassend getestet und sieben MMDE State-of-the-Art (SotA)-Methoden auf zehn verschiedenen Datensätzen in einem fairen und vergleichbaren Zero-Shot-Setup neu bewertet, um den Grundstein für die generalisierte MMDE-Aufgabe zu legen. Dank seines Designs setzt UniDepth durchweg neue Maßstäbe, selbst im Vergleich zu Nicht-Zero-Shot-Methoden, und steht an erster Stelle im wettbewerbsorientierten offiziellen KITTI Depth Prediction Benchmark.
- Bochkovskii, A., Delaunoy, A., Germain, H., Santos, M., Zhou, Y., Richter, S. R., & Koltun, V. (2024). Depth Pro: Sharp Monocular Metric Depth in Less Than a Second. arXiv preprint arXiv:2410.02073.
- Piccinelli, L., Yang, Y. H., Sakaridis, C., Segu, M., Li, S., Van Gool, L., & Yu, F. (2024). UniDepth: Universal Monocular Metric Depth Estimation. arXiv preprint arXiv:2403.18913.