KI für Ihr Unternehmen – Jetzt Demo buchen

Neues Modell zur räumlichen Tiefenschätzung: Depth Anything 3 verbessert 3D-Rekonstruktionstechnologien

Kategorien:
No items found.
Freigegeben:
November 14, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • "Depth Anything 3" (DA3) ist ein neues Modell zur Vorhersage räumlich konsistenter Geometrie aus beliebigen visuellen Eingaben.
    • Es zeichnet sich durch die Nutzung eines einzigen, einfachen Transformers und ein singuläres Tiefenstrahl-Vorhersageziel aus, was komplexe Architekturen oder Multi-Task-Lernen überflüssig macht.
    • DA3 übertrifft frühere Modelle wie Depth Anything 2 (DA2) und VGGT in verschiedenen Benchmarks, unter anderem bei der Kamera-Posen-Schätzung und der geometrischen Genauigkeit.
    • Das Modell wurde ausschließlich auf öffentlichen akademischen Datensätzen trainiert und ist in verschiedenen Größen verfügbar (Small, Base, Large, Giant) sowie als spezialisierte metrische und monokulare Version.
    • DA3 bietet Funktionen wie monokulare und Multi-View-Tiefenschätzung, Kamera-Posen-Schätzung, 3D-Gauss-Schätzung und verbessert die räumliche Wahrnehmung für Anwendungen wie autonome Fahrzeuge.

    Sehr geehrte Leserschaft,

    In der dynamischen Welt der künstlichen Intelligenz und des maschinellen Sehens stellen Fortschritte in der 3D-Rekonstruktion und Tiefenwahrnehmung einen entscheidenden Schritt dar. Insbesondere die Fähigkeit, aus 2D-Bildern präzise 3D-Informationen zu extrahieren, ist für eine Vielzahl von Anwendungen von Bedeutung, von autonomem Fahren über Robotik bis hin zu Virtual und Augmented Reality. Ein aktueller Beitrag, das Modell "Depth Anything 3" (DA3), präsentiert einen bemerkenswerten Fortschritt in diesem Bereich, indem es eine effiziente und hochpräzise Methode zur Wiederherstellung des visuellen Raums aus beliebigen Ansichten vorstellt.

    Die Evolution der Tiefenschätzung: Von DA2 zu DA3

    Die Forschung im Bereich der Tiefenschätzung aus Bildern hat in den letzten Jahren erhebliche Fortschritte gemacht. Modelle wie "Depth Anything" (DA) und dessen Nachfolger "Depth Anything 2" (DA2) haben bereits gezeigt, welch hohe Präzision und Generalisierungsfähigkeit durch das Training auf großen, unbeschrifteten Datensätzen erreicht werden kann. DA hat sich als eine robuste Lösung für die monokulare Tiefenschätzung etabliert, die auf einer Kombination aus 1,5 Millionen beschrifteten und über 62 Millionen unbeschrifteten Bildern trainiert wurde. Diese Modelle nutzten die Leistungsfähigkeit von Large-Scale Vision Transformers, um Tiefenkarten mit hoher Detailgenauigkeit zu generieren.

    Mit der Einführung von "Depth Anything 3" (DA3) wird nun ein weiterer Schritt in dieser Entwicklung vollzogen. Das Modell, entwickelt von einem Team unter der Leitung von Haotong Lin und Bingyi Kang, konzentriert sich auf die Vorhersage räumlich konsistenter Geometrie aus einer beliebigen Anzahl visueller Eingaben, unabhängig davon, ob Kamera-Posen bekannt sind oder nicht. Das Hauptziel der Entwickler war es, ein Modell zu schaffen, das mit minimaler Modellierung auskommt, dabei aber eine maximale Leistung erzielt.

    Architektonische Simplizität trifft auf hohe Leistung

    DA3 zeichnet sich durch zwei zentrale Erkenntnisse aus, die seine Effizienz und Leistungsfähigkeit untermauern:

    • Ein einziger, einfacher Transformer: Im Gegensatz zu komplexen Architekturen, die oft für spezialisierte Aufgaben entwickelt werden, verwendet DA3 einen einzigen, einfachen Transformer (beispielsweise einen Vanilla DINOv2 Encoder) als Backbone. Dies eliminiert die Notwendigkeit einer architektonischen Spezialisierung und vereinfacht den Modellaufbau erheblich.
    • Singuläres Tiefenstrahl-Vorhersageziel: DA3 verzichtet auf komplexes Multi-Task-Lernen und setzt stattdessen auf ein singuläres Tiefenstrahl-Vorhersageziel. Diese Vereinfachung des Lernziels trägt ebenfalls zur Effizienz und Robustheit des Modells bei.

    Durch die Anwendung eines Teacher-Student-Trainingsparadigmas erreicht DA3 ein Detailniveau und eine Generalisierungsfähigkeit, die mit denen von DA2 vergleichbar sind, diese aber in vielen Aspekten übertreffen. Das Modell wurde ausschließlich auf öffentlichen akademischen Datensätzen trainiert, was die Transparenz und Reproduzierbarkeit der Ergebnisse fördert.

    Leistungsmetriken und Benchmarking

    Um die Leistungsfähigkeit von DA3 zu bewerten, wurde ein neuer Visual Geometry Benchmark etabliert. Dieser Benchmark umfasst Aufgaben wie die Schätzung der Kamera-Pose, die Geometrie aus beliebigen Ansichten und das visuelle Rendering. Auf diesem Benchmark setzt DA3 in allen Aufgaben neue Maßstäbe. Es übertrifft frühere State-of-the-Art-Modelle (SOTA VGGT) bei der Genauigkeit der Kamera-Pose um durchschnittlich 44,3 % und bei der geometrischen Genauigkeit um 25,1 %. Darüber hinaus erzielt es auch bei der monokularen Tiefenschätzung bessere Ergebnisse als DA2.

    Anwendungsbereiche und Fähigkeiten

    Die Fähigkeiten von DA3 erstrecken sich über mehrere Schlüsselbereiche der visuellen Geometrie und bieten potenziell weitreichende Anwendungen:

    Video-Rekonstruktion

    DA3 ist in der Lage, den visuellen Raum aus einer beliebigen Anzahl von Ansichten zu rekonstruieren, von einer einzelnen Ansicht bis hin zu mehreren Ansichten. Dies ermöglicht die Wiederherstellung des visuellen Raums aus komplexen Videos, wie beispielsweise schwierig aufzunehmenden Szenen.

    SLAM für große Szenen

    Die präzise Schätzung der visuellen Geometrie verbessert die Leistung von Simultaneous Localization and Mapping (SLAM)-Systemen. Quantitative Ergebnisse zeigen, dass ein einfacher Austausch von VGGT durch DA3 in VGGT-Long (DA3-Long) die Drift in großflächigen Umgebungen signifikant reduziert. Dies übertrifft sogar die Leistung von COLMAP, das für ähnliche Aufgaben deutlich längere Rechenzeiten benötigt.

    Feed-Forward 3D Gaussians Estimation

    Durch das Einfrieren des gesamten Backbones und das Training eines DPT-Kopfes zur Vorhersage von 3DGS-Parametern erreicht DA3 eine sehr starke und generalisierbare Fähigkeit zur Synthese neuer Ansichten (Novel View Synthesis).

    Räumliche Wahrnehmung aus mehreren Kameras

    Auch bei mehreren Bildern aus unterschiedlichen Blickwinkeln, beispielsweise von einem Fahrzeug, kann DA3 stabile und fusionierbare Tiefenkarten schätzen. Dies verbessert das Umweltverständnis autonomer Fahrzeuge erheblich, selbst wenn die Bilder keine Überschneidungen aufweisen.

    Verfügbare Modelle und Implementierung

    Das Entwicklerteam stellt verschiedene Modellvarianten zur Verfügung, die auf spezifische Anwendungsfälle zugeschnitten sind:

    • DA3 Main Series: Umfasst Modelle wie DA3-Giant, DA3-Large, DA3-Base und DA3-Small. Diese Modelle sind als grundlegende Modelle konzipiert und trainiert, um eine breite Palette von Aufgaben zu erfüllen, darunter monokulare und Multi-View-Tiefenschätzung, Kamera-Posen-Schätzung und 3D-Gauss-Schätzung.
    • DA3 Metric Series: Ein spezialisiertes Modell (DA3Metric-Large), das für die metrische Tiefenschätzung in monokularen Umgebungen optimiert ist und Anwendungen mit realen Skalierungsanforderungen bedient.
    • DA3 Monocular Series: Ein dediziertes Modell (DA3Mono-Large) für die hochqualitative relative monokulare Tiefenschätzung, das direkt die Tiefe vorhersagt und eine überlegene geometrische Genauigkeit bietet.

    Zusätzlich wurde eine "Nested Series" (DA3Nested-Giant-Large) entwickelt, die ein "Any-View Giant"-Modell mit einem metrischen Modell kombiniert, um eine Rekonstruktion der visuellen Geometrie im realen metrischen Maßstab zu ermöglichen.

    Die Implementierung wurde benutzerfreundlich gestaltet und bietet eine interaktive Web-Oberfläche, eine flexible Kommandozeilenschnittstelle (CLI) und Unterstützung für verschiedene Exportformate (z.B. glb, npz, ply, 3DGS-Videos). Dies erleichtert sowohl die praktische Anwendung als auch die weitere Forschung und Integration in bestehende Workflows.

    Fazit und Ausblick

    Depth Anything 3 stellt einen bedeutenden Fortschritt in der Computer-Vision-Forschung dar. Die Kombination aus architektonischer Simplizität, einem optimierten Trainingsparadigma und hervorragenden Leistungswerten macht es zu einem vielversprechenden Werkzeug für die 3D-Wiederherstellung. Die Fähigkeit, präzise räumliche Informationen aus beliebigen visuellen Eingaben zu extrahieren, eröffnet neue Möglichkeiten für eine Vielzahl von Branchen und Anwendungen. Die fortlaufende Entwicklung in diesem Bereich unterstreicht die Bedeutung von effizienten und robusten KI-Modellen für die Analyse und Interaktion mit unserer dreidimensionalen Welt.

    Wir bei Mindverse beobachten diese Entwicklungen mit großem Interesse und sind überzeugt, dass solche Innovationen die Basis für zukünftige KI-Anwendungen bilden, die unsere Interaktion mit digitalen Inhalten und der physischen Welt neu definieren werden.

    Bibliographie

    - Lin, H., Chen, S., Liew, J., Chen, D. Y., Li, Z., Shi, G., Feng, J., & Kang, B. (2025). Depth Anything 3: Recovering the Visual Space from Any Views. arXiv preprint arXiv:2511.10647. - Depth Anything 3 Project Page. (o.D.). Abrufbar unter: https://depth-anything-3.github.io/ - ByteDance-Seed/Depth-Anything-3 GitHub Repository. (o.D.). Abrufbar unter: https://github.com/ByteDance-Seed/Depth-Anything-3 - Depth Anything 3: DA3-BASE on Hugging Face. (o.D.). Abrufbar unter: https://huggingface.co/depth-anything/DA3-BASE - depth-anything/DA3NESTED-GIANT-LARGE on Hugging Face. (o.D.). Abrufbar unter: https://huggingface.co/depth-anything/DA3NESTED-GIANT-LARGE - Morgand, A. (2025, 14. November). LinkedIn Post zu Depth Anything 3. Abrufbar unter: https://www.linkedin.com/posts/alexandremorgand_monoculardepth-depthestimation-depthanything-activity-7395132765110689792-mbyg - Yang, L., Kang, B., Huang, Z., Xu, X., Feng, J., & Zhao, H. (2024). Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. CVPR 2024. Abrufbar unter: https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Depth_Anything_Unleashing_the_Power_of_Large-Scale_Unlabeled_Data_CVPR_2024_paper.pdf - Trending Papers - Hugging Face. (o.D.). Abrufbar unter: https://paperswithcode.com/paper/depth-anything-unleashing-the-power-of-large

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen