Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Sehr geehrte Leserschaft,
In der dynamischen Welt der künstlichen Intelligenz und des maschinellen Sehens stellen Fortschritte in der 3D-Rekonstruktion und Tiefenwahrnehmung einen entscheidenden Schritt dar. Insbesondere die Fähigkeit, aus 2D-Bildern präzise 3D-Informationen zu extrahieren, ist für eine Vielzahl von Anwendungen von Bedeutung, von autonomem Fahren über Robotik bis hin zu Virtual und Augmented Reality. Ein aktueller Beitrag, das Modell "Depth Anything 3" (DA3), präsentiert einen bemerkenswerten Fortschritt in diesem Bereich, indem es eine effiziente und hochpräzise Methode zur Wiederherstellung des visuellen Raums aus beliebigen Ansichten vorstellt.
Die Forschung im Bereich der Tiefenschätzung aus Bildern hat in den letzten Jahren erhebliche Fortschritte gemacht. Modelle wie "Depth Anything" (DA) und dessen Nachfolger "Depth Anything 2" (DA2) haben bereits gezeigt, welch hohe Präzision und Generalisierungsfähigkeit durch das Training auf großen, unbeschrifteten Datensätzen erreicht werden kann. DA hat sich als eine robuste Lösung für die monokulare Tiefenschätzung etabliert, die auf einer Kombination aus 1,5 Millionen beschrifteten und über 62 Millionen unbeschrifteten Bildern trainiert wurde. Diese Modelle nutzten die Leistungsfähigkeit von Large-Scale Vision Transformers, um Tiefenkarten mit hoher Detailgenauigkeit zu generieren.
Mit der Einführung von "Depth Anything 3" (DA3) wird nun ein weiterer Schritt in dieser Entwicklung vollzogen. Das Modell, entwickelt von einem Team unter der Leitung von Haotong Lin und Bingyi Kang, konzentriert sich auf die Vorhersage räumlich konsistenter Geometrie aus einer beliebigen Anzahl visueller Eingaben, unabhängig davon, ob Kamera-Posen bekannt sind oder nicht. Das Hauptziel der Entwickler war es, ein Modell zu schaffen, das mit minimaler Modellierung auskommt, dabei aber eine maximale Leistung erzielt.
DA3 zeichnet sich durch zwei zentrale Erkenntnisse aus, die seine Effizienz und Leistungsfähigkeit untermauern:
Durch die Anwendung eines Teacher-Student-Trainingsparadigmas erreicht DA3 ein Detailniveau und eine Generalisierungsfähigkeit, die mit denen von DA2 vergleichbar sind, diese aber in vielen Aspekten übertreffen. Das Modell wurde ausschließlich auf öffentlichen akademischen Datensätzen trainiert, was die Transparenz und Reproduzierbarkeit der Ergebnisse fördert.
Um die Leistungsfähigkeit von DA3 zu bewerten, wurde ein neuer Visual Geometry Benchmark etabliert. Dieser Benchmark umfasst Aufgaben wie die Schätzung der Kamera-Pose, die Geometrie aus beliebigen Ansichten und das visuelle Rendering. Auf diesem Benchmark setzt DA3 in allen Aufgaben neue Maßstäbe. Es übertrifft frühere State-of-the-Art-Modelle (SOTA VGGT) bei der Genauigkeit der Kamera-Pose um durchschnittlich 44,3 % und bei der geometrischen Genauigkeit um 25,1 %. Darüber hinaus erzielt es auch bei der monokularen Tiefenschätzung bessere Ergebnisse als DA2.
Die Fähigkeiten von DA3 erstrecken sich über mehrere Schlüsselbereiche der visuellen Geometrie und bieten potenziell weitreichende Anwendungen:
DA3 ist in der Lage, den visuellen Raum aus einer beliebigen Anzahl von Ansichten zu rekonstruieren, von einer einzelnen Ansicht bis hin zu mehreren Ansichten. Dies ermöglicht die Wiederherstellung des visuellen Raums aus komplexen Videos, wie beispielsweise schwierig aufzunehmenden Szenen.
Die präzise Schätzung der visuellen Geometrie verbessert die Leistung von Simultaneous Localization and Mapping (SLAM)-Systemen. Quantitative Ergebnisse zeigen, dass ein einfacher Austausch von VGGT durch DA3 in VGGT-Long (DA3-Long) die Drift in großflächigen Umgebungen signifikant reduziert. Dies übertrifft sogar die Leistung von COLMAP, das für ähnliche Aufgaben deutlich längere Rechenzeiten benötigt.
Durch das Einfrieren des gesamten Backbones und das Training eines DPT-Kopfes zur Vorhersage von 3DGS-Parametern erreicht DA3 eine sehr starke und generalisierbare Fähigkeit zur Synthese neuer Ansichten (Novel View Synthesis).
Auch bei mehreren Bildern aus unterschiedlichen Blickwinkeln, beispielsweise von einem Fahrzeug, kann DA3 stabile und fusionierbare Tiefenkarten schätzen. Dies verbessert das Umweltverständnis autonomer Fahrzeuge erheblich, selbst wenn die Bilder keine Überschneidungen aufweisen.
Das Entwicklerteam stellt verschiedene Modellvarianten zur Verfügung, die auf spezifische Anwendungsfälle zugeschnitten sind:
Zusätzlich wurde eine "Nested Series" (DA3Nested-Giant-Large) entwickelt, die ein "Any-View Giant"-Modell mit einem metrischen Modell kombiniert, um eine Rekonstruktion der visuellen Geometrie im realen metrischen Maßstab zu ermöglichen.
Die Implementierung wurde benutzerfreundlich gestaltet und bietet eine interaktive Web-Oberfläche, eine flexible Kommandozeilenschnittstelle (CLI) und Unterstützung für verschiedene Exportformate (z.B. glb, npz, ply, 3DGS-Videos). Dies erleichtert sowohl die praktische Anwendung als auch die weitere Forschung und Integration in bestehende Workflows.
Depth Anything 3 stellt einen bedeutenden Fortschritt in der Computer-Vision-Forschung dar. Die Kombination aus architektonischer Simplizität, einem optimierten Trainingsparadigma und hervorragenden Leistungswerten macht es zu einem vielversprechenden Werkzeug für die 3D-Wiederherstellung. Die Fähigkeit, präzise räumliche Informationen aus beliebigen visuellen Eingaben zu extrahieren, eröffnet neue Möglichkeiten für eine Vielzahl von Branchen und Anwendungen. Die fortlaufende Entwicklung in diesem Bereich unterstreicht die Bedeutung von effizienten und robusten KI-Modellen für die Analyse und Interaktion mit unserer dreidimensionalen Welt.
Wir bei Mindverse beobachten diese Entwicklungen mit großem Interesse und sind überzeugt, dass solche Innovationen die Basis für zukünftige KI-Anwendungen bilden, die unsere Interaktion mit digitalen Inhalten und der physischen Welt neu definieren werden.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen