Fortschritte in der Robotik durch das DeFM-Modell für Tiefenwahrnehmung

Kategorien:

No items found.

Freigegeben:

January 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das DeFM-Modell (Depth Foundation Model) stellt einen Fortschritt in der Roboterwahrnehmung dar, indem es sich auf Tiefenbilder konzentriert.
DeFM wurde mit einem Datensatz von 60 Millionen Tiefenbildern trainiert und nutzt einen DINO-ähnlichen Self-Distillation-Ansatz.
Das Modell erlernt geometrische und semantische Repräsentationen, die auf verschiedene Umgebungen, Aufgaben und Sensoren übertragbar sind.
Eine neuartige Eingabenormalisierungsstrategie wurde implementiert, um die metrische Genauigkeit über verschiedene Skalen hinweg zu gewährleisten.
DeFM erreicht bei verschiedenen Benchmark-Tests für Robotikaufgaben, darunter Klassifizierung, Segmentierung und Navigation, eine hohe Leistungsfähigkeit.
Die entwickelten Modelle sind für den sofortigen Einsatz in ressourcenbeschränkten Robotersystemen konzipiert und erfordern keine aufgabenspezifische Feinabstimmung.
Dieser Ansatz verbessert den Transfer von der Simulation in die reale Welt und die Generalisierungsfähigkeit über verschiedene Sensoren hinweg.

Grundlegende Repräsentationen aus Tiefendaten für die Robotik: Eine Analyse des DeFM-Modells

Die Weiterentwicklung der Robotik hängt maßgeblich von der Fähigkeit ab, die Umgebung präzise wahrzunehmen und zu interpretieren. Tiefensensoren spielen hierbei eine zentrale Rolle und sind auf einer Vielzahl von Roboterplattformen weit verbreitet. Fortschritte in der schnellen und hochpräzisen Tiefensimulation haben es ermöglicht, Roboterstrategien zu entwickeln, die auf Tiefenbeobachtungen basieren und einen robusten Transfer von der Simulation in die reale Welt für eine breite Palette von Aufgaben ermöglichen. Trotz dieser Entwicklungen ist das Lernen von Repräsentationen für die Tiefenmodalität im Vergleich zu RGB-Bildern, wo große Foundation Models den Stand der Technik definieren, bisher weniger intensiv erforscht worden.

Das DeFM-Modell als Antwort auf eine Forschungslücke

In diesem Kontext wurde das DeFM-Modell (Depth Foundation Model) entwickelt, um diese Lücke zu schließen. Es handelt sich um ein selbstüberwachtes Foundation Model, das ausschließlich auf Tiefenbildern für Roboteranwendungen trainiert wurde. Das Hauptziel von DeFM ist es, geometrische und semantische Repräsentationen aus Tiefenbildern zu lernen, die sich auf verschiedene Umgebungen, Aufgaben und Sensoren verallgemeinern lassen.

Architektur und Trainingsansatz

Die Entwicklung von DeFM basiert auf einem DINO-ähnlichen (DINO: self-DIstillation with NO labels) Self-Distillation-Ansatz. Dieser Ansatz ermöglicht es dem Modell, aus einem großen, kuratierten Datensatz von 60 Millionen Tiefenbildern aussagekräftige Merkmale zu extrahieren, ohne dass explizite menschliche Annotationen erforderlich sind. Ein wesentliches Merkmal von DeFM ist die Einführung einer neuartigen Eingabenormalisierungsstrategie. Diese Strategie ist darauf ausgelegt, die metrische Genauigkeit über verschiedene Skalen hinweg zu bewahren, was für viele Roboteranwendungen von entscheidender Bedeutung ist, bei denen präzise Entfernungsangaben benötigt werden.

Kompakte Modelle für ressourcenbeschränkte Systeme

Ein weiterer Aspekt des DeFM-Projekts ist die Destillation des Modells in kompaktere Versionen. Diese kleineren Modelle sind speziell für den Einsatz in ressourcenbeschränkten Robotersystemen optimiert. Dies ist ein wichtiger Schritt, um die praktischen Anwendungen von Foundation Models in der Robotik zu erweitern, da viele Roboterplattformen nur begrenzte Rechenkapazitäten zur Verfügung haben.

Leistungsbewertung und Generalisierungsfähigkeit

Die Leistungsfähigkeit von DeFM wurde anhand einer Reihe von Benchmark-Tests bewertet, die verschiedene tiefenbasierte Robotikaufgaben umfassen, darunter Klassifizierung, Segmentierung, Navigation, Lokomotion und Manipulation. In diesen Tests erreichte DeFM nachweislich den Stand der Technik. Besonders hervorzuheben ist die starke Generalisierungsfähigkeit des Modells vom Simulationsumfeld in die reale Welt. Dies deutet darauf hin, dass die gelernten Repräsentationen robust genug sind, um mit den Komplexitäten und Variationen realer Szenarien umzugehen.

Verfügbarkeit und zukünftige Auswirkungen

Die Entwickler von DeFM haben alle vortrainierten Modelle öffentlich zugänglich gemacht. Diese Modelle können direkt für tiefenbasiertes Roboter-Lernen eingesetzt werden, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich ist. Dies erleichtert die Integration von DeFM in bestehende und zukünftige Roboterprojekte und könnte die Entwicklung neuer Anwendungen beschleunigen. Der Ansatz von DeFM, grundlegende Repräsentationen aus Tiefendaten zu lernen, könnte somit die Fähigkeit von Robotern, ihre Umgebung zu verstehen und mit ihr zu interagieren, signifikant verbessern.

Kontext und Vergleich zu anderen Ansätzen

Die Forschung im Bereich der Tiefenschätzung und 3D-Repräsentation für die Robotik hat in den letzten Jahren erhebliche Fortschritte gemacht. Traditionelle Methoden stützen sich oft auf Punktwolken, Voxel oder Signed Distance Functions (SDFs). Neuere neuronale Repräsentationen wie Neural Radiance Fields (NeRF) und 3D Gaussian Splatting (3DGS) sowie aufkommende Foundation Models erweitern diese Möglichkeiten. Während bestehende SLAM- und Lokalisierungssysteme vorwiegend auf spärlichen Repräsentationen aufbauen, wird erwartet, dass dichte Szenenrepräsentationen eine entscheidende Rolle für nachgelagerte Aufgaben wie Navigation und Hindernisvermeidung spielen werden. Neuronale Repräsentationen eignen sich zudem gut für die Integration von hochrangigen semantischen Merkmalen und sprachbasierten Prioren, was ein umfassenderes 3D-Szenenverständnis und eine verbesserte verkörperte Intelligenz ermöglicht.

Ein verwandter Ansatz, FOUNDER (Foundation Models grounded in World Models), integriert Foundation Models (FMs) mit World Models (WMs), um eine offene Aufgabenlösung in verkörperten Umgebungen zu ermöglichen. FOUNDER lernt eine Abbildungsfunktion, die FM-Repräsentationen im WM-Zustandsraum verankert, wodurch die physischen Zustände des Agenten im Weltsimulator aus externen Beobachtungen abgeleitet werden können. Dieser Ansatz ermöglicht das Lernen einer zielbedingten Strategie durch Imagination, wobei die abgebildete Aufgabe als Zielzustand dient. FOUNDER verwendet die vorhergesagte zeitliche Distanz zum Zielzustand als informatives Belohnungssignal und zeigt überlegene Leistungen bei verschiedenen visuellen Steuerungs-Benchmarks, insbesondere in Szenarien mit komplexen Beobachtungen oder Domain-Gaps.

Im Vergleich zu FOUNDER konzentriert sich DeFM spezifisch auf die Tiefenmodalität und die Extraktion robuster geometrischer und semantischer Repräsentationen aus Tiefenbildern. Während FOUNDER eine breitere Integration von FMs und WMs für die Aufgabenlösung anstrebt, bietet DeFM eine spezialisierte Lösung für die Tiefenwahrnehmung, die als Grundlage für viele Robotikaufgaben dienen kann. Die Stärke von DeFM liegt in seiner Fähigkeit, aus reinen Tiefendaten hochqualitative und generalisierbare Repräsentationen zu lernen, die für eine Vielzahl von Anwendungen in der Robotik ohne aufwändige Feinabstimmung direkt nutzbar sind.

Herausforderungen und Zukunftsperspektiven

Obwohl DeFM beeindruckende Ergebnisse liefert, bleiben Herausforderungen bestehen. Die Verfügbarkeit von qualitativ hochwertigen, großskaligen und variantenreichen Daten ist ein ständiges Anliegen. Aktuelle Methoden zur Datenerfassung, sei es durch Tiefensensoren oder synthetische Generierung, haben ihre Grenzen. Zukünftige Arbeiten könnten sich darauf konzentrieren, selbstüberwachte Techniken weiter zu verfeinern, um das Wissen aus großen Bild- und Videodaten besser auf die Tiefenschätzung zu übertragen, oder bessere Simulations- und Generierungsansätze zu entwickeln, die künstlerisch hochwertige synthetische Renderings und Tiefenpaare liefern, um die Generalisierungsfähigkeit zu steigern.

Ein weiterer wichtiger Aspekt ist die Konsistenz, sowohl räumlich als auch zeitlich. Bei der Tiefenschätzung aus Einzelbildern sind die aktuellen Methoden oft unzureichend, wenn es darum geht, Ergebnisse aus verschiedenen Zeitpunkten und Blickwinkeln derselben Szene zusammenzuführen. Dies ist besonders relevant für dynamische Szenen in der Robotik. Die Integration von DeFM mit fortgeschrittenen Methoden zur Modellierung dynamischer Umgebungen und zur Sicherstellung der Konsistenz über die Zeit hinweg stellt ein vielversprechendes Forschungsfeld dar.

Fazit

Das DeFM-Modell stellt einen wichtigen Schritt in Richtung robusterer und autonomerer Robotiksysteme dar. Durch die Konzentration auf das Lernen grundlegender Repräsentationen aus Tiefenbildern bietet es eine effiziente und skalierbare Lösung für eine Vielzahl von Herausforderungen in der Roboterwahrnehmung. Die Verfügbarkeit der vortrainierten Modelle und die nachgewiesene Generalisierungsfähigkeit machen DeFM zu einem wertvollen Werkzeug für Forscher und Entwickler in der Robotik und darüber hinaus. Die kontinuierliche Verbesserung von Foundation Models für die Tiefenschätzung wird voraussichtlich zu immer ausgefeilteren und praktischeren Anwendungen in der Zukunft führen.

Bibliographie

- Patel, M., Frey, J., Mittal, M., Yang, F., Hansson, A., Bar, A., Cadena, C., Hutter, M. (2026). DeFM: Learning Foundation Representations from Depth for Robotics. arXiv preprint arXiv:2601.18923. - leggedrobotics. (n.d.). source code and trained models for DeFM (Depth Foundation Model). GitHub. Verfügbar unter: https://github.com/leggedrobotics/defm - Hugging Face. (2026, 28. Januar). Daily Papers. Verfügbar unter: https://huggingface.co/papers/date/2026-01-28 - Xu, Z., Zhou, H., Peng, S., Lin, H., Guo, H., Shao, J., Yang, P., Yang, Q., Miao, S., He, X., Wang, Y., Wang, Y., Hu, R., Liao, Y., Zhou, X., & Bao, H. (2025). Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation. arXiv preprint arXiv:2507.11540. - Wang, Y., Yu, R., Wan, S., Gan, L., & Zhan, D.-C. (2025). FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making. arXiv preprint arXiv:2507.12496. - Deng, T., Pan, Y., Yuan, S., Li, D., Wang, C., Li, M., Chen, L., Xie, L., Wang, D., Wang, J., Civera, J., Wang, H., & Chen, W. (2025). What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models. arXiv preprint arXiv:2512.03422. - Mazzaglia, P., Verbelen, T., Dhoedt, B., Courville, A., & Rajeswar, S. (2024). GenRL: Multimodal-foundation world models for generalization in embodied agents. arXiv preprint arXiv:2406.18043.