Fortschritte im Open-Vocabulary 3D-Szenenverständnis durch ProFuse Framework

Kategorien:

No items found.

Freigegeben:

January 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

ProFuse ist ein neues Framework zur Verbesserung des Open-Vocabulary 3D-Szenenverständnisses mittels 3D Gaussian Splatting (3DGS).
Es integriert semantische Informationen effizient durch kontextbewusste Verarbeitung und eine Vorregistrierungsphase.
Das System erreicht eine hohe konsistente semantische Zuordnung ohne zusätzliches rendierungsüberwachtes Fine-Tuning.
ProFuse zeigt überlegene Leistungen bei der 3D-Objektauswahl und dem Point-Cloud-Verständnis.
Es bietet eine erhebliche Effizienzsteigerung, indem es die semantische Anhaftung in etwa fünf Minuten pro Szene abschließt, was doppelt so schnell ist wie der aktuelle Stand der Technik.

Die Fähigkeit, dreidimensionale Szenen nicht nur geometrisch präzise darzustellen, sondern auch semantisch zu verstehen, ist ein zentrales Forschungsfeld in der Computer Vision. Besonders im Kontext von Anwendungen wie Robotik, autonomer Navigation und Augmented Reality gewinnt das sogenannte Open-Vocabulary 3D-Szenenverständnis zunehmend an Bedeutung. Dieses ermöglicht es Systemen, freie Sprachabfragen zu interpretieren und Objekte in einer 3D-Umgebung ohne vorherige Beschränkung auf feste Kategorien zu identifizieren und zu lokalisieren. Eine neue Entwicklung in diesem Bereich ist das Framework ProFuse, das eine effiziente Methode zur Integration von Kreuzansichts-Kontextfusion in 3D Gaussian Splatting (3DGS) vorstellt.

Grundlagen des 3D Gaussian Splatting und seine Herausforderungen

Die 3D Gaussian Splatting-Technologie hat sich als leistungsstarke Methode zur Darstellung von 3D-Szenen etabliert. Sie repräsentiert eine Szene als eine Sammlung von anisotropen Gaußschen Verteilungen, was eine fotorealistische und Echtzeit-Wiedergabe ermöglicht. Traditionelle Ansätze zur Vermittlung semantischer Informationen in 3DGS basieren oft auf der 2D-Vision-Sprachdestillation. Dabei werden während des Trainings Bilder gerendert und Gaußsche Merkmale optimiert, um 2D-Vorhersagen abzugleichen. Dieser Ansatz kann zwar Open-Vocabulary-Wissen in 3D übertragen, birgt jedoch strukturelle Probleme:

Die Überwachungssignale werden erst nach dem Rendern und Compositing geliefert, was zu Inkonsistenzen mit der ursprünglichen Spracheinbettung führen kann.
Semantische Informationen werden über einzelne Ansichten erfasst und abgefragt, was die Schlussfolgerung weniger direkt und stabil macht.

Diese Einschränkungen haben zur Entwicklung von Methoden geführt, die direkt im 3D-Gaußschen Raum operieren, indem sie jedem Gaußschen Element Sprachmerkmale zuweisen. Die direkte Registrierung von Sprachmerkmalen in Gaußschen Elementen unter Verwendung ihrer Sichtbarkeit entlang jedes Betrachtungsstrahls hat sich hierbei als effizient erwiesen. Dennoch ist das Paradigma der direkten Registrierung noch in einem frühen Stadium, und es besteht Bedarf an einer Stärkung des Frameworks durch die Integration semantischer Konsistenz in die 3DGS-Repräsentation, ohne zusätzliche rendierungsüberwachte Trainingsschritte.

ProFuse: Eine neue Herangehensweise

ProFuse zielt darauf ab, die semantische Kohärenz im 3D Gaussian Splatting zu verbessern, indem es zwei wesentliche Faktoren berücksichtigt: die konsistente Darstellung über verschiedene Ansichten (Cross-View Consistency) und die Kohäsion innerhalb einzelner Masken (Intra-Mask Cohesion). Im Gegensatz zu früheren Methoden, die diese Eigenschaften durch rendierungsüberwachtes Training auf 2D-Feature-Maps oder explizite Feature-Lernziele fördern, integriert ProFuse diese semantische Konsistenz direkt in das Registrierungs-Framework.

Die Vorregistrierungsphase durch dichte Korrespondenz

Ein Kernstück von ProFuse ist eine Vorregistrierungsphase, die durch dichte Mehrfachansichts-Korrespondenz angetrieben wird. Dieser Schritt initialisiert die 3D-Gaußsche Szene mit präziser Geometrie, wodurch die Darstellung die Szene umfassend abdecken kann, ohne auf iterative Verdichtung angewiesen zu sein. Gleichzeitig wird dasselbe Korrespondenzsignal genutzt, um Beobachtungen desselben Objekts aus verschiedenen Blickwinkeln zu verbinden. Diese werden zu konsistenten, objektbezogenen Gruppen zusammengefasst, die als "3D Context Proposals" bezeichnet werden. Jedes dieser Proposals kodiert ein Objekt, wie es über verschiedene Ansichten erscheint, und bietet eine stabile Quelle für Semantik, die über die Blickwinkel hinweg ausgerichtet ist.

Merkmalsregistrierung und Semantische Fusion

Während der Merkmalsregistrierung enthält jedes Proposal ein globales Sprachmerkmal, das aus seinen Maskeneinbettungen berechnet wird. Dieses Merkmal wird dann auf die Gaußschen Elemente fusioniert, um eine sprachliche Kohärenz pro Primitiv über alle Ansichten hinweg zu gewährleisten. Bemerkenswert ist, dass ProFuse keine gradientenbasierte Feinabstimmung oder Backpropagation von Sprachverlusten erfordert. Die semantische Fusion erfolgt ohne zusätzliche Optimierung über die Standardrekonstruktion hinaus. Dies ermöglicht es dem Modell, die geometrische Verfeinerung ohne Verdichtung beizubehalten.

Experimentelle Ergebnisse und Effizienz

Die Wirksamkeit von ProFuse wurde in Experimenten zu verschiedenen Open-Vocabulary 3D-Wahrnehmungsaufgaben demonstriert, darunter die 3D-Objektauswahl und das Point-Cloud-Verständnis. ProFuse erzielte dabei nicht nur überzeugende Ergebnisse, sondern zeigte auch eine bemerkenswerte Effizienz. Die semantische Anhaftung konnte in etwa fünf Minuten pro Szene abgeschlossen werden, was doppelt so schnell ist wie der aktuelle Stand der Technik. Dies wird durch die korrespondenzgeführte Initialisierung erreicht, die ein kompaktes Gaußsches Set ohne Verdichtung erzeugt, sowie durch die leichtgewichtige, proposal-basierte Merkmalsfusion.

Verbesserte 3D-Objektauswahl

Auf dem LERF-OVS-Datensatz zeigte ProFuse eine präzisere Isolierung der abgefragten Objekte mit deutlich weniger Hintergrundaktivierungen. Dies führte zu saubereren und semantisch genaueren Auswahlen im Vergleich zu bestehenden Methoden, die oft streifenartige Überlagerungen in benachbarte Bereiche oder texturierte Oberflächen aufwiesen.

Fortschritte im Point-Cloud-Verständnis

Auch beim Open-Vocabulary Point-Cloud-Verständnis auf dem ScanNet-Datensatz übertraf ProFuse die etablierten Baselines. Die Methode produzierte sauberere Regionen mit schärferen Grenzen und weniger "Flecken", was auf eine höhere Regionenkonsistenz und eine bessere Behandlung von Objekt-Wand-Kontakten hindeutet.

Effizienz im Training

Die Trainingszeit ist ein entscheidender Faktor für die praktische Anwendbarkeit von 3D-Szenenverständnissystemen. Während rendierungsüberwachte Destillationsmethoden Stunden an Rechenzeit erfordern, reduziert ProFuse den Aufwand für die semantische Anhaftung auf nur wenige Minuten pro Szene. Dies ist hauptsächlich auf die kompakte Geometrie aus der korrespondenzgeführten Initialisierung und die effiziente proposal-basierte Merkmalsfusion zurückzuführen.

Fazit

ProFuse stellt einen bedeutenden Fortschritt im Bereich des Open-Vocabulary 3D-Szenenverständnisses dar. Durch die effiziente Integration von Kreuzansichts-Kontextfusion in 3D Gaussian Splatting ermöglicht es das Framework, semantische Konsistenz und Kohärenz ohne die Notwendigkeit eines rendierungsüberwachten Trainings zu erreichen. Die Methode zeichnet sich durch hohe Leistung bei der 3D-Objektauswahl und dem Point-Cloud-Verständnis sowie durch eine bemerkenswerte Trainingseffizienz aus. Diese Entwicklungen sind von großer Relevanz für B2B-Anwendungen, die ein schnelles und genaues Verständnis komplexer 3D-Umgebungen erfordern, wie etwa in der Robotik, der Entwicklung von Augmented-Reality-Anwendungen oder der industriellen Inspektion.

Die Bestrebungen, 3D-Szenen nicht nur visuell darzustellen, sondern auch inhaltlich zu erfassen, sind ein zentrales Thema der aktuellen Forschung. ProFuse trägt dazu bei, diese Lücke zu schließen und das Potenzial von 3D Gaussian Splatting für eine breitere Palette von Anwendungen zu erschließen.

Bibliography: - Chiou, Yen-Jen; Cheng, Wei-Tse; Yang, Yuan-Fu (2026): ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting. In: arXiv preprint arXiv:2601.04754. - Hugging Face (2026): ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting. Online verfügbar unter https://huggingface.co/papers/2601.04754. - Chiou, Yen-Jen; Cheng, Wei-Tse; Yang, Yuan-Fu (2026): Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting. In: arXiv preprint arXiv:2601.04754. Online verfügbar unter https://arxiv.org/html/2601.04754v1. - Huang, Tianyu (2025): OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion. In: ICCVW. Online verfügbar unter https://openaccess.thecvf.com/content/ICCV2025W/Findings/papers/Huang_OpenInsGaussian_Open-vocabulary_Instance_Gaussian_Segmentation_with_Context-aware_Cross-view_Fusion_ICCVW_2025_paper.pdf. - Huang, Tianyu (2025): OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion. In: arXiv e-prints. Online verfügbar unter https://ui.adsabs.harvard.edu/abs/2025arXiv251018253H/abstract. - MrNeRF (o. J.): MrNeRF's Awesome-3D-Gaussian-Splatting-Paper-List. Online verfügbar unter https://mrnerf.github.io/awesome-3D-gaussian-splatting/. - Yang, Dianyi et al. (2025): OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding. In: arXiv preprint arXiv:2508.01150. Online verfügbar unter https://arxiv.org/abs/2508.01150. - Arafa, Abdalla; Stricker, Didier (2025): Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings. In: arXiv preprint arXiv:2509.12938. Online verfügbar unter https://arxiv.org/abs/2509.12938. - Wang, Yiming et al. (2025): Learning Efficient Fuse-and-Refine for Feed-Forward 3D Gaussian Splatting. In: arXiv preprint arXiv:2503.14698. Online verfügbar unter https://arxiv.org/abs/2503.14698. - Peng, Qucheng et al. (2025): 3D Vision-Language Gaussian Splatting. In: arXiv preprint arXiv:2410.07577. Online verfügbar unter https://arxiv.org/abs/2410.07577.