KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz für räumliches Denken in 3D-Umgebungen durch Chain-of-View Prompting

Kategorien:
No items found.
Freigegeben:
January 10, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Chain-of-View (CoV) Prompting ist ein rahmenwerkfreies, testzeitbasiertes Reasoning-Framework, das Vision-Language-Modelle (VLMs) in aktive Viewpoint-Reasoners verwandelt.
    • CoV verbessert die räumliche Schlussfolgerung in 3D-Umgebungen, indem es Kontext aus mehreren Blickwinkeln sammelt und teilweise verdeckte Informationen verarbeitet.
    • Ein View Selection Agent filtert redundante Frames und identifiziert relevante Ankeransichten.
    • Anschließend erfolgt eine feinkörnige Ansichtsanpassung durch iteratives Reasoning mit diskreten Kameraaktionen, bis ausreichend Kontext gesammelt ist.
    • Die Methode zeigte signifikante Leistungssteigerungen von durchschnittlich +11,56 % in LLM-Match auf OpenEQA und bis zu +13,62 % bei Qwen3-VL-Flash.
    • CoV ist eine modellagnostische Strategie, die ohne zusätzliches Training auskommt und somit effizient in bestehende Systeme integriert werden kann.

    Die Fähigkeit von Künstlichen Intelligenzen, räumliche Zusammenhänge zu verstehen und darauf basierend zu agieren, stellt eine zentrale Herausforderung im Bereich der Embodied AI dar. Insbesondere in komplexen 3D-Umgebungen, in denen relevante Informationen über verschiedene Blickwinkel verteilt oder teilweise verdeckt sein können, stoßen herkömmliche Vision-Language-Modelle (VLMs) oft an ihre Grenzen. Eine innovative Entwicklung, das sogenannte Chain-of-View (CoV) Prompting, verspricht hier Abhilfe und bietet einen neuartigen Ansatz zur Verbesserung der räumlichen Schlussfolgerung.

    Die Herausforderung des räumlichen Denkens für KI

    Embodied Question Answering (EQA) in 3D-Umgebungen erfordert von VLMs die Fähigkeit, einen umfassenden Kontext aus verschiedenen Perspektiven zu erfassen. Die meisten aktuellen VLMs sind jedoch auf eine feste und begrenzte Anzahl von Eingabeansichten beschränkt. Dies limitiert ihre Möglichkeiten, während der Inferenz relevante Kontextinformationen zu sammeln, und erschwert somit komplexes räumliches Denken. Die Notwendigkeit, Informationen aus dynamischen, sich verändernden Ansichten zu integrieren und dabei Verdeckungen zu berücksichtigen, ist ein entscheidender Faktor für die Leistungsfähigkeit von KI-Systemen in realen Anwendungen.

    Chain-of-View (CoV) Prompting: Ein neuer Ansatz

    Das Chain-of-View (CoV) Prompting ist ein kürzlich vorgestelltes, trainingsfreies und testzeitbasiertes Reasoning-Framework. Es wurde entwickelt, um VLMs in aktive Viewpoint-Reasoners zu transformieren. Der Kernansatz von CoV liegt in einem grob-zu-fein gestuften Explorationsprozess, der es dem Modell ermöglicht, dynamisch relevante Ansichten zu identifizieren und zu nutzen.

    Funktionsweise des CoV-Promptings

    Das CoV-Framework operiert in zwei Hauptphasen:

    • Ansichtsauswahl (View Selection Agent): Zunächst setzt CoV einen intelligenten Agenten ein, der redundante Frames herausfiltert und die für die Beantwortung einer Frage am besten geeigneten Ankeransichten identifiziert. Dies reduziert den Verarbeitungsaufwand und konzentriert die Aufmerksamkeit des Modells auf die kritischsten Informationen.
    • Feinkörnige Ansichtsanpassung: Nach der Auswahl der Ankeransichten erfolgt eine detaillierte Anpassung der Ansicht. Dies geschieht durch iteratives Reasoning, das mit diskreten Kameraaktionen verknüpft ist. Das VLM erhält so neue Beobachtungen aus der zugrunde liegenden 3D-Szenendarstellung, bis ausreichend Kontext für eine präzise räumliche Schlussfolgerung gesammelt wurde oder ein vordefiniertes Schrittbudget erreicht ist.

    Leistungsverbesserungen und Anwendungsbereiche

    Die Evaluation von CoV auf OpenEQA unter Verwendung von vier führenden VLMs zeigte beeindruckende Ergebnisse. Im Durchschnitt konnte eine Leistungssteigerung von +11,56 % im LLM-Match erzielt werden, wobei der maximale Gewinn bei +13,62 % auf Qwen3-VL-Flash lag. Darüber hinaus demonstrierte CoV eine Skalierbarkeit während der Testphase: Eine Erhöhung des minimalen Aktionsbudgets führte zu einer zusätzlichen durchschnittlichen Verbesserung von +2,51 %, mit einem Spitzenwert von +3,73 % bei Gemini-2.5-Flash. Auch auf den Datensätzen ScanQA und SQA3D zeigte CoV eine starke Performance (z.B. 116 CIDEr / 31.9 EM@1 auf ScanQA und 51.1 EM@1 auf SQA3D).

    Diese Ergebnisse deuten darauf hin, dass die Kombination aus frageorientierter Ansichtsauswahl und einer offenen Ansichtssuche eine effektive und modellagnostische Strategie zur Verbesserung des räumlichen Denkens in 3D-EQA-Szenarien darstellt, ohne dass zusätzliches Training erforderlich ist.

    Implikationen für B2B-Anwendungen

    Für Unternehmen im B2B-Sektor, die auf präzise und effiziente KI-Lösungen angewiesen sind, bietet CoV Prompting erhebliche Vorteile:

    • Effizienzsteigerung: Durch das trainingsfreie Design lassen sich CoV-Methoden schnell in bestehende VLM-Pipelines integrieren, was Entwicklungszeiten und -kosten reduziert.
    • Verbesserte Entscheidungsfindung: In Bereichen wie Robotik, autonomes Fahren oder virtuellen Assistenzsystemen ist ein robustes räumliches Verständnis essenziell. CoV kann hier zu präziseren und zuverlässigeren Entscheidungen führen.
    • Umgang mit komplexen Daten: Die Fähigkeit, mit verteilten und teilweise verdeckten Informationen umzugehen, ist in vielen industriellen Anwendungen, etwa bei der Inspektion von Anlagen oder der Navigation in komplexen Umgebungen, von großer Bedeutung.
    • Modellagnostik: Die Unabhängigkeit von spezifischen Modellarchitekturen ermöglicht eine breite Anwendbarkeit und Flexibilität bei der Auswahl und dem Einsatz von VLMs.

    Vergleich mit verwandten Ansätzen

    Im Kontext des räumlichen Denkens für große Sprachmodelle (LLMs) gibt es verschiedene Ansätze. Das Chain-of-Symbol (COS) Prompting, ein verwandtes Konzept, konzentriert sich darauf, komplexe natürliche Sprachbeschreibungen von Umgebungen in symbolische Darstellungen zu überführen, um das Reasoning zu vereinfachen. COS hat gezeigt, dass es die Genauigkeit in Planungsaufgaben signifikant verbessern und gleichzeitig den Token-Verbrauch reduzieren kann, was zu einer erhöhten Effizienz führt.

    Ein weiterer Ansatz ist SpatialCoT, der die räumlichen Reasoning-Fähigkeiten von VLMs durch Koordinatenausrichtung und Chain-of-Thought-Ansätze verbessern soll. SpatialCoT integriert die Ausrichtung von Vision-Language-Inputs mit räumlichen Koordinaten und nutzt die Reasoning-Fähigkeiten von Sprachmodellen für fortgeschrittenes räumliches Denken.

    Während diese Methoden unterschiedliche Schwerpunkte setzen – COS auf die Transformation von natürlicher Sprache in Symbole und SpatialCoT auf die Koordinatenausrichtung mit VLMs – ergänzt CoV diese Ansätze durch seinen Fokus auf die dynamische, aktive Erkundung und Auswahl von Ansichten in 3D-Umgebungen. Die Kombination dieser Techniken könnte zukünftig noch leistungsfähigere und robustere KI-Systeme für räumliches Reasoning ermöglichen.

    Fazit

    Das Chain-of-View (CoV) Prompting stellt einen vielversprechenden Fortschritt in der Entwicklung von KI-Systemen dar, die in komplexen 3D-Umgebungen räumliche Schlussfolgerungen ziehen müssen. Durch seinen innovativen Ansatz der aktiven Ansichtsauswahl und -anpassung ermöglicht es VLMs, den Kontext effektiver zu erfassen und zu verarbeiten. Die demonstrierten Leistungssteigerungen und die trainingsfreie Natur der Methode eröffnen neue Möglichkeiten für die Implementierung in einer Vielzahl von B2B-Anwendungen, die ein präzises räumliches Verständnis erfordern. Die kontinuierliche Forschung in diesem Bereich, einschließlich der Kombination mit anderen Prompting-Strategien, wird voraussichtlich zu noch leistungsfähigeren und vielseitigeren KI-Lösungen führen.

    Bibliografie

    • Zhao, H., Liu, A., Zhang, Z., Wang, W., Chen, F., Zhu, R., Haffari, G., & Zhuang, B. (2026). CoV: Chain-of-View Prompting for Spatial Reasoning. arXiv preprint arXiv:2601.05172.
    • Cobus Greyling. (2024, Oktober 2). Chain-Of-Symbol Prompting To Improve Spatial Reasoning. Substack.
    • Hu, H., Lu, H., Zhang, H., Song, Y.-Z., Lam, W., & Zhang, Y. (2023). Chain-of-Symbol Prompting for Spatial Reasoning in Large Language Models. Published as a conference paper at COLM 2024.
    • Liu, Y., Chi, D., Wu, S., Zhang, Z., Hu, Y., Zhang, L., Zhang, Y., Wu, S., Cao, T., Huang, G., Huang, H., Tian, G., Qiu, W., Quan, X., Hao, J., & Zhuang, Y. (2025). SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning. arXiv preprint arXiv:2501.10074.
    • Shiri, F., Guo, X.-Y., Far, M. G., Yu, X., Haf, R., & Li, Y.-F. (2024). An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 21440–21455.
    • Ji, B., Agrawal, S., Tang, Q., & Wu, Y. (2025). Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning. arXiv preprint arXiv:2507.13362.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen