KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschritte im visuellen räumlichen Tuning für KI-Modelle

Kategorien:
No items found.
Freigegeben:
November 11, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Visual Spatial Tuning (VST) ist ein umfassendes Framework zur Verbesserung der visuell-räumlichen Fähigkeiten von Vision-Language Models (VLMs).
    • VST-P, ein Datensatz mit 4,1 Millionen Proben, dient der Schulung von VLMs in der räumlichen Wahrnehmung über Einzelbilder, Mehrfachbilder und Videos hinweg.
    • VST-R, ein Datensatz mit 135.000 Proben, konzentriert sich auf die räumliche Schlussfolgerung mittels Chain-of-Thought (CoT)-Verfahren und regelbasierter Daten.
    • Ein progressiver Trainingsansatz kombiniert überwachtes Fine-Tuning mit Reinforcement Learning, um räumliches Wissen aufzubauen und zu verfeinern.
    • VST-Modelle zeigen überlegene Leistungen bei räumlichen Benchmarks und behalten gleichzeitig hohe allgemeine Fähigkeiten bei.
    • Die Integration von VST in Vision-Language-Action (VLA)-Modelle führt zu signifikanten Verbesserungen bei Aufgaben der Robotik und ermöglicht eine präzisere Interaktion mit der physischen Welt.

    Die Evolution der visuellen räumlichen Intelligenz in KI-Modellen

    Die Fähigkeit, räumliche Beziehungen aus visuellen Eingaben zu erfassen, ist ein Grundstein menschenähnlicher allgemeiner Intelligenz. Im Bereich der Künstlichen Intelligenz, insbesondere bei Vision-Language Models (VLMs), stellt dies eine zentrale Herausforderung dar. Traditionelle Ansätze zur Verbesserung des räumlichen Bewusstseins in VLMs umfassten oft die Integration zusätzlicher spezialisierter Encoder, was jedoch zu zusätzlichem Overhead führen und die allgemeinen Fähigkeiten der Modelle beeinträchtigen konnte. Ein neuer Forschungsansatz, bekannt als Visual Spatial Tuning (VST), bietet nun einen umfassenden Rahmen, um VLMs mit menschenähnlichen visuell-räumlichen Fähigkeiten auszustatten, die von der reinen Wahrnehmung bis zur komplexen Schlussfolgerung reichen.

    Grundlagen der räumlichen Wahrnehmung und Schlussfolgerung

    VST strukturiert die räumliche Intelligenz in zwei Hauptkomponenten: die räumliche Wahrnehmung und die räumliche Schlussfolgerung. Räumliche Wahrnehmung wird als die Fähigkeit definiert, die räumlichen Beziehungen zwischen Objekten zu erkennen. Dies umfasst grundlegende Kenntnisse darüber, "was ist es?" und "wo ist es?". Aktuelle VLMs können Objekte erkennen und im Pixelraum lokalisieren, ihre Fähigkeit zur Bestimmung von Objektpositionen im 3D-Raum ist jedoch oft begrenzt.

    Die räumliche Schlussfolgerung hingegen geht über die direkte Wahrnehmung hinaus und beschreibt die Fähigkeit, ein internes Modell einer Umgebung mental zu konstruieren und zu manipulieren. Dies erfordert ein tieferes Verständnis von Zusammenhängen und die Fähigkeit, logische Schlüsse über räumliche Anordnungen zu ziehen, selbst wenn nur begrenzte Ansichten verfügbar sind.

    Der VST-P Datensatz: Fundament der räumlichen Wahrnehmung

    Um die räumliche Wahrnehmung in VLMs zu stärken, wurde der umfangreiche Datensatz VST-Perception (VST-P) entwickelt. Dieser Datensatz umfasst 4,1 Millionen Proben, die 19 verschiedene Fähigkeiten in Einzelbildern, Mehrfachbildern und Videos abdecken. Die Daten sind wie folgt aufgeteilt:

    • Einzelbilder (64,8%): Diese Kategorie konzentriert sich auf Aufgaben wie relative Tiefenschätzung, 3D-Objekterkennung und Distanzschätzung. Hierbei werden 2D-Pixelkoordinaten mit der 3D-physischen Welt verknüpft. Daten stammen aus realen Datensätzen wie ScanNet++ und Hypersim sowie synthetischen Daten, die mit einem Tiefenexpertenmodell auf wilden Bildern des COCO-Datensatzes generiert wurden. Eine Schlüsselstrategie hierbei ist die FoV-Vereinheitlichung, die alle Bilder auf eine virtuelle Kamera mit einem vordefinierten, einheitlichen Sichtfeld projiziert, um geometrische Inkonsistenzen zu minimieren. Zusätzlich werden Szenenbeschreibungen verwendet, die Layoutinformationen und räumliche Beziehungen hervorheben, anstatt nur den Bildinhalt zu beschreiben.
    • Mehrfachbilder (33,1%): Diese Daten unterstützen Aufgaben wie Multi-View 3D-Objekterkennung, Multi-View-Korrespondenz und das Verständnis von Objekt-Objekt-Beziehungen sowie Kamera-Bewegungsanalysen. Sie ermöglichen es VLMs, räumliche Beziehungen über verschiedene Blickwinkel hinweg zu erfassen.
    • Videos (2,1%): Videodaten sind entscheidend für die Erfassung raumzeitlicher Beziehungen, beispielsweise die Reihenfolge des Erscheinens von Objekten oder das Zählen von Objekten in einer Sequenz. Ein Teil dieser Daten wird aus VLM-3R reorganisiert und in einem Multi-Turn-Format präsentiert.

    Der VST-R Datensatz: Förderung der räumlichen Schlussfolgerung

    Über die grundlegende Wahrnehmung hinaus wurde der VST-Reasoning (VST-R) Datensatz mit 135.000 Proben entwickelt, um die räumliche Schlussfolgerungsfähigkeit zu schulen. Dieser Datensatz enthält zwei Hauptbestandteile:

    • Chain-of-Thought (CoT) Schritte: Diese instruieren die Modelle, wie sie räumlich denken sollen, indem sie schrittweise Denkprozesse bereitstellen.
    • Regelbasierte Daten: Diese werden im Reinforcement Learning (RL) eingesetzt, um die Schlussfolgerungsfähigkeiten weiter zu verbessern.

    Ein besonderes Designmerkmal im VST-R Datensatz ist die Verwendung von Bird's-Eye View (BEV) Annotationen. Diese nutzen eine Draufsicht, um räumliche Beziehungen explizit darzustellen und so die Qualität der generierten Layoutbeschreibungen und CoT-Schlussfolgerungsprozesse zu verbessern, insbesondere bei komplexen Multi-View-Szenarien.

    Progressive Trainingsstrategie

    Das VST-Framework verwendet eine dreistufige progressive Trainingspipeline, die den menschlichen Erwerb räumlicher Intelligenz nachahmt:

    1. Supervised Fine-Tuning (SFT): In dieser Phase wird das grundlegende räumliche Verständnis mithilfe des VST-P Datensatzes in das Basismodell (z.B. Qwen2.5-VL) integriert. Um die ursprünglichen Fähigkeiten des Modells zu erhalten, wird auch ein Teil allgemeiner multimodaler Daten hinzugefügt.
    2. CoT Cold Start: Hierbei werden Chain-of-Thought-Daten verwendet, um dem Modell Schlussfolgerungsmuster zu vermitteln. Das Modell lernt, räumliche Layouts textuell zu rekonstruieren und Fragen entsprechend zu beantworten.
    3. Reinforcement Learning (RL): Mittels des Group Relative Policy Optimization (GRPO)-Algorithmus werden die räumlichen Schlussfolgerungsfähigkeiten des Modells weiter verfeinert. Ein gemischtes Belohnungssystem, das Genauigkeit und Formatierung berücksichtigt, wird eingesetzt, um die Qualität der generierten Antworten zu optimieren.

    Leistungsfähigkeit und Anwendungsbereiche

    Die experimentellen Ergebnisse zeigen, dass VST-Modelle bei räumlichen Benchmarks wie MMSI-Bench und VSIBench eine überlegene Leistung erzielen und gleichzeitig ihre allgemeinen multimodalen Fähigkeiten beibehalten. Insbesondere bei der 3D-Objekterkennung auf Datensätzen wie SUN RGB-D erreichen VST-Modelle Spitzenwerte, selbst ohne spezialisierte 3D-Encoder. Dies unterstreicht, dass eine reine visuell-räumliche Abstimmung zu robusten Ergebnissen führen kann.

    Ein weiterer wichtiger Aspekt ist die Anwendung von VST auf Vision-Language-Action (VLA)-Modelle. Die Integration des durch VST erworbenen räumlichen Wissens führt zu einer signifikanten Leistungssteigerung bei Robotik-Manipulationsaufgaben. Beispielsweise konnte ein VLA-Modell, das auf einem VST-getunten Modell basiert, eine um 8,6 % höhere Erfolgsrate beim LIBERO-Benchmark erzielen. Dies zeigt, dass VST den Weg für eine stärker physisch geerdete KI ebnet, die in der Lage ist, die reale Welt präziser zu verstehen und mit ihr zu interagieren.

    Ablationsstudien und Erkenntnisse

    Umfassende Ablationsstudien belegen den Beitrag jeder einzelnen Komponente des VST-Frameworks:

    • Die Integration von Einzelbild-3D-Daten, insbesondere Tiefeninformationen und Szenenbeschreibungen, verbessert die 3D-Wahrnehmung erheblich.
    • Mehrfachbilddaten sind entscheidend für das Verständnis von Korrespondenzen und Beziehungen zwischen Objekten und Kameras in verschiedenen Ansichten.
    • Videodaten verbessern das raumzeitliche Verständnis, was sich signifikant auf Benchmarks wie VSIBench auswirkt.
    • Die Skalierung der Modellgröße und des Datensatzumfangs führt zu konsistenten Leistungssteigerungen, wobei größere Modelle stärker von räumlichen Benchmarks profitieren.
    • Die Verwendung von BEV-Annotationen bei der CoT-Generierung verbessert die Genauigkeit der Schlussfolgerungen, indem sie eine klarere Begründungsspur liefert.

    Fazit

    Visual Spatial Tuning (VST) stellt einen entscheidenden Fortschritt in der Entwicklung intelligenter Systeme dar, die visuell-räumliche Informationen auf menschenähnliche Weise verarbeiten. Durch die Kombination von umfangreichen Datensätzen, einem progressiven Trainingsansatz und innovativen Techniken wie der FoV-Vereinheitlichung und BEV-Annotationen ermöglicht VST VLMs, komplexe räumliche Beziehungen nicht nur wahrzunehmen, sondern auch darüber zu schlussfolgern. Die nachweislichen Verbesserungen in der räumlichen Wahrnehmung und Schlussfolgerung sowie die positive Auswirkung auf VLA-Modelle unterstreichen das Potenzial von VST, eine neue Generation von KI-Systemen zu schaffen, die in der physischen Welt intelligenter agieren und interagieren können.

    Bibliographie

    - Yang, R., Zhu, Z., Li, Y., Huang, J., Yan, S., Zhou, S., Liu, Z., Li, X., Li, S., Wang, W., Lin, Y., Zhao, H. (2025). Visual Spatial Tuning. arXiv preprint arXiv:2511.05491. - Yangr116. (2025). VST: Visual Spatial Tuning. GitHub. - Yuasa, K., Groen, I. I. A., Piantoni, G., Montenegro, S., Flinker, A., Devore, S., Devinsky, O., Doyle, W., Dugan, P., Friedman, D., Ramsey, N. F., Petridou, N., Winawer, J. (2025). Precise spatial tuning of visually driven alpha oscillations in human visual cortex. eLife, 12:RP90387. - Kunde, W. (2023). Human perception of spatial frequency varies with stimulus orientation and location in the visual field. Scientific Reports, 13, 17656. - Aghajari, S., Vinke, L. N., Ling, S. (2025). Spatial frequency adaptation modulates population receptive field sizes. eLife reviewed preprint. - Newcombe, N. S. (2024). Spatial Cognition. Open Encyclopedia of Cognitive Science.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen