Leistungssteigerung in der Mensch-Roboter-Interaktion durch visuelles Feedback-Modul

Kategorien:

No items found.

Freigegeben:

March 7, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Roboter in menschlichen Umgebungen benötigen eine verbesserte Fähigkeit zur Interpretation komplexer menschlicher Verhaltensweisen.
Vision-Language Models (VLMs) zeigen Potenzial, sind jedoch in multimodalen Mensch-Roboter-Interaktionen (HRI) noch begrenzt.
Ein leichter Language-to-Vision-Feedback-Modul ermöglicht eine kontextuelle Reinterpretation visueller Szenen durch VLMs.
Dieses Modul projiziert Bild-Token-Hidden-States über ein Gated Multi-Layer Perceptron (MLP) zurück in den Encoder-Input.
Die Methode führt zu einer zweiten Verarbeitung des Bildes unter Berücksichtigung des Textkontextes.
Evaluierungen in drei Robotik-Aufgaben (Navigation, Szenenbeschreibung, Erkennung menschlicher Absichten) zeigen Leistungsverbesserungen.
Die Verbesserungen sind besonders ausgeprägt bei der Szenenbeschreibung und der Erkennung menschlicher Absichten.
Der Overhead an zusätzlichen Parametern ist minimal (weniger als 3%), der Rechenaufwand durch zwei Durchläufe erhöht sich jedoch.
Die Architektur ist mit gängigen VLM-Modellen wie Qwen 2.5, Gemma 3 und LLaVA OV 1.5 kompatibel.
Die Ergebnisse deuten auf einen Paradigmenwechsel vom rein feedforward-basierten Ansatz zur Integration von Feedback-Schleifen in VLMs hin.

Leichtgewichtige visuelle Schlussfolgerung für sozial-kompetente Robotik

Die Integration von Robotern in menschliche Umgebungen stellt eine zunehmend wichtige Herausforderung dar. Roboter müssen nicht nur navigieren, interagieren und ihre Umgebung wahrnehmen, sondern auch dynamische und oft unvorhersehbare menschliche Verhaltensweisen interpretieren und darauf reagieren können. Aktuelle Fortschritte in Vision-Language Models (VLMs) haben vielversprechende Ansätze zur Verbesserung der robotischen Wahrnehmung und Befolgung von Anweisungen gezeigt. Dennoch bleiben diese Modelle in Bezug auf die Komplexität multimodaler Mensch-Roboter-Interaktionen (HRI) häufig an ihre Grenzen gebunden.

Eine aktuelle Forschungsarbeit stellt ein leichtgewichtiges Language-to-Vision-Feedback-Modul vor, das darauf abzielt, diese Lücke zu schließen. Das Modul ermöglicht eine Rückkopplung zwischen einem Large Language Model (LLM) und dem Vision Encoder in VLMs. Dadurch soll eine kontextuelle Reinterpretation visueller Szenen ermöglicht werden, die für sozial-kompetente Roboter von entscheidender Bedeutung ist.

Architektur und Funktionsweise des Feedback-Moduls

Das vorgeschlagene Modul projiziert Hidden States von Bild-Tokens durch ein Gated Multi-Layer Perceptron (MLP) zurück in den Encoder-Input. Dieser Mechanismus initiiert einen zweiten Durchlauf, bei dem die Szene unter Berücksichtigung des Textkontextes neu interpretiert wird. Dies stellt einen architektonischen Ansatz dar, der in aktuellen VLMs für die Robotik bisher wenig erforscht wurde. Anstatt die visuelle Information nur einmal passiv zu verarbeiten, ermöglicht dieser Ansatz eine dynamische Anpassung der visuellen Wahrnehmung basierend auf der sprachlichen Interpretation.

Das Modul ist so konzipiert, dass es mit bestehenden VLM-Architekturen kompatibel ist, einschließlich Modellen wie LLaVA-OneVision, Qwen 2.5 VL und Gemma 3. Die Eingangs- und Ausgangsdimensionen des MLPs entsprechen dabei den Hidden-Dimensionen der LLMs, während die Hidden-Dimension des MLPs auf das Doppelte der Eingangs-/Ausgangsdimensionen eingestellt ist. Zusätzlich beinhaltet das Modul einen "Patch Unmerger", der die Projektion vom LLM-Repräsentationsraum zurück in die vom Encoder erwartete Anzahl von Patches ermöglicht.

Trainingsstrategie und Datennutzung

Die Trainingsprozedur umfasst zwei Durchläufe für jeden Schritt. Im ersten Durchlauf erhält das Modell die Benutzeranfrage und das Eingabebild und führt einen Standard-Forward-Pass aus. Die Hidden States der letzten Schicht des LLM, die den Bild-Tokens entsprechen, werden extrahiert und durch das visuelle Reasoning-Modul verarbeitet. Das Ergebnis wird dann dem Originalbild vor der Kodierung hinzugefügt. Dies erzeugt eine neue Kodierung des Bildes, die das Feedback des LLM berücksichtigt.

Im zweiten Durchlauf werden die Benutzeranfrage, das Originalbild und das neu kodierte Bild dem Modell zugeführt. Der Verlust wird ausschließlich aus diesem zweiten Durchlauf berechnet und für die Backpropagation verwendet. Die Gewichte des visuellen Reasoning-Moduls werden aktualisiert, während das LLM und der Vision Encoder eingefroren bleiben. Optional können LoRA-Schichten (Low-Rank Adaptation) im Sprachmodell aktiviert werden, um die Bereitstellung von Feedback an den Vision Encoder zu unterstützen. Der gesamte Trainingsparameteraufwand beträgt weniger als 1,7% des Originalmodells und weniger als 3%, wenn LoRA ebenfalls berücksichtigt wird.

Für das Training wurde das Visual-CoT-Dataset verwendet, das Bild-Frage-Paare mit einer Reasoning-Ausgabe bereitstellt. Die bewusste Entscheidung für ein nicht-spezialisiertes Dataset sollte sicherstellen, dass die Anwendbarkeit der VLMs über domänenspezifische Einstellungen hinaus erhalten bleibt. Um die Rechenanforderungen zu reduzieren, wurden alle Bilder auf eine Auflösung von 360p skaliert.

Evaluation und Ergebnisse

Die Evaluierung der Methode erfolgte anhand von drei robotikorientierten Aufgaben:

Roboternavigation: Ein Roboter navigiert in einer simulierten Umgebung (Habitat) zu einem in natürlicher Sprache angegebenen Ziel.
Szenenverständnis: Verwendung des Mementos-Robotics-Benchmarks, der sequentielle Bilder mit Szenenbeschreibungen enthält.
Erkennung menschlicher Absichten: Ein eigens zusammengestelltes HRI-Dataset, das Interaktionen zwischen Menschen und einem sozialen Roboter erfasst.

Die Ergebnisse zeigen konsistente Verbesserungen bei der Verwendung des Qwen 2.5 (7B) Backbones: Die finale Distanz zum Ziel in der Navigation reduziert sich um 3,3%, die Beschreibungsgenauigkeit bei Mementos verbessert sich um 0,057 Punkte und die Genauigkeit bei der Absichtserkennung steigt um 2,93%. Bei Gemma 3 (4B) und LLaVA OV 1.5 (4B) waren die Navigationsergebnisse gemischt, doch gab es deutliche Zuwächse bei der Szenenbeschreibung und der Absichtserkennung.

Ablationsstudien bestätigten die Notwendigkeit sowohl der Nutzung des Originalbildes im zweiten Durchlauf als auch der Präsenz des MLP-basierten visuellen Reasoning-Moduls für optimale Leistung. Die Reihenfolge der Eingabemodalitäten beeinflusste ebenfalls die Ergebnisse, wobei die Platzierung des Bildes vor der Aufforderung in einigen Fällen zu besseren Resultaten führte.

Ressourcenverbrauch und Effizienz

Der zusätzliche Rechenaufwand durch die Methode ist eine direkte Folge des dualen Forward-Pass-Designs. Die Durchführung von zwei Durchläufen durch den Vision Encoder und das Sprachmodell verdreifacht den durchschnittlichen TFLOPs und reduziert den Durchsatz. Trotzdem bleibt der Speicherbedarf mit einem Anstieg von weniger als 3% moderat. Die erhöhte Latenz ist primär auf den zusätzlichen Inferenz-Durchlauf zurückzuführen und nicht auf ein signifikantes Wachstum der Modellgröße. Die Methode bleibt auf einer einzigen Consumer-GPU einsetzbar, und ein Durchsatz von über einem Sample pro Sekunde wird für Echtzeit-Anwendungen in der Robotik als ausreichend erachtet.

Diskussion und Implikationen

Die Ergebnisse legen nahe, dass das eingeführte leichte visuelle Reasoning-Modul die Fähigkeiten zur cross-modalen Schlussfolgerung in verschiedenen robotikzentrierten Aufgaben verbessert. Dies ist besonders relevant für offene Aufgaben wie die Szenenbeschreibung und die Erkennung menschlicher Absichten, wo hochrangige visuelle Semantik entscheidend ist. Die Kerninnovation liegt in der expliziten Feedback-Schleife vom Sprachmodell zum Vision Encoder, die eine Modulation der visuellen Verarbeitung basierend auf dem Verständnis der Aufgabe und der Eingabeaufforderung ermöglicht.

Dieser Ansatz stellt eine Abkehr vom dominanten Feedforward-Paradigma in der Vision-Language-Integration dar und bietet ein neues Werkzeug für die Entwicklung adaptiverer und kontextbewussterer Roboteragenten. Die Arbeit unterstreicht den Wert architektonischer Asymmetrie und Feedback in multimodalen Modellen, ein Prinzip, das in der verkörperten Kognition bekannt ist, aber in VLMs selten umgesetzt wird.

Bibliographie

- Galatolo, A., Cumbal, R., Rouchitsas, A., Winkle, K., Gürdür Broo, D., & Castellano, G. (2026). Lightweight Visual Reasoning for Socially-Aware Robots. arXiv preprint arXiv:2603.03942. - Galatolo, A. (n.d.). alessioGalatolo/VLM-Reasoning-for-Robotics. GitHub. Verfügbar unter: https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics - Kong, Y., Song, D., Liang, J., Manocha, D., Yao, Z., & Xiao, X. (2025). AutoSpatial: Visual-Language Reasoning for Social Robot Navigation through Efficient Spatial Reasoning Learning. arXiv preprint arXiv:2503.07557. - Elnoor, M., Weerakoon, K., Seneviratne, G., Liang, J., Rajagopal, V., & Manocha, D. (2025). Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments. arXiv preprint arXiv:2503.09820. - Chen, W., Belkhale, S., Mirchandani, S., Mees, O., Driess, D., Pertsch, K., & Levine, S. (2025). Training Strategies for Efficient Embodied Reasoning. arXiv preprint arXiv:2505.08243. - Zhou, W., Tao, M., Zhao, C., Dong, H., Tang, M., & Wang, J. (2025). LightPlanner: Unleashing the Reasoning Capabilities of Lightweight Large Language Models in Task Planning. arXiv preprint arXiv:2503.08508. - Kwon, M., Hu, H., Myers, V., Karamcheti, S., Dragan, A., & Sadigh, D. (2023). Toward Grounded Social Reasoning. arXiv preprint arXiv:2306.08651.