Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von Robotern in menschliche Umgebungen stellt eine zunehmend wichtige Herausforderung dar. Roboter müssen nicht nur navigieren, interagieren und ihre Umgebung wahrnehmen, sondern auch dynamische und oft unvorhersehbare menschliche Verhaltensweisen interpretieren und darauf reagieren können. Aktuelle Fortschritte in Vision-Language Models (VLMs) haben vielversprechende Ansätze zur Verbesserung der robotischen Wahrnehmung und Befolgung von Anweisungen gezeigt. Dennoch bleiben diese Modelle in Bezug auf die Komplexität multimodaler Mensch-Roboter-Interaktionen (HRI) häufig an ihre Grenzen gebunden.
Eine aktuelle Forschungsarbeit stellt ein leichtgewichtiges Language-to-Vision-Feedback-Modul vor, das darauf abzielt, diese Lücke zu schließen. Das Modul ermöglicht eine Rückkopplung zwischen einem Large Language Model (LLM) und dem Vision Encoder in VLMs. Dadurch soll eine kontextuelle Reinterpretation visueller Szenen ermöglicht werden, die für sozial-kompetente Roboter von entscheidender Bedeutung ist.
Das vorgeschlagene Modul projiziert Hidden States von Bild-Tokens durch ein Gated Multi-Layer Perceptron (MLP) zurück in den Encoder-Input. Dieser Mechanismus initiiert einen zweiten Durchlauf, bei dem die Szene unter Berücksichtigung des Textkontextes neu interpretiert wird. Dies stellt einen architektonischen Ansatz dar, der in aktuellen VLMs für die Robotik bisher wenig erforscht wurde. Anstatt die visuelle Information nur einmal passiv zu verarbeiten, ermöglicht dieser Ansatz eine dynamische Anpassung der visuellen Wahrnehmung basierend auf der sprachlichen Interpretation.
Das Modul ist so konzipiert, dass es mit bestehenden VLM-Architekturen kompatibel ist, einschließlich Modellen wie LLaVA-OneVision, Qwen 2.5 VL und Gemma 3. Die Eingangs- und Ausgangsdimensionen des MLPs entsprechen dabei den Hidden-Dimensionen der LLMs, während die Hidden-Dimension des MLPs auf das Doppelte der Eingangs-/Ausgangsdimensionen eingestellt ist. Zusätzlich beinhaltet das Modul einen "Patch Unmerger", der die Projektion vom LLM-Repräsentationsraum zurück in die vom Encoder erwartete Anzahl von Patches ermöglicht.
Die Trainingsprozedur umfasst zwei Durchläufe für jeden Schritt. Im ersten Durchlauf erhält das Modell die Benutzeranfrage und das Eingabebild und führt einen Standard-Forward-Pass aus. Die Hidden States der letzten Schicht des LLM, die den Bild-Tokens entsprechen, werden extrahiert und durch das visuelle Reasoning-Modul verarbeitet. Das Ergebnis wird dann dem Originalbild vor der Kodierung hinzugefügt. Dies erzeugt eine neue Kodierung des Bildes, die das Feedback des LLM berücksichtigt.
Im zweiten Durchlauf werden die Benutzeranfrage, das Originalbild und das neu kodierte Bild dem Modell zugeführt. Der Verlust wird ausschließlich aus diesem zweiten Durchlauf berechnet und für die Backpropagation verwendet. Die Gewichte des visuellen Reasoning-Moduls werden aktualisiert, während das LLM und der Vision Encoder eingefroren bleiben. Optional können LoRA-Schichten (Low-Rank Adaptation) im Sprachmodell aktiviert werden, um die Bereitstellung von Feedback an den Vision Encoder zu unterstützen. Der gesamte Trainingsparameteraufwand beträgt weniger als 1,7% des Originalmodells und weniger als 3%, wenn LoRA ebenfalls berücksichtigt wird.
Für das Training wurde das Visual-CoT-Dataset verwendet, das Bild-Frage-Paare mit einer Reasoning-Ausgabe bereitstellt. Die bewusste Entscheidung für ein nicht-spezialisiertes Dataset sollte sicherstellen, dass die Anwendbarkeit der VLMs über domänenspezifische Einstellungen hinaus erhalten bleibt. Um die Rechenanforderungen zu reduzieren, wurden alle Bilder auf eine Auflösung von 360p skaliert.
Die Evaluierung der Methode erfolgte anhand von drei robotikorientierten Aufgaben:
Die Ergebnisse zeigen konsistente Verbesserungen bei der Verwendung des Qwen 2.5 (7B) Backbones: Die finale Distanz zum Ziel in der Navigation reduziert sich um 3,3%, die Beschreibungsgenauigkeit bei Mementos verbessert sich um 0,057 Punkte und die Genauigkeit bei der Absichtserkennung steigt um 2,93%. Bei Gemma 3 (4B) und LLaVA OV 1.5 (4B) waren die Navigationsergebnisse gemischt, doch gab es deutliche Zuwächse bei der Szenenbeschreibung und der Absichtserkennung.
Ablationsstudien bestätigten die Notwendigkeit sowohl der Nutzung des Originalbildes im zweiten Durchlauf als auch der Präsenz des MLP-basierten visuellen Reasoning-Moduls für optimale Leistung. Die Reihenfolge der Eingabemodalitäten beeinflusste ebenfalls die Ergebnisse, wobei die Platzierung des Bildes vor der Aufforderung in einigen Fällen zu besseren Resultaten führte.
Der zusätzliche Rechenaufwand durch die Methode ist eine direkte Folge des dualen Forward-Pass-Designs. Die Durchführung von zwei Durchläufen durch den Vision Encoder und das Sprachmodell verdreifacht den durchschnittlichen TFLOPs und reduziert den Durchsatz. Trotzdem bleibt der Speicherbedarf mit einem Anstieg von weniger als 3% moderat. Die erhöhte Latenz ist primär auf den zusätzlichen Inferenz-Durchlauf zurückzuführen und nicht auf ein signifikantes Wachstum der Modellgröße. Die Methode bleibt auf einer einzigen Consumer-GPU einsetzbar, und ein Durchsatz von über einem Sample pro Sekunde wird für Echtzeit-Anwendungen in der Robotik als ausreichend erachtet.
Die Ergebnisse legen nahe, dass das eingeführte leichte visuelle Reasoning-Modul die Fähigkeiten zur cross-modalen Schlussfolgerung in verschiedenen robotikzentrierten Aufgaben verbessert. Dies ist besonders relevant für offene Aufgaben wie die Szenenbeschreibung und die Erkennung menschlicher Absichten, wo hochrangige visuelle Semantik entscheidend ist. Die Kerninnovation liegt in der expliziten Feedback-Schleife vom Sprachmodell zum Vision Encoder, die eine Modulation der visuellen Verarbeitung basierend auf dem Verständnis der Aufgabe und der Eingabeaufforderung ermöglicht.
Dieser Ansatz stellt eine Abkehr vom dominanten Feedforward-Paradigma in der Vision-Language-Integration dar und bietet ein neues Werkzeug für die Entwicklung adaptiverer und kontextbewussterer Roboteragenten. Die Arbeit unterstreicht den Wert architektonischer Asymmetrie und Feedback in multimodalen Modellen, ein Prinzip, das in der verkörperten Kognition bekannt ist, aber in VLMs selten umgesetzt wird.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen