Fortschritte in der visuellen Argumentation durch HopChain: Ein neuer Ansatz für Vision-Language Modelle

Kategorien:

No items found.

Freigegeben:

April 6, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Vision-Language Modelle (VLMs) zeigen Schwächen bei komplexen, mehrschrittigen visuellen Denkprozessen.
Fehler in frühen Schritten eines Denkprozesses können sich kumulieren und zu falschen Endergebnissen führen.
Das Qwen-Team von Alibaba und die Tsinghua Universität haben HopChain entwickelt, um diese Schwächen gezielt anzugehen.
HopChain generiert mehrstufige Bildfragen, die VLMs zwingen, visuelle Informationen bei jedem Schritt neu zu bewerten.
Die Anwendung von HopChain verbesserte die Leistung von VLMs auf 20 von 24 Benchmarks signifikant.
Der Ansatz fördert eine robustere und generalisierbarere visuell-sprachliche Argumentation in KI-Modellen.

Die Fähigkeit von Künstlicher Intelligenz, unsere Welt zu verstehen und mit ihr zu interagieren, hat in den letzten Jahren enorme Fortschritte gemacht. Insbesondere Vision-Language Modelle (VLMs), die visuelle und sprachliche Informationen miteinander verknüpfen, haben beeindruckende Leistungen erzielt. Dennoch stoßen diese Modelle an ihre Grenzen, wenn es um komplexe, mehrschrittige Denkprozesse geht, die ein tiefes Verständnis visueller Inhalte erfordern. Forschende des Alibaba Qwen-Teams und der Tsinghua Universität haben mit der Einführung von HopChain einen Ansatz vorgestellt, der darauf abzielt, diese grundlegende Schwäche zu beheben und die visuell-sprachliche Argumentation von KI-Modellen signifikant zu verbessern.

Die Herausforderung mehrstufiger visueller Argumentation

Vision-Language Modelle zeichnen sich in vielen Bereichen aus, zeigen jedoch konsistente Schwierigkeiten bei Aufgaben, die mehrere aufeinanderfolgende logische Schritte zur Analyse eines Bildes erfordern. Ein einzelner Fehler zu Beginn einer Argumentationskette – sei es eine Fehlinterpretation von Objekten, eine Verwechslung räumlicher Beziehungen oder eine „Halluzination“ von Details – kann sich durch alle nachfolgenden Schritte ziehen und letztendlich zu völlig falschen Ergebnissen führen. Diese kaskadierenden Fehler verdeutlichen eine fundamentale Schwäche in den visuellen Verständnisfähigkeiten der Modelle.

Bestehende Trainingsdatensätze für Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) enthalten oft nicht genügend Aufgaben, die eine präzise visuelle Aufmerksamkeit über mehrere Schritte hinweg erfordern. Dies führt dazu, dass Modelle nicht ausreichend darauf trainiert werden, diese komplexen Abhängigkeiten zu erkennen und zu verarbeiten.

Fehlerbilder in der Praxis

Die Analyse konkreter Fehler verdeutlicht das Problem: Ein Modell, das die Punkte auf Marienkäfern zählen soll, kann beispielsweise drei von fünf Käfern falsch zählen, was zu einem fehlerhaften Gesamtergebnis führt. In einem anderen Fall erkennt ein Modell die Position eines Autos in einer Bildsequenz korrekt, interpretiert die Bewegung jedoch falsch, etwa als Ausparken statt Einparken. Ein weiteres Beispiel zeigt, wie ein Modell in einem astronomischen Diagramm einen Pfeil einem falschen Bogen zuordnet, was zu einer inkorrekten Saisonbestimmung führt. Diese Beispiele, die sich über Fotos, Diagramme und wissenschaftliche Illustrationen erstrecken, zeigen ein konsistentes Muster: Ein fehlerhafter Zwischenschritt beeinträchtigt alle nachfolgenden Schlussfolgerungen.

HopChain: Ein Framework für tiefere visuelle Argumentation

Um diese Mängel zu beheben, haben die Forscher HopChain entwickelt. Dieses Framework generiert automatisch mehrstufige Bildfragen, bei denen jeder Schritt auf den vorherigen Ergebnissen aufbaut und das Modell zwingt, das Bild genau zu re-evaluieren. Ziel ist es, diese kumulativen Fehler aufzudecken und zu beheben.

Architektur und Funktionsweise

HopChain integriert zwei Arten von Verknüpfungen in die generierten Fragen:

Wahrnehmungsebenen-Verknüpfungen: Aufgaben wechseln zwischen der Erkennung einzelner Objekte (z.B. Text lesen, Farben identifizieren) und Vergleichen mehrerer Objekte (z.B. Größenverhältnisse, räumliche Anordnungen).
Instanzenketten-Verknüpfungen: Jede Frage folgt einer Abhängigkeitskette zwischen Objekten, bei der das Modell das nächste relevante Objekt nur durch die bereits identifizierten Objekte finden kann.

Jede Frage endet mit einer eindeutigen Zahl, die als automatische Antwortprüfung dient. Ein Beispiel aus der Studie verdeutlicht den komplexen Aufbau: Ein Modell zählt zunächst die Augen eines Spielzeugschafs, prüft dann, ob Text auf dem Hintergrundpapier vorhanden ist, zählt die Augen einer nahegelegenen Puppe, liest ein Wort auf einem Papier vor einer zweiten Puppe, zählt die Buchstaben, führt eine Reihe arithmetischer Schritte durch und multipliziert das Ergebnis mit der Gesamtzahl der Spielfiguren in der Szene. Die korrekte Antwort lautet 72. Solche Aufgaben sind darauf ausgelegt, das Modell zu zwingen, bei jedem Schritt visuelle Beweise zu suchen, anstatt auf sprachliche Abkürzungen zurückzugreifen.

Vierstufiger Daten-Generierungsprozess mit Qualitätskontrolle

Die Datengenerierung in HopChain erfolgt in vier Stufen:

Kategorie-Identifikation: Ein VLM (Qwen3-VL-235B-A22B-Thinking von Alibaba) identifiziert Objektkategorien in einem Bild.
Instanzensegmentierung: Metas Segmentierungsmodell SAM3 lokalisiert einzelne Instanzen dieser Kategorien.
Generierung mehrstufiger Fragen: Das Sprachmodell erstellt mehrstufige Bildfragen basierend auf Kombinationen von drei bis sechs Objekten.
Menschliche Qualitätskontrolle: Vier menschliche Annotatoren lösen jede Frage unabhängig voneinander. Nur Fragen, bei denen alle vier Annotatoren übereinstimmen, werden übernommen. Zu einfache Fragen werden ebenfalls aussortiert.

Dieser Prozess generiert zwischen 60.000 und 80.000 Trainingsbeispiele pro Modell und stellt sicher, dass die generierten Daten sowohl komplex als auch präzise sind.

Ergebnisse und Auswirkungen

Die Forscher trainierten zwei Modelle, Qwen3.5-35B-A3B und Qwen3.5-397B-A17B, mit dem HopChain-Ansatz. Die Leistung wurde auf 24 Benchmarks in vier Kategorien gemessen: MINT und Puzzles, allgemeines Bildverständnis, Texterkennung und Dokumentenverständnis sowie Videoverständnis.

Signifikante Leistungssteigerungen

Für beide Modellgrößen verbesserte HopChain die Leistung auf 20 von 24 Benchmarks. Das kleinere Modell verzeichnete beispielsweise einen Anstieg des EMMA-Scores von 53 auf 58 und des CharXiv-Scores von 69 auf 73,1. Das größere Modell verbesserte sich bei BabyVision von 28,61 auf 32,22 und bei ZeroBench von 4 auf 8. Da die generierten Fragen nicht auf spezifische Benchmarks zugeschnitten sind, deuten diese Ergebnisse auf eine echte Generalisierbarkeit des Ansatzes hin.

Bemerkenswert ist, dass, obwohl die Trainingsdaten ausschließlich bildbasiert sind, beide Modelle auch bei fünf von sechs Videobenchmarks Verbesserungen zeigten. Dies deutet darauf hin, dass die durch HopChain vermittelten Fähigkeiten über Standbilder hinaus auf Videos übertragbar sind.

Die Bedeutung vollständiger Frageketten

Eine Ablationsstudie unterstreicht die Wichtigkeit vollständiger Frageketten. Wenn Fragen auf ihren letzten Schritt reduziert wurden, sank der durchschnittliche Score über fünf repräsentative Benchmarks von 70,4 auf 64,3. Das Beibehalten nur der zweiten Hälfte der Kette führte zu einem Score von 66,7. Dies zeigt, dass die Erhaltung längerer, übergreifender Abhängigkeiten entscheidend ist.

Die Verbesserungen skalieren zudem mit der Länge der Argumentationskette. Bei besonders langen Antworten konnten Genauigkeitssteigerungen von über 50 Punkten für das größere Modell beobachtet werden. Die Fehleranalyse bestätigt, dass HopChain über alle Bereiche hinweg hilft: Wahrnehmungs-, Logik-, Wissens- und Halluzinationsfehler zeigen vergleichbare Verbesserungen. Die Verteilung der behobenen Fehler deckt sich eng mit dem ursprünglichen Fehlerprofil.

Grenzen des Ansatzes

Eine Einschränkung des aktuellen Ansatzes besteht darin, dass die Pipeline SAM3 zur Erkennung von Objekten im Bild benötigt. Bilder ohne segmentierbare Objekte können daher im Datengenerierungsprozess nicht verarbeitet werden.

Die visuelle Wahrnehmung bleibt eine Kernschwäche heutiger Modelle. Dies zeigte sich kürzlich auch im WorldVQA-Benchmark von Moonshot AI, wo selbst die leistungsstärksten Modelle weniger als die Hälfte der gezeigten Objekte korrekt identifizierten und jedes Modell die eigene Genauigkeit systematisch überschätzte. Eine Stanford-Analyse ergab zudem, dass führende Modelle 70 bis 80 Prozent ihrer Image-Benchmark-Scores erreichen, ohne überhaupt ein Bild gesehen zu haben, und dabei visuelle Details beschreiben, die nicht existieren.

Fazit

Die Entwicklung von HopChain durch das Alibaba Qwen-Team stellt einen wichtigen Schritt zur Verbesserung der Robustheit und Generalisierbarkeit von Vision-Language Modellen dar. Durch die systematische Generierung von mehrstufigen, visuell verankerten Fragen zwingt das Framework die Modelle zu einer tieferen und präziseren visuellen Argumentation. Die signifikanten Leistungssteigerungen auf einer Vielzahl von Benchmarks unterstreichen das Potenzial dieses Ansatzes, die Fähigkeiten von KI-Modellen im Umgang mit komplexen visuellen Informationen weiter zu entwickeln. Die Forschung legt nahe, dass die zukünftige Entwicklung von VLMs stark von innovativen Methoden zur Datensynthese profitieren wird, die auf die Überwindung von Schwächen in der mehrstufigen visuellen Argumentation abzielen.

Bibliographie

Jonathan Kemper. (2026, April 6). Alibaba's Qwen team built HopChain to fix how AI vision models fall apart during multi-step reasoning. The Decoder. Abgerufen von https://the-decoder.com/alibabas-qwen-team-built-hopchain-to-fix-how-ai-vision-models-fall-apart-during-multi-step-reasoning/
Jonathan Kemper. (2026, April 5). Alibaba's Qwen team makes AI models think deeper with new algorithm. The Decoder. Abgerufen von https://the-decoder.com/alibabas-qwen-team-makes-ai-models-think-deeper-with-new-algorithm/
Machine Brief. (2026, März 19). HopChain's Multi-Hop Data: A Game Changer for... | Machine Brief. Abgerufen von https://www.machinebrief.com/news/hopchains-multi-hop-data-a-game-changer-for-vision-language-4qvn
Shenzhi Wang et al. (2026, März 17). HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning. arXiv. Abgerufen von https://arxiv.org/html/2603.17024v1
AkihikoWatanabe. (2026, März 26). [Paper Note] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning, Shenzhi Wang+, arXiv'26, 2026.03 · Issue #5019 · AkihikoWatanabe/paper_notes. GitHub. Abgerufen von https://github.com/AkihikoWatanabe/paper_notes/issues/5019
Gist.Science. (2026, März 19). HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning | Gist.Science. Abgerufen von https://gist.science/paper/2603.17024
Liner. (2026, März 17). HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning [Quick Review]. Abgerufen von https://liner.com/review/hopchain-multihop-data-synthesis-for-generalizable-visionlanguage-reasoning
Aigazine. (2026, März 23). Alibaba Boosts Qwen AI Reasoning by 50+ Points With HopChain Framework. Abgerufen von https://aigazine.com/industry/alibaba-boosts-qwen-ai-reasoning-by-50-points-with-hopchain-framework--s