Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, unsere Welt zu verstehen und mit ihr zu interagieren, hat in den letzten Jahren enorme Fortschritte gemacht. Insbesondere Vision-Language Modelle (VLMs), die visuelle und sprachliche Informationen miteinander verknüpfen, haben beeindruckende Leistungen erzielt. Dennoch stoßen diese Modelle an ihre Grenzen, wenn es um komplexe, mehrschrittige Denkprozesse geht, die ein tiefes Verständnis visueller Inhalte erfordern. Forschende des Alibaba Qwen-Teams und der Tsinghua Universität haben mit der Einführung von HopChain einen Ansatz vorgestellt, der darauf abzielt, diese grundlegende Schwäche zu beheben und die visuell-sprachliche Argumentation von KI-Modellen signifikant zu verbessern.
Vision-Language Modelle zeichnen sich in vielen Bereichen aus, zeigen jedoch konsistente Schwierigkeiten bei Aufgaben, die mehrere aufeinanderfolgende logische Schritte zur Analyse eines Bildes erfordern. Ein einzelner Fehler zu Beginn einer Argumentationskette – sei es eine Fehlinterpretation von Objekten, eine Verwechslung räumlicher Beziehungen oder eine „Halluzination“ von Details – kann sich durch alle nachfolgenden Schritte ziehen und letztendlich zu völlig falschen Ergebnissen führen. Diese kaskadierenden Fehler verdeutlichen eine fundamentale Schwäche in den visuellen Verständnisfähigkeiten der Modelle.
Bestehende Trainingsdatensätze für Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) enthalten oft nicht genügend Aufgaben, die eine präzise visuelle Aufmerksamkeit über mehrere Schritte hinweg erfordern. Dies führt dazu, dass Modelle nicht ausreichend darauf trainiert werden, diese komplexen Abhängigkeiten zu erkennen und zu verarbeiten.
Die Analyse konkreter Fehler verdeutlicht das Problem: Ein Modell, das die Punkte auf Marienkäfern zählen soll, kann beispielsweise drei von fünf Käfern falsch zählen, was zu einem fehlerhaften Gesamtergebnis führt. In einem anderen Fall erkennt ein Modell die Position eines Autos in einer Bildsequenz korrekt, interpretiert die Bewegung jedoch falsch, etwa als Ausparken statt Einparken. Ein weiteres Beispiel zeigt, wie ein Modell in einem astronomischen Diagramm einen Pfeil einem falschen Bogen zuordnet, was zu einer inkorrekten Saisonbestimmung führt. Diese Beispiele, die sich über Fotos, Diagramme und wissenschaftliche Illustrationen erstrecken, zeigen ein konsistentes Muster: Ein fehlerhafter Zwischenschritt beeinträchtigt alle nachfolgenden Schlussfolgerungen.
Um diese Mängel zu beheben, haben die Forscher HopChain entwickelt. Dieses Framework generiert automatisch mehrstufige Bildfragen, bei denen jeder Schritt auf den vorherigen Ergebnissen aufbaut und das Modell zwingt, das Bild genau zu re-evaluieren. Ziel ist es, diese kumulativen Fehler aufzudecken und zu beheben.
HopChain integriert zwei Arten von Verknüpfungen in die generierten Fragen:
Jede Frage endet mit einer eindeutigen Zahl, die als automatische Antwortprüfung dient. Ein Beispiel aus der Studie verdeutlicht den komplexen Aufbau: Ein Modell zählt zunächst die Augen eines Spielzeugschafs, prüft dann, ob Text auf dem Hintergrundpapier vorhanden ist, zählt die Augen einer nahegelegenen Puppe, liest ein Wort auf einem Papier vor einer zweiten Puppe, zählt die Buchstaben, führt eine Reihe arithmetischer Schritte durch und multipliziert das Ergebnis mit der Gesamtzahl der Spielfiguren in der Szene. Die korrekte Antwort lautet 72. Solche Aufgaben sind darauf ausgelegt, das Modell zu zwingen, bei jedem Schritt visuelle Beweise zu suchen, anstatt auf sprachliche Abkürzungen zurückzugreifen.
Die Datengenerierung in HopChain erfolgt in vier Stufen:
Dieser Prozess generiert zwischen 60.000 und 80.000 Trainingsbeispiele pro Modell und stellt sicher, dass die generierten Daten sowohl komplex als auch präzise sind.
Die Forscher trainierten zwei Modelle, Qwen3.5-35B-A3B und Qwen3.5-397B-A17B, mit dem HopChain-Ansatz. Die Leistung wurde auf 24 Benchmarks in vier Kategorien gemessen: MINT und Puzzles, allgemeines Bildverständnis, Texterkennung und Dokumentenverständnis sowie Videoverständnis.
Für beide Modellgrößen verbesserte HopChain die Leistung auf 20 von 24 Benchmarks. Das kleinere Modell verzeichnete beispielsweise einen Anstieg des EMMA-Scores von 53 auf 58 und des CharXiv-Scores von 69 auf 73,1. Das größere Modell verbesserte sich bei BabyVision von 28,61 auf 32,22 und bei ZeroBench von 4 auf 8. Da die generierten Fragen nicht auf spezifische Benchmarks zugeschnitten sind, deuten diese Ergebnisse auf eine echte Generalisierbarkeit des Ansatzes hin.
Bemerkenswert ist, dass, obwohl die Trainingsdaten ausschließlich bildbasiert sind, beide Modelle auch bei fünf von sechs Videobenchmarks Verbesserungen zeigten. Dies deutet darauf hin, dass die durch HopChain vermittelten Fähigkeiten über Standbilder hinaus auf Videos übertragbar sind.
Eine Ablationsstudie unterstreicht die Wichtigkeit vollständiger Frageketten. Wenn Fragen auf ihren letzten Schritt reduziert wurden, sank der durchschnittliche Score über fünf repräsentative Benchmarks von 70,4 auf 64,3. Das Beibehalten nur der zweiten Hälfte der Kette führte zu einem Score von 66,7. Dies zeigt, dass die Erhaltung längerer, übergreifender Abhängigkeiten entscheidend ist.
Die Verbesserungen skalieren zudem mit der Länge der Argumentationskette. Bei besonders langen Antworten konnten Genauigkeitssteigerungen von über 50 Punkten für das größere Modell beobachtet werden. Die Fehleranalyse bestätigt, dass HopChain über alle Bereiche hinweg hilft: Wahrnehmungs-, Logik-, Wissens- und Halluzinationsfehler zeigen vergleichbare Verbesserungen. Die Verteilung der behobenen Fehler deckt sich eng mit dem ursprünglichen Fehlerprofil.
Eine Einschränkung des aktuellen Ansatzes besteht darin, dass die Pipeline SAM3 zur Erkennung von Objekten im Bild benötigt. Bilder ohne segmentierbare Objekte können daher im Datengenerierungsprozess nicht verarbeitet werden.
Die visuelle Wahrnehmung bleibt eine Kernschwäche heutiger Modelle. Dies zeigte sich kürzlich auch im WorldVQA-Benchmark von Moonshot AI, wo selbst die leistungsstärksten Modelle weniger als die Hälfte der gezeigten Objekte korrekt identifizierten und jedes Modell die eigene Genauigkeit systematisch überschätzte. Eine Stanford-Analyse ergab zudem, dass führende Modelle 70 bis 80 Prozent ihrer Image-Benchmark-Scores erreichen, ohne überhaupt ein Bild gesehen zu haben, und dabei visuelle Details beschreiben, die nicht existieren.
Die Entwicklung von HopChain durch das Alibaba Qwen-Team stellt einen wichtigen Schritt zur Verbesserung der Robustheit und Generalisierbarkeit von Vision-Language Modellen dar. Durch die systematische Generierung von mehrstufigen, visuell verankerten Fragen zwingt das Framework die Modelle zu einer tieferen und präziseren visuellen Argumentation. Die signifikanten Leistungssteigerungen auf einer Vielzahl von Benchmarks unterstreichen das Potenzial dieses Ansatzes, die Fähigkeiten von KI-Modellen im Umgang mit komplexen visuellen Informationen weiter zu entwickeln. Die Forschung legt nahe, dass die zukünftige Entwicklung von VLMs stark von innovativen Methoden zur Datensynthese profitieren wird, die auf die Überwindung von Schwächen in der mehrstufigen visuellen Argumentation abzielen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen