Fortschritte bei multimodalen Modellen: Von passiver Wahrnehmung zu aktivem Problemlösen

Kategorien:

No items found.

Freigegeben:

February 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Multimodale Modelle erweitern das Verständnis von passiver Wahrnehmung zu aktivem Problemlösen.
Der neue CHAIN-Benchmark bewertet die Fähigkeit von Vision-Language-Modellen (VLMs), strukturierte Aktionssequenzen in dynamischen 3D-Umgebungen zu planen und auszuführen.
Bestehende VLMs zeigen Schwierigkeiten, physikalische Strukturen und kausale Zusammenhänge für komplexe, interaktive Aufgaben zu verinnerlichen.
Die Forschung konzentriert sich auf die Verbesserung der visuellen Wahrnehmung, die dynamische Ausrichtung von Vision-Language-Modellen sowie die Fähigkeiten zur Problemlösung und dynamischen Überprüfung.
Anwendungsbereiche umfassen wissenschaftliche Problemlösung, medizinische Diagnostik, Diagrammverständnis, Videoverständnis und Sentimentanalyse.

Von der Wahrnehmung zur Aktion: Ein interaktiver Benchmark für visuelles Denken

Die Entwicklung von Künstlicher Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der multimodalen Modelle, die Text und Bild verarbeiten können. Traditionelle Vision-Language-Modelle (VLMs) konzentrierten sich jedoch oft auf passive Wahrnehmungsaufgaben, wie das Beantworten von Fragen zu statischen Bildern. Eine aktuelle Veröffentlichung mit dem Titel "From Perception to Action: An Interactive Benchmark for Vision Reasoning" beleuchtet einen kritischen Übergang: von der reinen Wahrnehmung zur aktiven Problemlösung in dynamischen Umgebungen. Dieser Artikel analysiert die Herausforderungen und Fortschritte in der Forschung, die darauf abzielen, VLMs zu befähigen, physikalische Strukturen und kausale Zusammenhänge in komplexen, interaktiven 3D-Aufgaben zu verstehen und darauf basierend zu agieren.

Die Notwendigkeit interaktiver Benchmarks

Bisherige Evaluationsmethoden für VLMs konzentrierten sich primär auf strukturagnostische, einmalige Aufgaben, wie beispielsweise Visual Question Answering (VQA). Diese Ansätze sind jedoch unzureichend, um die Fähigkeit von KI-Agenten zu bewerten, wie Geometrie, Kontakt und Unterstützungsbeziehungen gemeinsam die möglichen Aktionen in einer dynamischen Umgebung einschränken. Um diese Lücke zu schließen, wurde der Causal Hierarchy of Actions and Interactions (CHAIN)-Benchmark eingeführt. CHAIN ist ein interaktives, physikbasiertes 3D-Testbett, das Modelle daraufhin überprüft, ob sie strukturierte Aktionssequenzen, die in physikalischen Zwängen verankert sind, verstehen, planen und ausführen können. Dies umfasst Aufgaben wie das Lösen mechanischer Puzzle und das Stapeln oder Verpacken von 3D-Objekten.

Die Ergebnisse einer umfassenden Studie mit aktuellen VLMs und diffusionsbasierten Modellen unter diesen neuen interaktiven Bedingungen zeigen, dass selbst die leistungsfähigsten Modelle noch Schwierigkeiten haben, physikalische Strukturen und kausale Zusammenhänge zu verinnerlichen. Sie scheitern oft daran, zuverlässige Langzeitpläne zu erstellen und die wahrgenommene Struktur robust in effektive Aktionen zu übersetzen. Dies unterstreicht die Notwendigkeit, Evaluationsparadigmen von passiver Wahrnehmung hin zu aktivem Problemlösen zu verschieben.

Herausforderungen und Forschungsansätze

Die Forschung im Bereich der multimodalen großen Sprachmodelle (MLLMs) steht vor komplexen Herausforderungen, die sich in zwei Hauptkategorien unterteilen lassen: Wahrnehmung und Kognition. Eine detaillierte Analyse dieser Bereiche ist entscheidend, um die Limitationen aktueller Modelle zu verstehen und zukünftige Entwicklungen zu steuern.

Verbesserung der visuellen Wahrnehmung von MLLMs

Eine grundlegende Einschränkung vieler MLLMs liegt in ihrer schwachen Fähigkeit zur Extraktion visueller Informationen auf niedriger Ebene. Frühe Modelle wie die LLaVA-Serie, die auf CLIP-ViT-Encodern basierten, konzentrierten sich auf die globale Vision-Language-Ausrichtung, was zu einer unzureichenden Erkennung feingranularer Details und schwachen räumlichen Lokalisationsfähigkeiten führte. Um dies zu überwinden, konzentriert sich die jüngste Forschung auf zwei Hauptrichtungen:

Verbesserung der Repräsentationsfähigkeit einzelner Vision Encoder: Modelle wie MetaCLIP, SigLip und Eva-CLIP haben die semantische Ausrichtung und feingranulare Erkennungsfähigkeiten durch optimierte Trainingsziele und hochwertige Datensätze verbessert. Die DINO-Serie stärkt geometrische und texturale Repräsentationen mittels selbstüberwachtem Lernen, was für Aufgaben wie Segmentierung und Tiefenschätzung entscheidend ist. Ansätze wie DIVA und VLV vereinen Bildgenerierung und -verständnis, indem sie generative Modelle nutzen, um die feingranularen Repräsentationen zu verbessern.
Integration und Destillation mehrerer Encoder: Da Modelle wie CLIP in hochrangiger semantischer Repräsentation glänzen, aber feingranulare geometrische Details vermissen lassen, während DINOv2 reichhaltige strukturelle Informationen liefert, werden ihre Stärken komplementär kombiniert. Frühe Arbeiten wie Eyes Wide Out und Prismatic VLMs nutzten eine statische Fusion von Merkmalen. Neuere Methoden, wie MoME und MoVA, setzen auf Mixture-of-Experts (MoE)-Architekturen, die Merkmale dynamisch basierend auf den Aufgabenanforderungen gewichten und kombinieren. Um die hohen Berechnungskosten mehrerer Encoder zu mindern, wird Wissensdestillation eingesetzt, um die Stärken mehrerer "Expertenlehrer" in einen einzigen, effizienten "Studenten"-Encoder zu übertragen.

Verbesserung der Vision-Language-Ausrichtung in MLLMs

Nachdem die allgemeinen Repräsentationsfähigkeiten der visuellen Encoder verbessert wurden, liegt der Fokus nun auf der Verbesserung der aufgabenbezogenen Vision-Language-Ausrichtung für ein besseres interaktives Verständnis. Dies geschieht in zwei Hauptphasen:

Extraktion aufgabenrelevanter visueller Repräsentationen: Hierbei wird die Modellfähigkeit verbessert, relevante Repräsentationen aus dem hochdimensionalen visuellen Repräsentationsraum zu extrahieren, basierend auf der Semantik der Anweisung. Dies wird durch die Verbesserung der Projektionsschicht, aufgabenspezifisches Fine-Tuning und Prompt-Tuning erreicht. Dynamische Projektionsschichten, wie in ChartMoE und Uni-Med, nutzen MoE-Architekturen, um relevante visuelle Merkmale dynamisch zu extrahieren und zu transformieren. Aufgabenspezifisches Fine-Tuning auf Datensätzen wie MATCHA (mathematisches Denken) oder LLaVA-Med (medizinische Fragen) verbessert die Extraktion von aufgabenspezifischen visuellen Informationen. Prompt-Tuning, inspiriert von Visual Prompt Tuning (VPT), ermöglicht eine kostengünstige Anpassung an nachgelagerte Aufgaben.
Kreuzmodale Fusion und Antwortgenerierung: Die extrahierten visuellen Repräsentationen werden tiefgreifend mit der Anweisungssemantik fusioniert, um präzise, strukturierte Ausgaben zu generieren. Dies geschieht durch die Verbesserung des Anweisungs-Encoding-Paradigmas (z.B. durch die Kodierung von Koordinaten oder Masken in Texteingaben) und die Verbesserung der Ausgabearchitektur (z.B. durch die Generierung von pixelgenauen Lokalisationsinformationen wie Segmentierungsmasken).

Dynamische Wahrnehmung

Über die statische, einmalige Interaktion hinausgehend, zielt die dynamische Wahrnehmung darauf ab, dem Modell die Fähigkeit zur aktiven und iterativen Suche nach visuellen Informationen zu verleihen. Methoden wie V* verwenden eine LLM-gesteuerte hierarchische visuelle Suche, um schrittweise in Details zu zoomen und Beweise zu überprüfen. DyFo formalisiert die visuelle Suche als Monte-Carlo-Baumsuche (MCTS), während FaST, inspiriert vom Konzept des schnellen und langsamen Denkens, einen leichtgewichtigen, eingebauten Adapter trainiert, um die Denkgeschwindigkeit basierend auf der Problemschwierigkeit zu steuern.

Verbesserung der Problemlösungsfähigkeit von MLLMs

Frühe MLLMs arbeiteten nach einem einstufigen Denkparadigma, das komplexe Aufgaben als monolithische "Input-Output"-Abbildungen behandelte. Um diese Einschränkung zu überwinden, konzentriert sich die Forschung darauf, Modelle mit der Fähigkeit zur schrittweisen Problemzerlegung auszustatten, um nicht nur die Genauigkeit der Endergebnisse, sondern auch die Korrektheit und Überprüfbarkeit des Denkprozesses zu gewährleisten. Dies wird durch drei Hauptrichtungen verfolgt:

Verbesserung der Problemzerlegung durch Training: Dedicatede Trainingsparadigmen wie Imitationslernen, Curriculum-Lernen und Präferenzlernen werden eingesetzt. Imitationslernen, wie in Multimodal-CoT, führt strenge Beschränkungen in den Zerlegungsprozess ein, um die Konsistenz mit visuellen Fakten sicherzustellen. Curriculum-Lernen, wie in LLaVA-CoT, kultiviert die Zerlegungs- und Denkfähigkeiten des Modells in einer gestuften, von einfach zu schwer gehenden Weise. Präferenzlernen, wie Direct Preference Optimization (DPO), ermöglicht es dem Modell, aus Vergleichen zwischen "besseren" und "schlechteren" Denkpfaden zu lernen und den optimalen Pfad zu wählen.
Automatisierte Synthese von Trainingsdaten: Um die hohen Kosten manueller Annotation zu überwinden, werden automatisierte Methoden zur Konstruktion großskaliger, hochwertiger Chain-of-Thought (CoT)-Datensätze mit verschränkten visuellen und textuellen Beweisen entwickelt. Dies umfasst die Generierung über externe Lehrmodelle (Vision-to-Text, Text-to-Vision, Interleaved Vision-Text Generation) und bootstrapped Datengenerierung (Positive Sample Refinement, Preference Data Generation).
Inferenzzeit-Suche für flexible Zerlegung: Um die Beschränkungen des traditionellen CoT-Paradigmas zu überwinden, das einem einzelnen, linearen Denkpfad folgt, werden Inferenzzeit-Suchalgorithmen angepasst, um mehrere Denkpfade zu erkunden und die bestmögliche Antwort zu finden. Ansätze wie Tree of Thoughts (ToT) und Monte Carlo Tree Search (MCTS) werden auf multimodale Aufgaben angewendet, um eine flexiblere und visuell fundiertere Argumentation zu ermöglichen.

Dynamische Forensik während des Denkens

MLLMs verwenden oft einen statischen, einmaligen visuellen Encoding-Mechanismus, der eine dynamische Interaktion einschränkt und zu Informationsverlust oder Halluzinationen führen kann. Die Kernlösung ist die Etablierung einer "Denken mit Bild"-Schleife, die es dem Modell ermöglicht, während der Inferenz kontinuierlich auf visuelle Beweise zurückzugreifen. Dies wird durch die Konstruktion von verschränkten Vision-Language-Chains-of-Thought erreicht, die entweder endogene (interne Aufmerksamkeitsmechanismen) oder exogene (externe Werkzeuge) visuelle Beweisinjektion nutzen.

Vision-Language-Ausrichtung mittels endogener visueller Beweisinjektion: Hierbei werden die internen Aufmerksamkeitsmechanismen des Modells genutzt, um den Fokus dynamisch auf relevante visuelle Informationen zu lenken. Dies kann durch einen einzelnen Vorwärtsdurchlauf (z.B. dynamische Anpassung von Aufmerksamkeitsgewichten) oder mehrere Vorwärtsdurchläufe (z.B. erneutes Encoding spezifischer visueller Regionen auf Abruf) geschehen.
Vision-Language-Ausrichtung mittels exogener visueller Beweisinjektion: Exogene Methoden betrachten das MLLM als intelligenten Agenten, der aktiv visuelle Beweise durch den Aufruf externer Werkzeuge oder die Interaktion mit einer Umgebung sammelt. Dieser Ansatz hat sich von einem frühen "Planen-dann-Ausführen"-Modell zu einem flexibleren, verschränkten Chain-of-Thought-Ansatz entwickelt, der durch In-Context Learning oder Fine-Tuning erworben wird.

Anwendungen und Benchmarks

Die Fortschritte in der multimodalen KI werden durch eine Vielzahl von Anwendungen und spezialisierten Benchmarks vorangetrieben, die die Fähigkeiten von MLLMs in verschiedenen Domänen bewerten. Diese reichen von der Lösung wissenschaftlicher Probleme bis zur Analyse menschlicher Emotionen.

Wissenschaftliche Problemlösung

Frühe Benchmarks im Bereich des visuellen Denkens, wie VQA und GQA, konzentrierten sich auf die Objekterkennung. Spätere Entwicklungen wie VCR und OK-VQA integrierten externe Wissensbasis und logisches Denken. Die größte Herausforderung bleibt jedoch das abstrakte symbolische Denken in wissenschaftlichen Kontexten. Benchmarks wie ScienceQA, MathVista und MathVerse wurden entwickelt, um diese Lücke zu schließen. ScienceQA umfasst mehr als 20.000 multimodale Fragen aus natur-, sozial- und sprachwissenschaftlichen Lehrplänen der Klassen 3-12, wobei jede Frage mit einer vollständigen Gedankenreihe (Chain-of-Thought) annotiert ist, um nicht nur die Richtigkeit der Antwort, sondern auch die logische Kohärenz des Denkprozesses zu bewerten. MathVista integriert 28 bestehende visuell-mathematische Datensätze, um eine umfassende Evaluationssuite zu schaffen, die Algebra, Geometrie und Statistik abdeckt. MathVerse und MATH-V bieten hochwertige Probleme aus Mathematikwettbewerben. Neuere Benchmarks wie R-Bench und MR-MATH erweitern die Herausforderung auf Graduiertenniveau und aktuelle mathematische Forschungsprobleme.

Proprietäre Modelle wie Gemini 2.5 Pro zeigen eine herausragende Leistung bei Benchmarks wie MathVista, MathVerse, MATH-V, MV-MATH und MMMU. Dies deutet auf überlegene Fähigkeiten in komplexen symbolischen Operationen, geometrisch-räumlicher Vorstellung und mehrstufiger logischer Deduktion hin. Open-Source-Modelle wie InternVL3 zeigen ebenfalls starke Leistungen, insbesondere durch den Einsatz von Prozessüberwachung und Best-of-N-Sampling, um robuste Denkpfade zu generieren und zu verifizieren. Die zukünftige Forschung muss sich darauf konzentrieren, die kognitive Intelligenz dieser Modelle und ihre Fähigkeit zur Wissensintegration und Innovation bei neuartigen, offenen Problemen zu verbessern.

Medizinische Diagnostik

Im medizinischen Bereich sind selbst kleine Fehler kritisch, weshalb der Fokus auf Zuverlässigkeit und der Bekämpfung von "Halluzinationen" liegt. Frühe Benchmarks wie VQA-RAD legten den Grundstein, konzentrierten sich aber auf die Identifizierung anatomischer Strukturen. HALT-MedVQA wurde speziell entwickelt, um die Fähigkeit von Modellen zu testen, unsinnige oder widersprüchliche Anfragen zu erkennen und abzulehnen. Weitere Benchmarks wie PathVQA (Pathologiebilder), Kvasir-VQA (gastrointestinale Diagnostik) und MicroVQA (mikroskopische Bilder) decken verschiedene medizinische Spezialitäten ab. Med-VQA, SLAKE und PMC-VQA bieten größere, umfassendere Datensätze für allgemeine medizinische Fragestellungen.

Proprietäre Modelle wie Med-PaLM M zeigen eine überragende Leistung in medizinischen Diagnose-Benchmarks, was auf eine sorgfältig entworfene Evaluations- und Trainingsarchitektur zurückzuführen ist, die visuelle Informationen mit spezifischen medizinischen Anweisungen und Wissen in Einklang bringt. Die geringere Genauigkeit aller Modelle auf dem PathVQA-Datensatz im Vergleich zu menschlichen Experten zeigt die Grenzen der aktuellen KI bei hochspezialisierten kognitiven Aufgaben, die ein detailliertes Verständnis von Zellmorphologie und Gewebearchitektur erfordern. Eine kritische Herausforderung bleibt die Verbesserung der Wissensintegration und kognitiven Denkfähigkeiten in spezialisierten Fachgebieten.

Diagrammverständnis

Das Verständnis von Diagrammen erfordert die Integration von visueller Wahrnehmung, Textverständnis und numerisch-logischem Denken. Benchmarks wie ChartQA, PlotQA und ChartBench wurden entwickelt, um diese Fähigkeiten zu bewerten. ChartQA kombiniert menschlich formulierte und semi-automatisch generierte Fragen, um die natürliche Komplexität und den Umfang der Daten zu gewährleisten. ChartBench wurde entwickelt, um das Problem der "tabellarischen Abkürzung" zu lösen, indem alle Tabellendaten entfernt wurden, wodurch Modelle gezwungen werden, ausschließlich aus visuellen Elementen zu schließen. Neuere Arbeiten wie ChartMind und ChartMimic erweitern die Bewertung auf offene Aufgaben wie Trendanalyse und die Generierung von Code zur Reproduktion von Diagrammen.

Proprietäre Modelle wie GPT-4o und Gemini 1.5 Pro zeigen leistungsstarke und ausgewogene Fähigkeiten im Diagrammverständnis, wobei GPT-4o bei mathematischem und logischem Denken und Gemini 1.5 Pro bei der Verarbeitung komplexer, unstrukturierter Layouts führend ist. Open-Source-Modelle wie Qwen2.5-VL (72B) übertreffen sogar proprietäre Modelle bei ChartQA und DocVQA, dank ihrer innovativen Architektur, die hochauflösende Eingaben ohne Downsampling verarbeiten kann. Zukünftige Modelle werden nicht nur Diagramme "verstehen", sondern auch tiefgreifend darauf basierend argumentieren, dynamisch interagieren und domänenübergreifendes Wissen integrieren müssen.

Videoverständnis

Das Videoverständnis erweitert die visuell-textuelle Argumentation auf dynamische Sequenzen, was Dimensionen wie Zeit, Variation und Kausalität einführt. Frühe Arbeiten legten den Grundstein für Erklärbarkeit, doch die dynamische Natur von Videos erfordert komplexere, graphenstrukturierte Denkfähigkeiten. Benchmarks wie CausalVQA untersuchen kausale Beziehungen, während VCRBench die Fähigkeit von Modellen testet, durcheinandergebrachte Videoclips in eine logische Reihenfolge zu bringen. Spezielle diagnostische Benchmarks wie VidHalluc und HAVEN bewerten und mindern "Halluzinationen" im Videobereich.

Open-Source-Modelle zeigen außergewöhnliche Leistungen bei spezifischen, hochkomplexen Benchmarks, während die Evaluationsdaten für proprietäre Modelle oft spärlich sind. Gemini 1.5 Pro, mit seinem großen Kontextfenster und der Mixture-of-Experts (MoE)-Architektur, zeigt nahezu perfekte Leistung bei der Beantwortung von Fragen zu langen Videos. Qwen-2.5-VL und STORM zeichnen sich in verschiedenen Bereichen aus, wobei Qwen-2.5-VL bei langen Videos durch seine "Absolute Time Encoding"-Technik und STORM bei zeitlicher Argumentation durch einen dedizierten temporalen Encoder überzeugt. Die Fragmentierung und Opazität des Evaluationsökosystems stellen weiterhin große Herausforderungen dar, die einen gemeinsamen, transparenten Rahmen erfordern, um hochrangige kognitive Fähigkeiten zu messen.

Sentimentanalyse

Die Sentimentanalyse in multimodalen Modellen geht über die statische Erkennung von Gesichtsausdrücken hinaus und zielt darauf ab, die komplexen menschlichen sozialen und emotionalen Dynamiken zu verstehen. Bestehende Benchmarks für Wissensabruf oder faktisches Denken sind hierfür unzureichend. Spezialisierte Benchmarks wie MELD (aus der TV-Serie "Friends") nutzen mehrteilige Dialogvideos, um das Verständnis von Kontext, Charakterinteraktionen und emotionalen Dynamiken zu bewerten. CA-MER konzentriert sich auf emotionale Konfliktszenarien, während HumanVBench und HumaniBench die Ausrichtung zwischen internen Emotionen und externen Ausdrücken sowie Fairness und Empathie bewerten. Der Trend geht von der Klassifikation zu feingranulareren Aufgaben wie dem Tracking und generativen Verständnis.

Proprietäre Modelle wie Gemini 2.5 Pro zeigen zwar führende Leistungen bei MME-EMOTION, doch die Erfolgsrate ist in diesem Bereich nicht so hoch wie in anderen Domänen. Die Evaluationsdaten für MELD und HumanVBench sind extrem spärlich, was einen fairen Vergleich erschwert. Dieses Dilemma der systemischen Evaluation, insbesondere zwischen Open-Source- und proprietären Ökosystemen, stellt ein erhebliches Hindernis dar, um den wahren Fortschritt von der perzeptuellen Intelligenz zur kognitiven Intelligenz zu messen.

Zukünftige Richtungen

Angesichts der aktuellen Herausforderungen zeichnen sich mehrere vielversprechende Forschungsrichtungen ab, um die nächste Generation von MLLMs zu entwickeln, die die Lücke zwischen Wahrnehmung und Kognition überbrücken können.

Vereinheitlichter Vision Encoder

Aktuelle Vision Encoder erfassen oft nicht umfassend alle aufgabenrelevanten visuellen Informationen, was zu unvollständigen Beweisen für das sprachliche Denken führt. Zukünftige Arbeiten sollten sich auf die Entwicklung vereinheitlichter Vision Encoder konzentrieren, die multi-granulare, umfassendere Repräsentationen bereitstellen und Verständnis sowie Generierung über mehrere visuelle Modalitäten hinweg in einem einzigen Framework integrieren. Ansätze wie ATOKEN, die Bilder, Videos und 3D-Assets in einem gemeinsamen latenten Raum kodieren, und TokLIP, die visuelle Token mit hochrangigem semantischem Verständnis ausstatten, sind vielversprechend. Eine vollständige Integration über alle visuellen Modalitäten hinweg und eine Überbrückung der Kluft zwischen Verständnis und Generierung bleiben jedoch wichtige Ziele.

Latentes Denken

Eine neue Forschungsrichtung erforscht direkte Interventionen im latenten Raum, um den Denkprozess von Vision-Language-Modellen zu steuern. Diese Methoden wirken direkt auf die latenten Repräsentationen des Modells ein und ermöglichen eine flexiblere und feingranularere Kontrolle. Ansätze wie Multimodal Chain of Continuous Thought, die auf "Gedankenvektoren" im latenten Raum iterieren, und VTI, die visuelle und textuelle Merkmale stabilisieren, sind Beispiele hierfür. Das Ziel ist es, kontinuierliches Denken, verbesserte Robustheit und die Unterdrückung von Halluzinationen gleichzeitig zu erreichen, um multimodalere Denkframeworks zu schaffen, die kontrollierbarer und interpretierbarer sind.

Generatives Denken

Dieses Paradigma externalisiert den impliziten Denkprozess des Modells in explizite visuelle Entitäten, die als Wahrnehmungseingabe für nachfolgende Schritte dienen. Dies ist wertvoll in Bereichen wie Roboterplanung und visuellem Puzzlelösen. Modelle wie Chameleon und Visual Planning legen die architektonische Grundlage. Neuere Methoden wie MVoT und Mind’s Eye of LLMs fordern das Modell auf, visuelle Notizblöcke zu generieren und iterativ zu aktualisieren, um komplexe Probleme zu lösen. Herausforderungen bleiben die Ungenauigkeit oder Halluzinationen der generierten Zwischenbilder sowie die Kuration geeigneter Trainingsdaten. Zukünftige Forschung sollte die Generierungsqualität verbessern und die Abhängigkeit von manuell kuratierten Datensätzen reduzieren.

Werkzeug-augmentiertes Denken

Obwohl werkzeug-augmentiertes Denken, wie in PixelReasoner und OpenThinkimg gezeigt, erhebliche Fortschritte gemacht hat, bestehen weiterhin Herausforderungen. Es gibt oft eine Konsistenzlücke zwischen visuellen Hinweisen und dem Denkprozess, die zu unbegründeten Schlussfolgerungen führt. Während Verifizierungsschritte die Genauigkeit erhöhen, gehen sie oft auf Kosten der Effizienz. Zudem generieren aktuelle Modelle oft lineare Denkpfade, was ihre Fähigkeit zur Lösung komplexer, mehrstufiger Probleme einschränkt. Zukünftige Forschung sollte die Optimierung der Denkpfadstruktur und des Zeitpunkts des Werkzeugeinsatzes in den Fokus rücken. Baum-basierte Algorithmen wie MCTS könnten komplexere Denkpfade ermöglichen, und adaptive Mechanismen könnten den optimalen Zeitpunkt für den Werkzeugeinsatz bestimmen, um Genauigkeit und Inferenzgeschwindigkeit auszugleichen.

Domänenübergreifendes Beziehungsdenken

Das domänenübergreifende Beziehungsdenken bezieht sich auf die fortgeschrittene Fähigkeit, über mehrere Bilder hinweg zu argumentieren, um logische oder sequentielle Beziehungen zwischen Ereignissen zu verstehen. Die meisten aktuellen Methoden konzentrieren sich auf das Denken mit einzelnen Bildern. Wenige Arbeiten wie CmmCoT, Focus-Centric Visual Chain und Mantis befassen sich mit multi-image Problemen. Eine offene Frage für die Zukunft ist, wie der Gedächtnisverlust von Bildbeweisen zur Inferenzzeit reduziert und eine flexiblere Nutzung von Beziehungen zwischen Bildern ermöglicht werden kann. Dies ist ein entscheidender Schritt, um MLLMs mit einer kontextuellen Gedächtnisform auszustatten, die es ihnen ermöglicht, die Welt als einen kontinuierlichen Strom miteinander verbundener Ereignisse wahrzunehmen und zu interpretieren.

Kognitive Bewertung in der realen Welt

Eine große Einschränkung der aktuellen Evaluationssysteme ist ihre Abhängigkeit von sauberen Daten und geschlossenen Frage-Antwort-Formaten, was eine erhebliche Lücke zur dynamischen realen Welt und fortgeschrittenen menschlichen kognitiven Aktivitäten schafft. Zukünftige kognitive Bewertungen müssen sich von geschlossenen Umgebungen hin zu den komplexen Herausforderungen der realen Welt verlagern. Benchmarks wie CA-MER und CausalVQA, die das Denken in emotional widersprüchlichen Szenarien und das kausale Verständnis bewerten, sind darauf ausgelegt, Modelle über die bloße "Wahrnehmung" hinaus zu echtem "Denken" zu zwingen. Aufgabenformate müssen offene Wissensintegration und -erstellung beinhalten, wobei der Schwerpunkt auf der Generierung logisch kohärenter Erklärungen oder ausführbaren Codes liegen sollte, anstatt eine einzige korrekte Antwort auszuwählen. ChartMimic ist ein zukunftsweisendes Beispiel, das visuelle, logische und programmiertechnische Fähigkeiten zur Reproduktion von Diagrammen erfordert.

Fazit

Die Forschung im Bereich der multimodalen großen Sprachmodelle (MLLMs) befindet sich an einem entscheidenden Punkt, an dem der Fokus von der passiven Wahrnehmung hin zur aktiven, interaktiven und kognitiv anspruchsvollen Problemlösung verschoben wird. Der CHAIN-Benchmark und ähnliche Entwicklungen sind von großer Bedeutung, um die Fähigkeiten von VLMs in dynamischen 3D-Umgebungen präziser zu bewerten. Die Herausforderungen in der Verbesserung der visuellen Wahrnehmung, der dynamischen Ausrichtung von Vision-Language-Modellen sowie der Fähigkeiten zur Problemlösung und dynamischen Überprüfung sind vielfältig. Die Entwicklungen in diesen Bereichen, unterstützt durch neue Trainingsparadigmen, automatisierte Datensynthese und fortgeschrittene Suchalgorithmen, zeigen vielversprechende Wege auf. Gleichzeitig sind die Anwendungen dieser Technologien in wissenschaftlicher Problemlösung, medizinischer Diagnostik, Diagramm- und Videoverständnis sowie in der Sentimentanalyse von großer praktischer Relevanz. Es bleibt jedoch eine signifikante Lücke zwischen den Leistungen der fortschrittlichsten KI-Modelle und menschlichen Experten, insbesondere in spezialisierten kognitiven Aufgaben und bei der Bewältigung von "Halluzinationen". Zukünftige Forschung muss sich auf die Entwicklung vereinheitlichter Encoder, latentes und generatives Denken, werkzeug-augmentierte Argumentation, domänenübergreifendes Beziehungsdenken und eine realitätsnähere kognitive Evaluation konzentrieren, um die Vision einer wirklich intelligenten, interaktiven KI zu verwirklichen.

Bibliographie

- Wu, Y., Song, M., Lan, Y., Wang, L., Hu, Z., Xiao, Y., Zhou, H., Zheng, W., Raharja, D., Poria, S., & Lee, R. K.-W. (2026). *From Perception to Action: An Interactive Benchmark for Vision Reasoning*. arXiv preprint arXiv:2602.21015. - Zhou, C., Wang, M., Ma, Y., Wu, C., Chen, W., Qian, Z., Liu, X., Zhang, Y., Wang, J., Xu, H., Luo, F., Jiang, T., Chen, X., Hao, X., Li, H., Zhang, A., Wang, W., Li, L., Lu, Z., Lu, Y., & Guo, Y. (2025). *From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models*. arXiv preprint arXiv:2509.25373. - Zhang, W., Wang, M., Liu, G., Huixin, X., Jiang, Y., Shen, Y., Hou, G., Zheng, Z., Zhang, H., Li, X., Lu, W., Li, P., & Zhuang, Y. (2025). *Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks*. arXiv preprint arXiv:2503.21696. - Zhou, W., Xiong, X., Peng, Y., Tao, M., Zhao, C., Dong, H., Tang, M., & Wang, J. (2025). *PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments*. arXiv preprint arXiv:2510.21111. - Jahangard, S., Mohammadi, M., Shen, Y., Cai, Z., & Rezatofighi, H. (2025). *JRDB-Reasoning: A Difficulty-Graded Benchmark for Visual Reasoning in Robotics*. arXiv preprint arXiv:2508.10287. - Chen, L., Zhang, Y., Ren, S., Zhao, H., Cai, Z., Wang, Y., Wang, P., Meng, X., Liu, T., & Chang, B. (2024). *PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain*. arXiv preprint arXiv:2402.15527. - Wang, Q., Huang, W., Zhou, Y., Yin, H., Bao, T., Lyu, J., Liu, W., Zhang, R., Wu, J., Fei-Fei, L., & Li, M. (2025). *ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction*. arXiv preprint arXiv:2511.20937. - Zhang, D., Liu, P., Zhou, X., Ge, Y., Lan, G., Bi, J., Brinton, C., Hoque, E., & Luo, J. (2026). *VisualActBench: Can VLMs See and Act like a Human?* arXiv preprint arXiv:2512.09907. - Wu, Y., Song, M., Lan, Y., Wang, L., Hu, Z., Xiao, Y., Zhou, H., Zheng, W., Raharja, D., Poria, S., & Lee, R. K.-W. (2026). *An Interactive Benchmark for Vision Reasoning*. Hugging Face. Abgerufen von https://huggingface.co/papers/2602.21015 - Daily Papers. (2026). Hugging Face. Abgerufen von https://huggingface.co/papers/date/2026-02-25 - We-Math/V-Thinker. (2025). GitHub. Abgerufen von https://github.com/We-Math/V-Thinker