Neue Maßstäbe für multimodale Agentenfähigkeiten in der Künstlichen Intelligenz

Kategorien:

No items found.

Freigegeben:

April 6, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Multimodale Agenten-Fähigkeiten sind entscheidend für die Weiterentwicklung von KI-Modellen, die nicht nur passiv Informationen verarbeiten, sondern aktiv Probleme lösen.
Der neue Benchmark Agentic-MME bewertet die synergetische Nutzung von visuellen Tools und Web-Suchfunktionen durch KI-Agenten.
Bestehende Modelle zeigen erhebliche Lücken im Vergleich zur menschlichen Leistung, insbesondere bei komplexen Aufgaben, die eine iterative Problemlösung erfordern.
Die Bewertung erfolgt prozessbasiert mit über 2.000 manuell annotierten Checkpoints, um nicht nur die Endergebnisse, sondern auch die Zwischenschritte zu überprüfen.
Es gibt drei Schwierigkeitsgrade (Level 1-3), die von einfachen visuellen Operationen bis hin zu komplexen, iterativen Aufgaben reichen, die eine enge Verzahnung von visueller Analyse und Wissensexpansion erfordern.
Proprietäre Modelle übertreffen Open-Source-Modelle, insbesondere bei Such- und Planungsaufgaben.
Die Effizienz der Tool-Nutzung ist ein entscheidender Faktor, wobei Modelle, die zu "Overthinking" neigen, schlechtere Ergebnisse erzielen.

Die Landschaft der Künstlichen Intelligenz (KI) durchläuft eine signifikante Transformation. Multimodale große Sprachmodelle (MLLMs), die bisher vorrangig als passive Informationsverarbeiter agierten, entwickeln sich zunehmend zu aktiven Agenten. Diese Agenten sind in der Lage, Probleme nicht nur durch die Interpretation statischer Daten zu lösen, sondern durch die aktive Manipulation visueller Informationen und die gezielte Nutzung externer Wissensquellen. Die wahre Stärke dieser Entwicklung liegt in der "agentischen Fähigkeit" – der Möglichkeit, autonom zu handeln, zu planen und Werkzeuge zu nutzen, um komplexe, reale Aufgaben zu bewältigen.

Die Evolution Multimodaler Intelligenz: Vom Beobachter zum Akteur

Traditionelle MLLMs konnten zwar Text und Bilder verarbeiten, ihre Interaktion beschränkte sich jedoch oft auf eine reine Frage-Antwort-Logik. Mit dem Aufkommen agentischer Fähigkeiten vollzieht sich ein Paradigmenwechsel. Modelle wie Skywork-R1V4 oder die Gemini-Familie zeigen, dass KI-Systeme nunmehr in der Lage sind, Bilder aktiv zu transformieren und zu analysieren (Visual Expansion) sowie externe Informationen über Websuchen zu integrieren (Knowledge Expansion). Diese symbiotische Verbindung ermöglicht es, latente Hinweise in Bildern aufzudecken, Fakten zu verifizieren und Ambiguitäten aufzulösen, die über den visuellen Inhalt hinausgehen.

Grenzen bestehender Evaluierungen

Bisherige Evaluierungsmethoden für MLLMs weisen jedoch Defizite auf. Sie integrieren Werkzeuge oft unflexibel, testen visuelle Funktionen und Websuchen isoliert voneinander und konzentrieren sich primär auf die Korrektheit der Endergebnisse. Dies erschwert die Diagnose, ob Werkzeuge tatsächlich korrekt und effizient eingesetzt wurden oder ob Fehler in der Planung oder Ausführung der Zwischenschritte liegen.

Agentic-MME: Ein neuer Benchmark für Multimodale Agenten-Fähigkeiten

Um diese Lücken zu schließen, wurde Agentic-MME entwickelt – ein prozessverifizierbarer Benchmark, der die multimodalen agentischen Fähigkeiten ganzheitlich und synergistisch bewertet. Agentic-MME umfasst 418 reale Aufgaben aus sechs Domänen und drei Schwierigkeitsgraden. Der Benchmark zeichnet sich durch über 2.000 schrittweise Checkpoints aus, die jeweils mehr als 10 Personenstunden manueller Annotation erforderten. Jede Aufgabe ist mit einem einheitlichen Evaluationsframework ausgestattet, das sowohl die Ausführung von Code in einer Sandbox als auch strukturierte Tool-APIs unterstützt, sowie mit einer menschlichen Referenztrajektorie, die entlang einer S-Achse (Strategie/Wissensexpansion) und einer V-Achse (Visueller Nachweis) annotiert ist.

Aufbau des Benchmarks und Schwierigkeitsgrade

Die Aufgaben in Agentic-MME sind in drei Schwierigkeitsgrade unterteilt, die die Komplexität der Interaktion widerspiegeln:

- Level 1 (Fokus auf Visual Expansion): Aufgaben, die eine einzelne visuelle Operation erfordern (z.B. Zuschneiden eines Bildes), um grundlegende Wahrnehmungs-Aktions-Schleifen zu testen. - Level 2 (Visual Expansion + Knowledge Expansion): Aufgaben, die eine einfache Kombination von visueller und Wissensexpansion erfordern. Agenten extrahieren visuelle Hinweise und nutzen Web-Suchen zur Faktenüberprüfung. Diese Aufgaben sind typischerweise in wenigen Interaktionsrunden lösbar. - Level 3 (Synergistische Kopplung): Anspruchsvolle, realitätsnahe Szenarien, die eine iterative, verschränkte Ausführung von visuellen und Suchwerkzeugen verlangen. Hier müssen Agenten vorläufige visuelle Hinweise extrahieren, diese zur Validierung im Web abfragen und das gewonnene Wissen nutzen, um weitere visuelle Operationen zu steuern. Ein Beispiel hierfür wäre die Identifizierung eines unscharfen Logos, das sowohl Bildbearbeitung als auch mehrstufige Websuchen erfordert.

Prozessbasierte Verifizierung und Effizienzmessung

Agentic-MME geht über die reine Bewertung der Endergebnisse hinaus, indem es fein granulierte Zwischenzustände prüft. Die S-Achse auditierte die Wissensexpansion, indem sie suchbezogene Strategien, verwendete Keywords und die Korrektheit der abgerufenen Zwischenantworten bewertet. Die V-Achse überprüft die visuelle Expansion, indem sie sowohl die Absicht zur Tool-Nutzung als auch die Treue der generierten visuellen Artefakte bewertet. Zusätzlich wird die Effizienz durch eine "Overthinking"-Metrik quantifiziert, die redundante Aktionen im Vergleich zu menschlichen Referenztrajektorien bestraft.

Experimentelle Ergebnisse und Erkenntnisse

Die umfassende Evaluierung verschiedener Modelle, darunter proprietäre wie Gemini 3 Pro und Open-Source-Modelle wie Qwen3 VL-235B, liefert aufschlussreiche Erkenntnisse:

Deutlicher Leistungsabfall bei komplexen Aufgaben

Alle getesteten Modelle liegen deutlich unter der menschlichen Leistung. Während menschliche Experten eine Genauigkeit von 93,8 % erreichen, liegt das beste Modell, Gemini 3 Pro (Atm), bei 56,3 % insgesamt und fällt bei Level-3-Aufgaben auf 33,3 % ab. Dies verdeutlicht, dass selbst fortschrittliche Modelle bei komplexen, realen Problemlösungen noch erhebliche Schwierigkeiten mit mehrstufiger Planung und zuverlässiger Werkzeugausführung haben.

Vorsprung proprietärer Modelle in Planung und Suche

Proprietäre Modelle übertreffen Open-Source-Alternativen konsistent. Dieser Unterschied ist besonders ausgeprägt bei Level-3-Aufgaben, wo Open-Source-Modelle wie Thyme-rl und Deepeyesv2 bei der Formulierung von Suchanfragen und der Extraktion nützlicher Zwischenantworten fast vollständig versagen. Dies deutet darauf hin, dass Open-Source-Modelle zwar Werkzeuge aufrufen können, aber noch nicht die Planungsfähigkeiten für eine zuverlässige mehrstufige Problemlösung besitzen.

Strukturierte Tool-APIs gegenüber Codegenerierung

Modelle, die strukturierte Tool-APIs nutzen (Atomic-Modus), erzielen tendenziell bessere Ergebnisse als jene, die freien Code generieren (Code-Modus). Dies liegt daran, dass Codegenerierung eine höhere kognitive Belastung für die Modelle darstellt, da sie sich um Bibliotheksimporte, Dateieingabe/-ausgabe und Fehlerbehebung kümmern müssen. Der Code-Modus bietet jedoch ungenutztes Potenzial für flexible, benutzerdefinierte Transformationen, die über vordefinierte Tools hinausgehen.

Fehleranalyse: Überdenken und ungenaue Ausführung

Die detaillierte Fehleranalyse zeigt, dass Modelle oft zögerlich agieren, indem sie passive Raten anstelle aktiver Bildmanipulation bevorzugen. Starke Agenten neigen zudem zu "Overthinking Collapse", bei dem sie in redundanten Tool-Aufrufschleifen gefangen sind. Ungenaue Ausführung, wie das Zuschneiden irrelevanter Regionen, ist ebenfalls ein persistentes Problem. Strukturierte APIs können jedoch syntaxbezogene Fehler reduzieren.

Implikationen für die Entwicklung agentischer MLLMs

Die Ergebnisse des Agentic-MME Benchmarks unterstreichen die Notwendigkeit, sich auf die Entwicklung robusterer multimodaler Agenten zu konzentrieren. Die Herausforderungen liegen nicht nur in der Verbesserung der einzelnen Fähigkeiten – sei es visuelle Analyse oder Websuche – sondern vor allem in deren synergetischer und effizienter Koordination über mehrere Schritte hinweg. Für Mindverse als KI-Partner, der umfassende KI-Tools anbietet, bedeutet dies eine kontinuierliche Weiterentwicklung der Modelle, um diesen komplexen Anforderungen gerecht zu werden und unseren B2B-Kunden Werkzeuge an die Hand zu geben, die eine echte agentische Problemlösung ermöglichen.

Zukünftige Forschungsrichtungen

Die Forschung muss sich auf folgende Bereiche konzentrieren:

- Verbesserung der mehrstufigen Planung: Entwicklung von Modellen, die komplexe Aufgaben in kohärente Aktionssequenzen zerlegen und dabei Zwischenergebnisse effektiv nutzen können. - Zuverlässige Tool-Ausführung: Sicherstellung, dass Tools präzise und zielgerichtet eingesetzt werden, um Fehler und redundante Aktionen zu minimieren. - Effizientes Wissensmanagement: Optimierung der Integration von visuellen und externen Wissensquellen, um Ambiguitäten zu reduzieren und die Entscheidungsfindung zu verbessern. - Überbrückung der Lücke zwischen Code- und Atomic-Modus: Erforschung von Methoden, die die Flexibilität der Codegenerierung mit der Zuverlässigkeit strukturierter APIs verbinden.

Agentic-MME bietet eine wichtige diagnostische Roadmap, um die Engpässe multimodaler Intelligenz präzise zu identifizieren und den Weg für die nächste Generation von robusten, langfristig denkenden multimodalen Agenten zu ebnen, die visuelles und wissensbasiertes Denken auf komplexe Weise miteinander verbinden können.

Bibliography: - Wei, Q., Yang, Y., Wang, S., Chen, J., Wang, B., Wang, J., ... & Zhang, Y.-F. (2026). Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?. arXiv preprint arXiv:2604.03016. - AI Research Roundup. (2026, April 5). Agentic-MME: New Benchmark for MLLM Agents [Video]. YouTube. - Yao, H., Zhang, R., Huang, J., Zhang, J., Wang, Y., Fang, B., ... & Tao, D. (2025). A Survey on Agentic Multimodal Large Language Models. arXiv preprint arXiv:2510.10991. - Microsoft Reactor. (2026, March 31). Episode 4: Agentic AI & The Multimodal Frontier [Video]. YouTube. - Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch. (n.d.). arXiv preprint arXiv:2512.02395.