KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Benchmark für multimodale Deep Research Agents vorgestellt

Kategorien:
No items found.
Freigegeben:
January 22, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • MMDeepResearch-Bench (MMDR-Bench) ist ein neuer Benchmark für multimodale Deep Research Agents (DRAs).
    • Er umfasst 140 von Experten erstellte Aufgaben aus 21 Domänen, die sowohl textuelle als auch visuelle Evidenz erfordern.
    • DRAs müssen visuelle Artefakte mit zitierten Behauptungen verknüpfen und Konsistenz über Narrative, Zitate und visuelle Referenzen hinweg wahren.
    • Einheitliche Evaluierungspipeline: FLAE (Berichtsqualität), TRACE (zitierungsgestützte Evidenzausrichtung) und MOSAIC (text-visuelle Integrität).
    • Experimente mit 25 Modellen zeigen systematische Kompromisse zwischen Generierungsqualität, Zitierdisziplin und multimodaler Verankerung.
    • Gemini Deep Research (Gemini 3 Pro) erzielt die höchste Gesamtpunktzahl, während andere Modelle spezifische Stärken aufweisen.
    • Visuelle Informationen sind nur dann vorteilhaft, wenn sie zuverlässige Beweise liefern und nicht zu Fehlinterpretationen führen.
    • Die multimodale Ausrichtung und die Zitiergrundlage können auseinandergehen, insbesondere bei längeren Verarbeitungsketten.
    • Der Einsatz von Tools ist hilfreich, aber starke Basismodelle und eine reichhaltigere Retrieval-Fähigkeit sind entscheidender.
    • Der Benchmark unterstreicht die Notwendigkeit robusterer multimodaler Deep Research Agents.

    Die Landschaft der Künstlichen Intelligenz entwickelt sich stetig weiter, und mit ihr die Anforderungen an autonome Systeme. Eine aktuelle Entwicklung sind Deep Research Agents (DRAs), die darauf abzielen, komplexe Forschungsaufgaben durch mehrstufige Suche und Synthese zu bewältigen. Diese Agenten sollen zitatreiche Berichte erstellen, die nicht nur textliche, sondern auch visuelle Informationen integrieren. Bisher fehlte es jedoch an einem umfassenden Benchmark, der die End-to-End-Nutzung multimodaler Evidenz in solchen Agenten adäquat bewertet. Hier setzt der kürzlich vorgestellte MMDeepResearch-Bench (MMDR-Bench) an, der als neuer Goldstandard für die Evaluierung multimodaler Deep Research Agents dienen soll.

    Die Herausforderung der multimodalen Deep Research

    Traditionelle Benchmarks konzentrierten sich oft auf rein textbasierte Szenarien oder kurzfristige multimodale Fragen-Antwort-Systeme. Die Realität der Forschung ist jedoch selten auf Text beschränkt. Wissenschaftliche Arbeiten, Geschäftsberichte oder technische Analysen enthalten häufig Diagramme, Infografiken, Tabellen und Bilder, die für das Verständnis und die Validierung von Behauptungen unerlässlich sind. Deep Research Agents müssen daher die Fähigkeit besitzen, visuelle Artefakte zu interpretieren, sie mit textuellen Quellen zu verknüpfen und eine kohärente, zitierungsgestützte Synthese zu erstellen.

    Die Schwierigkeit liegt nicht nur in der Integration verschiedener Modalitäten, sondern auch in der Gewährleistung der Glaubwürdigkeit und Genauigkeit. Ein Bericht muss nicht nur gut geschrieben sein, sondern auch die verwendeten Quellen korrekt zitieren und die visuellen Informationen präzise widerspiegeln. Fehler in der Interpretation visueller Daten oder eine mangelnde Abstimmung zwischen Text und Bild können die Glaubwürdigkeit eines generierten Berichts erheblich beeinträchtigen.

    MMDeepResearch-Bench: Ein umfassender Ansatz

    MMDR-Bench wurde entwickelt, um diese Lücke zu schließen. Er besteht aus 140 von Experten erstellten Aufgaben, die sich über 21 verschiedene Domänen erstrecken. Jede Aufgabe wird als Bild-Text-Bündel bereitgestellt, um sowohl das multimodale Verständnis als auch die zitierungsgestützte Berichtserstellung zu bewerten. Der Benchmark legt dabei Wert auf eine berichtsähnliche Synthese mit expliziter Evidenznutzung, bei der Modelle visuelle Artefakte mit den referenzierten Behauptungen verknüpfen und die Konsistenz über Narrative, Zitate und visuelle Referenzen hinweg wahren müssen.

    Die dreistufige Evaluierungspipeline

    Um eine detaillierte und interpretierbare Bewertung zu ermöglichen, wurde eine dreistufige Evaluierungspipeline namens FLAE, TRACE und MOSAIC vorgeschlagen:

    • FLAE (Formula-LLM Adaptive Evaluation): Diese Komponente bewertet die allgemeine Qualität des Berichts, einschließlich Lesbarkeit, Einsicht und struktureller Vollständigkeit. Sie kombiniert eine reproduzierbare Formelbewertung aus Textmerkmalen mit einer aufgabenspezifischen LLM-Beurteilung.
    • TRACE (Trustworthy Retrieval-Aligned Citation Evaluation): TRACE misst die Qualität der Evidenz und die Zitiergenauigkeit. Es überprüft, ob zitierte Behauptungen durch die referenzierten Inhalte gestützt werden und ob der Bericht die gestellte Frage korrekt interpretiert und beantwortet. Ein besonderes Augenmerk liegt auf der "Visual Evidence Fidelity" (VEF), die eine strenge Ausrichtung zwischen den Behauptungen des Agenten und der bereitgestellten visuellen Evidenz sicherstellt.
    • MOSAIC (Multimodal Support-Aligned Integrity Check): MOSAIC bewertet, ob bildreferenzierte Aussagen die zugrunde liegenden Abbildungen, Diagramme und Fotos getreu widerspiegeln. Es ermöglicht eine multimodale Verifizierung als konsistenzprüfenden Test auf Elementebene zwischen textuellen Behauptungen, die visuelle Artefakte referenzieren, und den referenzierten Bildern selbst.

    Diese modulare Struktur ermöglicht eine feingranulare Fehlerdiagnose, die über eine einzelne Gesamtpunktzahl hinausgeht.

    Experimente und erste Erkenntnisse

    Es wurden Experimente mit 25 hochmodernen Modellen durchgeführt, darunter Large Language Models (LLMs) und spezialisierte Deep Research Agents. Die Ergebnisse zeigten systematische Kompromisse zwischen Generierungsqualität, Zitierdisziplin und multimodaler Verankerung. Dies deutet darauf hin, dass eine gute Prosa allein keine getreue Evidenznutzung garantiert und dass die multimodale Integrität ein zentraler Engpass für Deep Research Agents bleibt.

    Bemerkenswerte Ergebnisse

    • Gesamtleistung: Gemini Deep Research (Gemini 3 Pro) erreichte die höchste Gesamtpunktzahl, was auf seine Stärke in der Evidenzqualität (TRACE) und einer wettbewerbsfähigen multimodalen Ausrichtung (MOSAIC) zurückzuführen ist.
    • Visuelle Evidenz: Vergleiche innerhalb derselben Modellfamilien, wie z.B. Qwen 3 235B (A22B) vs. Qwen 3 VL 235B (A22B), zeigten, dass das Hinzufügen von Vision nicht immer ein Vorteil ist. Obwohl multimodale Varianten die visuelle Verankerung verbessern können, führten sie auch zu mehr detaillierten Extraktionsfehlern, insbesondere bei der Fehlinterpretation feinkörniger Literale wie Zahlen oder Tabellenzellen. Dies deutet auf Einschränkungen im visuellen Prompt-Verständnis hin.
    • Multimodale Ausrichtung und Zitiergrundlage: Eine stärkere multimodale Ausrichtung oder Prompt-Befolgung garantierte nicht zwangsläufig eine zuverlässigere Zitiergrundlage. Agentenbasierte Systeme, die mehrstufige Such- und Kreuzprüfungsverfahren einsetzten, verbesserten die Evidenzaggregation, zeigten aber gleichzeitig einen Anstieg von Fehlern auf Entitätsebene, bei denen korrekt identifizierte Entitäten während späterer Syntheseschritte falsch zugeordnet wurden.
    • Tool-Nutzung und Backbone-Modelle: Der Einsatz von Tools ist hilfreich, aber die Qualität der Ergebnisse hängt stark von den zugrunde liegenden Backbone-Modellen ab. Agenten können starke Backbones verstärken, aber nicht ersetzen. Die Retrieval-Interaktionsmuster spielten eine größere Rolle als die Modellgröße allein.

    Feingranulare Domänenanalyse

    Die Analyse der Leistung in verschiedenen Domänen zeigte deutliche Unterschiede. Bei alltäglichen Aufgaben (Daily tasks) war die Leistung volatiler, und Modelle, die mit verrauschten, benutzerähnlichen Visualisierungen (wie Screenshots) robust umgehen konnten, waren am erfolgreichsten. Bei Forschungsaufgaben (Research tasks) wurde die Leistungsdifferenz stärker domänenabhängig. Gemini Deep Research (Gemini 3 Pro) und Gemini 3 Flash (Preview) zeigten in den meisten Forschungsdomänen eine starke Leistung, während GPT-5.2 in strukturierten technischen Bereichen wie Computer- und Datenwissenschaften Spitzenwerte erreichte. Qwen 3 VL 235B (A22B) erwies sich als besonders stark in visuell dichten wissenschaftlichen Domänen wie Umwelt- und Energiewissenschaften, wo Diagramme und Abbildungen entscheidende Beweise liefern.

    Robustheit und menschliche Konsistenz

    Die Evaluierungsmethodik wurde auch auf ihre Robustheit und Konsistenz mit menschlichen Expertenurteilen hin überprüft. Der vollständige Evaluator zeigte eine engere Übereinstimmung mit den Präferenzen von Experten als ein einfacher promptbasierter Richter. Ablationsstudien bestätigten, dass sowohl VEF als auch MOSAIC zu einer besseren, menschengerechten Bewertung beitragen.

    Implikationen für die Entwicklung von KI-Systemen

    Die Ergebnisse des MMDR-Bench unterstreichen die Notwendigkeit, bei der Entwicklung von Deep Research Agents nicht nur auf reine Textgenerierungsfähigkeiten zu achten, sondern auch die multimodale Integrität und die Fähigkeit zur präzisen Evidenzverankerung zu verbessern. Die Fähigkeit, visuelle Informationen korrekt zu interpretieren und in kontextuell relevante, zitierfähige Berichte zu integrieren, bleibt eine zentrale Herausforderung. Zukünftige Forschungsanstrengungen müssen sich auf die Entwicklung von Architekturen konzentrieren, die diese komplexen Anforderungen besser bewältigen können, um truly zuverlässige und vielseitige Deep Research Agents zu schaffen.

    Fazit

    Der MMDeepResearch-Bench stellt einen bedeutenden Schritt in der Evaluierung multimodaler Deep Research Agents dar. Durch seine umfassende Aufgabenpalette und die detaillierte Evaluierungspipeline bietet er eine solide Grundlage, um die Fähigkeiten aktueller KI-Modelle zu bewerten und zukünftige Entwicklungen voranzutreiben. Die gewonnenen Erkenntnisse über die Stärken und Schwächen der getesteten Modelle liefern wertvolle Hinweise für die weitere Forschung und Entwicklung im Bereich der Künstlichen Intelligenz, insbesondere für die Schaffung von Agenten, die komplexe Forschungsaufgaben mit hoher Genauigkeit und Glaubwürdigkeit bewältigen können.

    Bibliography: - Huang, Peizhou, et al. "MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents." arXiv preprint arXiv:2601.12346 (2026). - Du, Mingxuan, et al. "DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents." arXiv preprint arXiv:2506.11763 (2025). - DeepResearch Bench Project Page: https://deepresearch-bench.github.io/ - Sharma, Manasi, et al. "RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents." arXiv preprint arXiv:2511.10842 (2025). - Yang, Rui, et al. "EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents." arXiv preprint arXiv:2502.09560 (2025). - Tao, Xijia, et al. "MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents." arXiv preprint arXiv:2508.21475 (2025). - Zhou, Yang, et al. "M^3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark." arXiv preprint arXiv:2511.17729 (2025). - Zhang, Miaosen, et al. "MageBench: Bridging Large Multimodal Models to Agents." arXiv preprint arXiv:2412.04531 (2024).

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen