KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Benchmark zur Bewertung der Kritikfähigkeit großer multimodaler Modelle

Kategorien:
No items found.
Freigegeben:
November 16, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • MM-CRITIC ist ein neuer, umfassender Benchmark zur Bewertung der Kritikfähigkeit von Large Multimodal Models (LMMs).
    • Der Benchmark deckt acht Hauptaufgabenbereiche und über 500 spezifische Aufgaben ab, basierend auf 4471 Datensätzen.
    • Die Bewertung erfolgt in drei Dimensionen: Basiskritik, Korrekturkritik und vergleichende Kritik, unter Verwendung skalarer und textueller Metriken.
    • Referenzkritiken, die von GPT-4o anhand von Expertenwissen und detaillierten Bewertungsrubriken erstellt werden, erhöhen die Zuverlässigkeit der Bewertung.
    • Experimente zeigen, dass die Modellgröße die Kritikfähigkeit beeinflusst und dass Modelle mit mittlerer Qualität die grössten Herausforderungen bei der Kritik darstellen.
    • Es wurde eine Korrelation zwischen der Länge des Kritiktextes und der zugewiesenen Bewertung festgestellt, was auf eine mögliche Voreingenommenheit des Bewertungsmodells hindeutet.

    Die Fähigkeit zur Kritik ist für künstliche Intelligenz von entscheidender Bedeutung, um sich selbst zu verbessern und als zuverlässige Assistenten zu dienen. Während die Kritikfähigkeit von rein sprachbasierten Modellen (Large Language Models, LLMs) bereits umfassend untersucht wurde, blieb die multimodale Kritik grosser multimodaler Modelle (Large Multimodal Models, LMMs) bisher weitgehend unerforscht. Dies ist bemerkenswert, da LMMs zunehmend leistungsfähiger in Aufgaben wie Bildunterschriften und visuellem Denken werden. Eine neue Studie mit dem Titel "MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique" stellt einen umfassenden Benchmark vor, der genau diese Lücke schliessen soll.

    Die Notwendigkeit einer umfassenden Bewertung

    LMMs müssen Informationen aus verschiedenen Modalitäten, wie Bildern und Text, verarbeiten und abgleichen. Dies führt zu einer erhöhten Komplexität sowohl beim Verständnis als auch bei der Generierung von Kritik. Eine präzise Bewertung dieser Kritikfähigkeiten ist daher entscheidend, um die Zuverlässigkeit und die Argumentationstiefe von LMMs zu verbessern. Bisherige Ansätze zur Bewertung der multimodalen Kritikfähigkeit konzentrierten sich oft auf binäre Klassifikationsaufgaben, die vorwiegend einfache Präferenzvorhersagen lieferten, ohne tiefergehende Aspekte der Kritik zu beleuchten.

    MM-CRITIC: Ein ganzheitlicher Ansatz

    MM-CRITIC wurde entwickelt, um die Kritikfähigkeit von LMMs umfassend und zuverlässig zu messen. Der Benchmark basiert auf einem detaillierten Bewertungsschema, das sowohl skalare als auch textuelle Metriken verwendet. Er bewertet LMMs entlang von drei Hauptdimensionen:

    • Basiskritik: Bezieht sich auf die grundlegende Fähigkeit, die Korrektheit einer Antwort zu beurteilen und textuelles Feedback zu geben.
    • Korrekturkritik: Bewertet die Fähigkeit des Modells, Fehler in Antworten zu identifizieren und Korrekturvorschläge zu machen.
    • Vergleichende Kritik: Misst die Fähigkeit, die bessere von zwei Antworten unterschiedlicher Qualität auszuwählen.

    Der MM-CRITIC-Datensatz umfasst 4471 Stichproben aus acht Hauptaufgabenbereichen und über 500 spezifischen Aufgaben. Diese Daten wurden von verschiedenen LMMs unterschiedlicher Modellgrössen gesammelt, um eine breite Palette von Antwortqualitäten zu gewährleisten.

    Methodik und Zuverlässigkeit der Bewertung

    Um die Zuverlässigkeit der Bewertung zu erhöhen, integriert MM-CRITIC von Experten informierte "Ground Answers" in Bewertungsrubriken. Diese Rubriken leiten GPT-4o bei der Annotation von Antworten und der Generierung von Referenzkritiken, die als Anker für vertrauenswürdige Urteile dienen. Dieser Ansatz soll potenzielle Bewertungsfehler, die durch reine Modellurteile entstehen könnten, mindern.

    Aufbau des Benchmarks

    Die Konstruktion von MM-CRITIC erfolgte in drei Schritten:

    1. Auswahl vielfältiger Stichproben aus einem umfassenden multimodalen Benchmark (MEGA-BENCH) und Generierung einer breiten Palette von Antworten durch verschiedene LMMs.
    2. Entwicklung einer detaillierten Bewertungsrubrik, um GPT-4o bei der Bewertung der Antwortqualität und der Generierung von Referenzkritiken menschenähnlich zu leiten.
    3. Erstellung von Unterdatensätzen für Korrelations- und vergleichende Kritik auf Basis der annotierten Antwortqualität.

    Die Referenzkritiken sind auf einen Wert von 8 verankert, um menschliche Qualitätsniveaus darzustellen, und das Bewertungsmodell vergleicht die LMM-Inhalte mit diesen Referenzen, um Vergleichswerte zu liefern.

    Wichtige Erkenntnisse aus den Experimenten

    Die umfangreichen Experimente mit führenden Closed-Source- und Open-Source-LMMs bestätigen die Wirksamkeit von MM-CRITIC und liefern eine umfassende Bewertung der Kritikfähigkeiten dieser Modelle. Mehrere wichtige Erkenntnisse wurden gewonnen:

    • Skalierungsgesetz: Die Ergebnisse zeigen, dass die Kritikfähigkeit von Modellen innerhalb derselben Serie konsistent mit zunehmender Parametergrösse verbessert wird. Grössere Modelle übertreffen in der Regel ihre kleineren Pendants.
    • Herausforderung der Korrekturkritik: Die Korrekturkritikwerte sind im Allgemeinen niedriger als die Basiskritikwerte, was darauf hindeutet, dass die Korrektur von Fehlern eine anspruchsvollere Aufgabe für LMMs darstellt.
    • Schwierigkeit bei mittlerer Qualität: Antworten mittlerer Qualität erweisen sich als am schwierigsten zu beurteilen und erhalten die niedrigsten Kritikwerte. Dies liegt daran, dass sehr gute oder sehr schlechte Antworten deutlichere Merkmale aufweisen, während mittlere Qualitäten nuanciertere Kritik erfordern.
    • Korrelation zwischen Textlänge und Bewertung: Es wurde eine positive Korrelation zwischen der Länge des Kritiktextes und der zugewiesenen Kritikbewertung festgestellt. Längere und detailliertere Kritiken erhielten tendenziell höhere Bewertungen, was auf eine mögliche Voreingenommenheit des Bewertungsmodells (z.B. GPT-4.1) hindeuten könnte.
    • Einfluss des Modellstils: Eine Untersuchung potenzieller Verzerrungen durch den Modellstil (z.B. GPT-basierte Modelle) zeigte, dass die Modellrankings auch bei unterschiedlichen Bewertungsmodellen (z.B. GPT-4.1 und Claude-4.0-Sonnet) weitgehend konsistent blieben.

    Fallstudien und Implikationen

    Fallstudien, insbesondere solche mit schlecht funktionierenden Beispielen, bieten wertvolle Einblicke in die Grenzen der Bewertungsmethodik und der Kritikfähigkeiten der Modelle. Es wurde festgestellt, dass einige LMMs dazu neigen, detaillierte Schritt-für-Schritt-Erklärungen zu liefern, auch wenn kurze, direkte Antworten angefordert wurden. Dies kann zwar die Antwortqualität verbessern, entspricht aber möglicherweise nicht den Erwartungen der Benutzer an prägnante Antworten.

    Fazit und Ausblick

    MM-CRITIC etabliert einen soliden Grundstein für das Benchmarking und die Weiterentwicklung der Kritikfähigkeiten von LMMs. Es liefert wertvolle Einblicke in die Leistung führender Modelle und identifiziert Bereiche, in denen weitere Forschung und Entwicklung erforderlich sind. Die gewonnenen Erkenntnisse tragen dazu bei, erklärbarere und vertrauenswürdigere multimodale Systeme zu entwickeln. Es ist jedoch wichtig zu beachten, dass der Benchmark derzeit auf Text- und Bildmodalitäten beschränkt ist und die interaktiven Aspekte der Kritik in realen Szenarien noch nicht vollständig abdeckt. Zukünftige Arbeiten könnten diese Bereiche erweitern und auch andere multimodale Domänen wie Video, Audio und 3D-Daten einbeziehen.

    Bibliography: - Zeng, G., Luo, Z., Lin, H., Tian, Y., Li, K., Gong, Z., Guo, J., & Ma, J. (2025). MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique. arXiv preprint arXiv:2511.09067. - Zeng, G., Luo, Z., Lin, H., Tian, Y., Li, K., Gong, Z., Guo, J., & Ma, J. (2025). MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique. Findings of the Association for Computational Linguistics: EMNLP 2025, pages 13603–13630. - Hugging Face, Daily Papers. (2025). MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique. Retrieved from https://huggingface.co/papers/2511.09067. - TheMoonlight.io, Literature Review. (2025). MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique. Retrieved from https://www.themoonlight.io/review/mm-critic-a-holistic-evaluation-of-large-multimodal-models-as-multimodal-critique.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen