KI für Ihr Unternehmen – Jetzt Demo buchen

Herausforderungen und Lösungen bei der faktengestützten Attribution von Multimodalen Large Language Models

Kategorien:
No items found.
Freigegeben:
February 19, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Multimodale Large Language Models (MLLMs) zeigen Schwächen bei der faktengestützten Attribution in komplexen Szenarien.
    • Ein neuer Benchmark namens MuRGAt ermöglicht die Bewertung der Attributionsfähigkeit von MLLMs über verschiedene Modalitäten hinweg.
    • MLLMs neigen dazu, Zitationen zu halluzinieren, selbst wenn die Schlussfolgerungen korrekt sind.
    • Es besteht ein Zielkonflikt zwischen der Tiefe der Argumentation und der Genauigkeit der Attributionsnachweise.
    • Automatische Evaluierungssysteme, die mit menschlichen Urteilen korrelieren, sind entscheidend für die Weiterentwicklung.
    • Programmiergestützte Generierungsframeworks können die Attributionsqualität verbessern, jedoch potenziell auf Kosten der Antwortgenauigkeit.

    Die Landschaft der Künstlichen Intelligenz (KI) wird zunehmend von Multimodalen Large Language Models (MLLMs) geprägt, die in der Lage sind, Informationen aus verschiedenen Quellen wie Text, Bildern, Audio und Video zu verarbeiten und zu interpretieren. Diese Modelle finden Anwendung in komplexen realen Aufgaben, die mehrstufige Schlussfolgerungen und die Generierung langer Inhalte erfordern. Eine zentrale Herausforderung für die Zuverlässigkeit dieser Systeme ist jedoch die Fähigkeit, ihre Ausgaben präzise auf die ursprünglichen, heterogenen Eingabequellen zurückzuführen und einzelne faktische Behauptungen zu überprüfen. Dies wird als faktengestützte Attribution bezeichnet und ist entscheidend für die Glaubwürdigkeit und Verifizierbarkeit von KI-generierten Inhalten.

    Die Herausforderung der Attributionsfähigkeit in MLLMs

    Bestehende Benchmarks und Bewertungsmethoden für multimodales Grounding konzentrieren sich oft auf vereinfachte, beobachtungsbasierte Szenarien oder sind auf einzelne Modalitäten beschränkt. Sie reichen nicht aus, um die Attributionsfähigkeit von MLLMs in komplexen multimodalen Argumentationsprozessen umfassend zu bewerten. Dies führt dazu, dass die internen Argumentationsschritte der Modelle oft undurchsichtig bleiben und die Nachvollziehbarkeit der generierten Fakten erschwert wird. Ein Mangel an präziser Attribution kann zu sogenannten "Halluzinationen" führen, bei denen Modelle Zitate generieren, die nicht durch die bereitgestellten Beweismittel gestützt werden, selbst wenn die Schlussfolgerungen an sich korrekt erscheinen.

    MuRGAt: Ein neuer Benchmark für verifizierbare Argumentation

    Um dieser Lücke zu begegnen, wurde MuRGAt (Multimodal Reasoning with Grounded Attribution) eingeführt. MuRGAt ist ein Benchmark, der speziell dafür entwickelt wurde, die faktengestützte multimodale Attribution in Szenarien zu bewerten, die über direkte Beobachtungen hinausgehen und komplexe Schlussfolgerungen erfordern. Der Benchmark stellt MLLMs vor die Aufgabe, Antworten zu generieren, die sowohl explizite Argumentationen als auch präzise Zitationen enthalten. Jede Zitation muss dabei sowohl die Modalität als auch die zeitlichen Segmente der Originalquelle genau angeben.

    Strenge Anforderungen an die Modelle

    Die Anforderungen von MuRGAt sind weitreichend und spiegeln die Komplexität realer Anwendungsfälle wider. Die Modelle müssen nicht nur korrekte Antworten liefern, sondern auch nachvollziehbar darlegen, wie sie zu diesen Antworten gelangt sind. Dies umfasst:

    • Die Verarbeitung von Eingaben aus verschiedenen Modalitäten wie Video, Audio und anderen Quellen.
    • Die Generierung von Antworten, die eine klare und explizite Argumentationskette aufweisen.
    • Die Bereitstellung präziser Zitationen, die detaillierte Angaben zur Quelle (Modalität, Zeitstempel bei Videos/Audio) machen.

    Automatische Evaluierung und ihre Bedeutung

    Ein wesentlicher Bestandteil von MuRGAt ist ein neuartiges automatisches Bewertungsframework. Dieses Framework wurde entwickelt, um eine hohe Korrelation mit menschlichen Urteilen zu erreichen und somit eine zuverlässige und skalierbare Bewertung der Attributionsqualität zu ermöglichen. Das System zerlegt die Antworten in atomare Fakten, extrahiert die Zitationen und berechnet Verifizierungs-Scores.

    Die Bewertung erfolgt anhand eines dreiteiligen Protokolls zur Berechnung des MURGAT-SCORE:

    • Attributionsqualität (F1-Score): Dieser Wert ist das harmonische Mittel aus Präzision und Recall für alle atomaren Fakten.
    • Recall: Der Prozentsatz der atomaren Fakten, die vollständig durch ihre zitierten Beweise gestützt werden. Dies bewertet die Vollständigkeit der bereitgestellten Evidenz.
    • Präzision: Der Anteil relevanter Zitationen unter allen bereitgestellten Zitationen. Dies bestraft überflüssige oder zu weit gefasste Zitationen.

    Das automatisierte Framework verwendet führende MLLMs als "Richter". Beispielsweise wird Gemini-3-Pro für die Identifizierung verifizierbarer Behauptungen und die Zerlegung in atomare Fakten eingesetzt, während Gemini-2.5-Flash für die Attributions-Entailment verwendet wird, um ein Gleichgewicht zwischen Leistung und Kosten zu finden. Diese Automatisierung ist entscheidend, um den hohen Aufwand manueller Bewertungen zu umgehen und eine breitere Forschung zu ermöglichen.

    Ergebnisse und Implikationen für die Entwicklung von MLLMs

    Erste Benchmarking-Studien mit führenden MLLMs, darunter Gemini-Modelle und Qwen-Omni-Varianten, auf Datensätzen wie WorldSense und Video-MMMU, haben wichtige Erkenntnisse geliefert:

    • Halluzinierte Zitationen: Selbst leistungsstarke MLLMs neigen dazu, Zitationen zu halluzinieren, obwohl ihre Schlussfolgerungen inhaltlich korrekt sein können. Dies deutet auf eine Diskrepanz zwischen internen Argumentationsfähigkeiten und der Fähigkeit zur überprüfbaren Attribution hin.
    • Zielkonflikt bei der Argumentationstiefe: Eine Erhöhung der Argumentationstiefe oder die Durchsetzung einer strukturierten Fundierung führt oft zu einer Verschlechterung der Genauigkeit. Dies ist besonders bei kleineren Modellen zu beobachten und unterstreicht die Herausforderung, interne Argumentation und überprüfbare Attribution in Einklang zu bringen.
    • Programmiergestützte Generierung: Frameworks, die eine programmiergestützte Generierung nutzen, können die Attributionsqualität signifikant verbessern. Allerdings kann dies unter Umständen zu Lasten der Antwortgenauigkeit gehen.
    • Post-hoc Attribution: Methoden zur nachträglichen Attribution verbessern zwar die Abdeckung, können aber bei argumentationsintensiven Aufgaben zu Präzisionsverlusten führen, da sie abstrakte Argumentationsschritte häufig irrelevanten Segmenten zuordnen.
    • "Reasoning Tax" durch Zitationen: Die Anforderung an die Generierung von Zitationen kann bei einfachen Erkennungsaufgaben als eine Art "Reasoning Tax" wirken, kann aber bei komplexen Argumentations-Benchmarks die Leistung verbessern, indem sie eine Struktur vorgibt.

    Der MURGAT-SCORE, eine ganzheitliche Messgröße, skaliert die Attributionsqualität nach der Abdeckung und bestraft Modelle, die spärliche oder unvollständige Fundierungen liefern. Diese Erkenntnisse zeigen, dass trotz beeindruckender Fortschritte in den Argumentationsfähigkeiten von MLLMs noch erhebliche Forschungs- und Entwicklungsarbeit erforderlich ist, um Modelle zu schaffen, die sowohl genau als auch vertrauenswürdig sind, indem sie ihre Ausgaben präzise auf die Quellen zurückführen können.

    Ausblick und zukünftige Forschungsrichtungen

    Die Einführung von MuRGAt markiert einen wichtigen Schritt in der Entwicklung von vertrauenswürdiger KI. Die Herausforderungen, die MuRGAt aufzeigt, betonen die Notwendigkeit, Modelle zu entwickeln, die nicht nur in der Lage sind, komplexe Schlussfolgerungen zu ziehen, sondern diese auch transparent und nachvollziehbar zu untermauern. Zukünftige Forschung sollte sich darauf konzentrieren, die Lücke zwischen den internen Argumentationsprozessen von MLLMs und ihrer Fähigkeit zur faktengestützten Attribution zu schließen. Dies könnte die Entwicklung neuer Architekturen, Trainingsstrategien und Bewertungsmetriken umfassen, die die Verifizierbarkeit als Kernkriterium für die Modellleistung integrieren.

    Für Unternehmen im B2B-Bereich, die auf KI-Lösungen angewiesen sind, ist die Verifizierbarkeit von KI-generierten Inhalten von größter Bedeutung. Sie beeinflusst die Entscheidungsfindung, die Compliance und das Vertrauen der Nutzer. Die Fortschritte in der faktengestützten Attribution werden daher eine Schlüsselrolle bei der Akzeptanz und dem erfolgreichen Einsatz multimodaler KI-Systeme in kritischen Geschäftsanwendungen spielen.

    Die Forschung in diesem Bereich ist dynamisch. Weitere Studien befassen sich mit ähnlichen Themen wie der multimodalen Quellenattribution in Langform-Visual-Question-Answering (MAVIS) und der überprüfbaren Verifizierung von Behauptungen auf Textebene durch Wissensgraphen (ClaimVer). Diese Bemühungen tragen dazu bei, die Transparenz und Zuverlässigkeit von KI-Systemen kontinuierlich zu verbessern.

    Bibliography: - Wan, D., Wang, H., Wang, Z., Stengel-Eskin, E., Lee, H., & Bansal, M. (2026). Multimodal Fact-Level Attribution for Verifiable Reasoning. arXiv preprint arXiv:2602.11509. - Github Repository: meetdavidwan/murgat. (o. J.). Abrufbar unter: https://github.com/meetdavidwan/murgat - TheMoonlight.io. (o. J.). [Literature Review] Multimodal Fact-Level Attribution for Verifiable Reasoning. Abrufbar unter: https://www.themoonlight.io/en/review/multimodal-fact-level-attribution-for-verifiable-reasoning - Hugging Face. (o. J.). Daily Papers. Abrufbar unter: https://huggingface.co/papers?q=multimodal+reasoning - Song, S., Park, M., & Kim, G. (2025). MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering. arXiv preprint arXiv:2511.12142. - Dammu, P. P. S., Naidu, H., Dewan, M., Kim, Y., Roosta, T., Chadha, A., & Shah, C. (2024). ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs. arXiv preprint arXiv:2403.09724. - Marinescu, R., Bhattacharjya, D., Lee, J., Tchrakian, T., Cano, J. C., Hou, Y., Daly, E., & Pascale, A. (2025). FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models. arXiv preprint arXiv:2502.18573. - Hossain, S. (2025). Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models. arXiv preprint arXiv:2511.20531. - Braun, T., Rothermel, M., Rohrbach, M., & Rohrbach, A. (2025). DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts. arXiv preprint arXiv:2412.10510.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen