Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz (KI) wird zunehmend von Multimodalen Large Language Models (MLLMs) geprägt, die in der Lage sind, Informationen aus verschiedenen Quellen wie Text, Bildern, Audio und Video zu verarbeiten und zu interpretieren. Diese Modelle finden Anwendung in komplexen realen Aufgaben, die mehrstufige Schlussfolgerungen und die Generierung langer Inhalte erfordern. Eine zentrale Herausforderung für die Zuverlässigkeit dieser Systeme ist jedoch die Fähigkeit, ihre Ausgaben präzise auf die ursprünglichen, heterogenen Eingabequellen zurückzuführen und einzelne faktische Behauptungen zu überprüfen. Dies wird als faktengestützte Attribution bezeichnet und ist entscheidend für die Glaubwürdigkeit und Verifizierbarkeit von KI-generierten Inhalten.
Bestehende Benchmarks und Bewertungsmethoden für multimodales Grounding konzentrieren sich oft auf vereinfachte, beobachtungsbasierte Szenarien oder sind auf einzelne Modalitäten beschränkt. Sie reichen nicht aus, um die Attributionsfähigkeit von MLLMs in komplexen multimodalen Argumentationsprozessen umfassend zu bewerten. Dies führt dazu, dass die internen Argumentationsschritte der Modelle oft undurchsichtig bleiben und die Nachvollziehbarkeit der generierten Fakten erschwert wird. Ein Mangel an präziser Attribution kann zu sogenannten "Halluzinationen" führen, bei denen Modelle Zitate generieren, die nicht durch die bereitgestellten Beweismittel gestützt werden, selbst wenn die Schlussfolgerungen an sich korrekt erscheinen.
Um dieser Lücke zu begegnen, wurde MuRGAt (Multimodal Reasoning with Grounded Attribution) eingeführt. MuRGAt ist ein Benchmark, der speziell dafür entwickelt wurde, die faktengestützte multimodale Attribution in Szenarien zu bewerten, die über direkte Beobachtungen hinausgehen und komplexe Schlussfolgerungen erfordern. Der Benchmark stellt MLLMs vor die Aufgabe, Antworten zu generieren, die sowohl explizite Argumentationen als auch präzise Zitationen enthalten. Jede Zitation muss dabei sowohl die Modalität als auch die zeitlichen Segmente der Originalquelle genau angeben.
Die Anforderungen von MuRGAt sind weitreichend und spiegeln die Komplexität realer Anwendungsfälle wider. Die Modelle müssen nicht nur korrekte Antworten liefern, sondern auch nachvollziehbar darlegen, wie sie zu diesen Antworten gelangt sind. Dies umfasst:
Ein wesentlicher Bestandteil von MuRGAt ist ein neuartiges automatisches Bewertungsframework. Dieses Framework wurde entwickelt, um eine hohe Korrelation mit menschlichen Urteilen zu erreichen und somit eine zuverlässige und skalierbare Bewertung der Attributionsqualität zu ermöglichen. Das System zerlegt die Antworten in atomare Fakten, extrahiert die Zitationen und berechnet Verifizierungs-Scores.
Die Bewertung erfolgt anhand eines dreiteiligen Protokolls zur Berechnung des MURGAT-SCORE:
Das automatisierte Framework verwendet führende MLLMs als "Richter". Beispielsweise wird Gemini-3-Pro für die Identifizierung verifizierbarer Behauptungen und die Zerlegung in atomare Fakten eingesetzt, während Gemini-2.5-Flash für die Attributions-Entailment verwendet wird, um ein Gleichgewicht zwischen Leistung und Kosten zu finden. Diese Automatisierung ist entscheidend, um den hohen Aufwand manueller Bewertungen zu umgehen und eine breitere Forschung zu ermöglichen.
Erste Benchmarking-Studien mit führenden MLLMs, darunter Gemini-Modelle und Qwen-Omni-Varianten, auf Datensätzen wie WorldSense und Video-MMMU, haben wichtige Erkenntnisse geliefert:
Der MURGAT-SCORE, eine ganzheitliche Messgröße, skaliert die Attributionsqualität nach der Abdeckung und bestraft Modelle, die spärliche oder unvollständige Fundierungen liefern. Diese Erkenntnisse zeigen, dass trotz beeindruckender Fortschritte in den Argumentationsfähigkeiten von MLLMs noch erhebliche Forschungs- und Entwicklungsarbeit erforderlich ist, um Modelle zu schaffen, die sowohl genau als auch vertrauenswürdig sind, indem sie ihre Ausgaben präzise auf die Quellen zurückführen können.
Die Einführung von MuRGAt markiert einen wichtigen Schritt in der Entwicklung von vertrauenswürdiger KI. Die Herausforderungen, die MuRGAt aufzeigt, betonen die Notwendigkeit, Modelle zu entwickeln, die nicht nur in der Lage sind, komplexe Schlussfolgerungen zu ziehen, sondern diese auch transparent und nachvollziehbar zu untermauern. Zukünftige Forschung sollte sich darauf konzentrieren, die Lücke zwischen den internen Argumentationsprozessen von MLLMs und ihrer Fähigkeit zur faktengestützten Attribution zu schließen. Dies könnte die Entwicklung neuer Architekturen, Trainingsstrategien und Bewertungsmetriken umfassen, die die Verifizierbarkeit als Kernkriterium für die Modellleistung integrieren.
Für Unternehmen im B2B-Bereich, die auf KI-Lösungen angewiesen sind, ist die Verifizierbarkeit von KI-generierten Inhalten von größter Bedeutung. Sie beeinflusst die Entscheidungsfindung, die Compliance und das Vertrauen der Nutzer. Die Fortschritte in der faktengestützten Attribution werden daher eine Schlüsselrolle bei der Akzeptanz und dem erfolgreichen Einsatz multimodaler KI-Systeme in kritischen Geschäftsanwendungen spielen.
Die Forschung in diesem Bereich ist dynamisch. Weitere Studien befassen sich mit ähnlichen Themen wie der multimodalen Quellenattribution in Langform-Visual-Question-Answering (MAVIS) und der überprüfbaren Verifizierung von Behauptungen auf Textebene durch Wissensgraphen (ClaimVer). Diese Bemühungen tragen dazu bei, die Transparenz und Zuverlässigkeit von KI-Systemen kontinuierlich zu verbessern.
Bibliography: - Wan, D., Wang, H., Wang, Z., Stengel-Eskin, E., Lee, H., & Bansal, M. (2026). Multimodal Fact-Level Attribution for Verifiable Reasoning. arXiv preprint arXiv:2602.11509. - Github Repository: meetdavidwan/murgat. (o. J.). Abrufbar unter: https://github.com/meetdavidwan/murgat - TheMoonlight.io. (o. J.). [Literature Review] Multimodal Fact-Level Attribution for Verifiable Reasoning. Abrufbar unter: https://www.themoonlight.io/en/review/multimodal-fact-level-attribution-for-verifiable-reasoning - Hugging Face. (o. J.). Daily Papers. Abrufbar unter: https://huggingface.co/papers?q=multimodal+reasoning - Song, S., Park, M., & Kim, G. (2025). MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering. arXiv preprint arXiv:2511.12142. - Dammu, P. P. S., Naidu, H., Dewan, M., Kim, Y., Roosta, T., Chadha, A., & Shah, C. (2024). ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs. arXiv preprint arXiv:2403.09724. - Marinescu, R., Bhattacharjya, D., Lee, J., Tchrakian, T., Cano, J. C., Hou, Y., Daly, E., & Pascale, A. (2025). FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models. arXiv preprint arXiv:2502.18573. - Hossain, S. (2025). Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models. arXiv preprint arXiv:2511.20531. - Braun, T., Rothermel, M., Rohrbach, M., & Rohrbach, A. (2025). DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts. arXiv preprint arXiv:2412.10510.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen