Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, komplexe Sachverhalte zu verstehen und zu verarbeiten, ist ein zentraler Forschungsbereich. Insbesondere im Bereich der multimodalen Daten, wie zum Beispiel langen Videos, stehen aktuelle Modelle vor erheblichen Herausforderungen. Eine kürzlich vorgestellte Entwicklung, das REVISOR-Framework, verspricht hier einen signifikanten Fortschritt, indem es einen neuartigen Ansatz zur multimodalen Reflexion für das Verständnis langer Videos einführt. Dieses Framework, das von einem Forschungsteam um Jiaze Li entwickelt wurde, adressiert die Grenzen rein textbasierter Reflexionsmechanismen und erweitert die Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) erheblich.
Multimodale Aufgaben, die eine Kombination aus visuellen und textuellen Informationen erfordern, sind vielfältig und reichen von der Interpretation wissenschaftlicher Diagramme bis hin zur Lösung komplexer Bild-Sprach-Verständnisaufgaben. Traditionelle Selbstreflexionsmechanismen, die sich primär auf textbasierte Überarbeitungsprozesse stützen, haben sich in vielen dieser Bereiche als effektiv erwiesen. Bei der Anwendung auf das Verständnis von Langzeitvideos zeigen sich jedoch deutliche Limitationen. Diese Einschränkungen lassen sich primär auf zwei Faktoren zurückführen:
Experimente haben gezeigt, dass selbst etablierte textbasierte Reflexionsansätze wie VL-Rethinker bei der Anwendung auf Langzeitvideos eine deutliche Leistungsminderung erfahren können. Dies unterstreicht die Notwendigkeit einer spezifischen Anpassung der Reflexionsstrategien an die Besonderheiten visueller Langzeitdaten.
Das REVISOR-Framework (REflective VIsual Segment Oriented Reasoning) wurde entwickelt, um diese Lücke zu schließen. Es handelt sich um ein neuartiges zweistufiges Denkrahmenwerk, das eine werkzeuggestützte multimodale Reflexion nutzt. REVISOR ermöglicht es MLLMs, introspektive Reflexionsprozesse kollaborativ über textuelle und visuelle Modalitäten hinweg aufzubauen, wodurch ihre Argumentationsfähigkeit für das Verständnis langer Videos signifikant verbessert wird.
Der Prozess innerhalb des REVISOR-Frameworks gliedert sich in zwei Hauptphasen:
Dieser iterative Ansatz spiegelt die Arbeitsweise menschlicher Experten wider, die zunächst einen Überblick gewinnen und anschließend kritische Beweise fokussiert prüfen, bevor sie zu einer endgültigen Schlussfolgerung gelangen.
Ein Schlüsselelement für den Erfolg von REVISOR ist der Dual Attribution Decoupled Reward (DADR)-Mechanismus. Bei der Anwendung von Reinforcement Learning (RL) zur Optimierung von MLLMs kann eine rein auf der Korrektheit der Endantwort basierende Belohnung unzureichend sein, insbesondere bei komplexen multimodalen Aufgaben. Der DADR-Mechanismus zerlegt die Belohnung in zwei Komponenten:
Die Integration des DADR-Mechanismus in die GRPO-Trainingsstrategie stellt sicher, dass REVISOR lernt, die für die Frage relevantesten Videosegmente während des Reflexionsprozesses präzise zu lokalisieren und zu nutzen. Ohne CSSR würde das Modell Schwierigkeiten haben, die richtigen Überprüfungssegmente aus den spärlichen Belohnungssignalen zu lernen, was zu einer verminderten Leistung führen könnte.
Die Wirksamkeit des REVISOR-Frameworks wurde auf vier etablierten Benchmarks für das Verständnis langer Videos evaluiert: VideoMME, LongVideoBench, MLVU und LVBench. Die Ergebnisse zeigen, dass REVISOR die durchschnittliche Genauigkeit des Basismodells (Qwen2.5-VL-7B) um etwa 2 % steigert. Besonders hervorzuheben ist die Leistungssteigerung von 2,8 % auf dem "Long"-Subset von VideoMME und 2,5 % auf MLVU, das Videos mit einer Dauer von bis zu 120 Minuten enthält. Dies deutet darauf hin, dass die Bedeutung einer genauen Überprüfung relevanter Videoinhalte mit zunehmender Videodauer steigt.
Im Vergleich zu rein textbasierten Ansätzen, wie Video-R1 oder VL-Rethinker, erzielt REVISOR Verbesserungen von 4,3 % bzw. 3,6 %, was die Notwendigkeit und den Nutzen der visuellen Neubetrachtung unterstreicht. Darüber hinaus zeigte das Framework auch bei der temporalen Video-Grounding-Aufgabe, bei der es darum geht, präzise Zeitintervalle in Videos zu identifizieren, signifikante Leistungssteigerungen.
Umfassende Ablationsstudien haben die Bedeutung der einzelnen Komponenten von REVISOR bestätigt:
Das REVISOR-Framework stellt einen bedeutenden Fortschritt im Bereich des Langzeit-Videoverständnisses dar, indem es die Limitationen rein textbasierter Reflexionsmechanismen überwindet. Durch die Einführung eines werkzeuggestützten multimodalen Reflexionsprozesses und des Dual Attribution Decoupled Reward (DADR)-Mechanismus ermöglicht REVISOR MLLMs, visuelle Informationen effektiver zu integrieren und präzisere Schlussfolgerungen aus komplexen und dynamischen Videoinhalten zu ziehen. Die erzielten Leistungssteigerungen auf verschiedenen Benchmarks bestätigen die Wirksamkeit dieses Ansatzes und unterstreichen das Potenzial für zukünftige Anwendungen in der multimodalen KI.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen