KI für Ihr Unternehmen – Jetzt Demo buchen

Neues Framework VR-Thinker zur Optimierung multimodaler Reward-Modelle in der Videobewertung

Kategorien:
No items found.
Freigegeben:
October 17, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • VR-Thinker ist ein neues Framework, das die Leistungsfähigkeit von Video-Reward-Modellen durch visuelle Denkprozesse verbessert.
    • Es adressiert die Einschränkungen herkömmlicher Reward-Modelle, insbesondere den hohen Kontextverbrauch und das Risiko von Halluzinationen bei langen Videos.
    • Durch visuelle Denkoperationen und ein konfigurierbares visuelles Speicherfenster kann VR-Thinker relevante visuelle Informationen aktiv erfassen und aktualisieren.
    • Das Modell wird mittels eines dreistufigen Reinforcement-Fine-Tuning-Verfahrens trainiert: Cold Start, Rejection Sampling Fine-Tuning und Group Relative Policy Optimization (GRPO).
    • VR-Thinker erreicht auf verschiedenen Video-Präferenz-Benchmarks, insbesondere bei längeren Videos, eine hohe Genauigkeit und übertrifft offene Modelle.

    Revolutionierung der Videobewertungsmodelle: VR-Thinker und das Denken mit Bildern

    Die Fortschritte im Bereich der generativen visuellen Modelle sind beeindruckend. Ein zentraler Aspekt für deren Optimierung nach dem Training sind sogenannte multimodale Reward-Modelle (RMs). Diese Modelle bewerten die Qualität der generierten Inhalte und leiten die weiteren Lernprozesse. Aktuelle Ansätze stoßen jedoch bei der Verarbeitung von Videos, insbesondere längeren Sequenzen, an ihre Grenzen. Die Notwendigkeit, visuelle Eingaben in einem begrenzten Kontextbudget zu verarbeiten, führt oft zu einem Verlust feiner Details und kann bei komplexen Schlussfolgerungen zu Fehlinterpretationen oder „Halluzinationen“ führen. Ein neues Framework namens VideoReward Thinker (VR-Thinker) zielt darauf ab, diese Herausforderungen durch einen innovativen Ansatz zu überwinden: das „Denken mit Bildern“.

    Die Herausforderungen bestehender Multimodaler Reward-Modelle

    Bisherige multimodale Reward-Modelle stehen vor zwei wesentlichen Problemen:

    • Hoher Kontextverbrauch: Visuelle Daten sind ressourcenintensiv. Um Videos zu verarbeiten, müssen Modelle oft die Anzahl der Frames reduzieren, was unweigerlich zu einem Verlust an feinkörnigen Details führt, die für eine präzise Bewertung entscheidend sein könnten.
    • Halluzinationen und Vergessen: Wenn alle visuellen Informationen in einem einzigen anfänglichen Prompt gebündelt werden, kann dies während komplexer Denkketten (Chain-of-Thought Reasoning) zu verstärkten Halluzinationen und dem Vergessen relevanter Informationen führen. Das Modell hat Schwierigkeiten, sich über längere Zeiträume hinweg auf konsistente und korrekte visuelle Beweise zu stützen.

    VR-Thinker: Ein Framework für visuelles Denken

    VR-Thinker wurde entwickelt, um diese Einschränkungen zu überwinden. Es stattet das Reward-Modell mit visuellen Denkoperationen und einem konfigurierbaren visuellen Speicherfenster aus. Dies ermöglicht dem Modell, aktiv visuelle Beweise innerhalb der Kontextgrenzen zu erfassen und zu aktualisieren. Durch diese dynamische Interaktion mit den visuellen Informationen verbessert VR-Thinker die Genauigkeit und Zuverlässigkeit der Schlussfolgerungen erheblich.

    Der Trainingsansatz von VR-Thinker

    Die Aktivierung dieser visuellen Denkfähigkeiten erfolgt über eine mehrstufige Reinforcement-Fine-Tuning-Pipeline:

    1. Cold Start mit kuratierten visuellen Chain-of-Thought-Daten: In dieser ersten Phase werden grundlegende Denkfähigkeiten und die Formatierung der Operationen vermittelt. Das Modell lernt, wie es visuelle Informationen strukturiert verarbeiten und erste Schlussfolgerungen ziehen kann.
    2. Rejection Sampling Fine-Tuning auf hochwertigen Spuren: Anschließend werden Stichproben ausgewählt, deren Einzel- und Gesamtbewertungen korrekt sind. Auf diesen hochwertigen Daten wird ein Rejection Sampling Fine-Tuning durchgeführt, um die Denkprozesse weiter zu verfeinern und das Modell für präzise Bewertungen zu sensibilisieren.
    3. Group Relative Policy Optimization (GRPO): In der letzten Phase wird GRPO angewendet, um die Denkfähigkeit des Modells zu stärken. Diese Methode trägt dazu bei, die Konsistenz und Robustheit der Bewertungen über verschiedene Szenarien hinweg zu verbessern.

    Leistung und Implikationen

    Die Ergebnisse der Forschung zeigen, dass VR-Thinker eine hohe Genauigkeit unter den Open-Source-Modellen auf Video-Präferenz-Benchmarks erzielt, insbesondere bei längeren Videos. Ein VR-Thinker-Modell mit 7 Milliarden Parametern erreichte beispielsweise 80,5 % auf VideoGen Reward, 82,3 % auf GenAI-Bench und 75,6 % auf MJ-Bench-Video. Diese Zahlen belegen die Effektivität des Ansatzes und unterstreichen das Potenzial des „Denkens mit Bildern“ für die multimodale Reward-Modellierung.

    Für Unternehmen, die im Bereich der KI-gestützten Content-Erstellung und -Optimierung tätig sind, wie Mindverse, bedeuten diese Entwicklungen eine wichtige Weiterentwicklung. Die Fähigkeit, Videos präziser zu bewerten und die Qualität generierter visueller Inhalte zuverlässiger zu steuern, kann direkt in die Verbesserung von KI-Tools einfließen. Dies ermöglicht die Erstellung von noch hochwertigeren, relevanteren und ansprechenderen Videoinhalten, was für B2B-Anwendungen von entscheidender Bedeutung ist.

    Die Forschung hinter VR-Thinker zeigt einen vielversprechenden Weg auf, wie die Grenzen aktueller multimodaler Reward-Modelle überwunden werden können, indem man den Modellen nicht nur die Fähigkeit zur Beobachtung, sondern auch zur aktiven Interaktion und zum Nachdenken über visuelle Informationen verleiht. Dies ist ein wichtiger Schritt hin zu intelligenteren und autonomeren KI-Systemen im Bereich der visuellen Generierung und Analyse.

    Bibliography

    - Wang, Qunzhong, et al. "VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning." arXiv preprint arXiv:2510.10518 (2025). - Hugging Face Papers. "Daily Papers." [https://huggingface.co/papers](https://huggingface.co/papers) (Accessed October 17, 2025). - JLZhong23. "awesome-reward-models." GitHub. [https://github.com/JLZhong23/awesome-reward-models](https://github.com/JLZhong23/awesome-reward-models) (Accessed February 18, 2025).

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen