NVIDIA präsentiert neues Framework zur Generierung zeitlich verankerter Video-MCQs mit komplexen Begründungen

Kategorien:

No items found.

Freigegeben:

March 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA hat ein neues Framework namens "Long Grounded Thoughts" veröffentlicht, das die Generierung von 196.000 zeitlich verankerten Video-MCQs mit "Chain-of-Thought"-Begründungen ermöglicht.
Dieses Framework zielt darauf ab, multimodale Modelle zu trainieren, die komplexe visuelle Zusammenhänge erkennen und logische Schlussfolgerungen ziehen können.
"Long Grounded Thoughts" nutzt eine mehrstufige Pipeline, die Videoereignisse extrahiert, ereignisbasierte MCQs generiert und anschließend einfache sowie erweiterte Begründungsketten (CoTs) erstellt.
Ein zentraler Aspekt ist die "Event-Aware CoT"-Generierung, die temporale Beweise in die Begründungsketten integriert, um die Genauigkeit zu erhöhen.
Die entwickelten Datensätze und Methoden zeigen eine verbesserte Leistung bei vision-zentrierten Benchmarks und positive Transfer-Effekte auf text- und audiobasierte Aufgaben.
Das Framework ist auf Skalierbarkeit, Komplexität und die Reichhaltigkeit der Begründungsspuren ausgelegt und übertrifft bestehende Open-Data-Baselines.

Als Senior Specialist Journalist und Analyst für Mindverse freue ich mich, Ihnen heute tiefere Einblicke in eine aktuelle Entwicklung im Bereich der Künstlichen Intelligenz zu geben. NVIDIA, ein führendes Unternehmen in der KI-Forschung, hat ein innovatives Framework namens "Long Grounded Thoughts" vorgestellt, das eine signifikante Weiterentwicklung im Training multimodaler Modelle darstellt. Dieses Framework ermöglicht die Generierung von 196.000 zeitlich verankerten Multiple-Choice-Fragen (MCQs) aus Videodaten, ergänzt durch detaillierte "Chain-of-Thought"-Begründungen (CoTs). Diese Entwicklung hat das Potenzial, die Art und Weise, wie KI-Modelle visuelle Informationen verarbeiten und daraus schlussfolgern, grundlegend zu verändern.

Die Herausforderung des multimodalen Denkens

Multimodale Modelle, die sowohl visuelle als auch textuelle Informationen verarbeiten können, sind ein zentrales Forschungsfeld in der KI. Die Fähigkeit, komplexe visuelle Szenarien zu verstehen, zeitliche Abhängigkeiten zu erkennen und kohärente logische Schlussfolgerungen zu ziehen, ist entscheidend für den Fortschritt in Bereichen wie Robotik, autonomen Systemen und der allgemeinen intelligenten Interaktion. Bislang fehlte es jedoch an systematischen Ansätzen zur Erstellung großer, qualitativ hochwertiger und vor allem vision-zentrierter Datensätze, die über einfache visuelle Mathematik hinausgehen.

Bestehende Ansätze zur Generierung von Reasoning-Datensätzen waren oft entweder in ihrem Umfang begrenzt oder auf spezifische, weniger komplexe Aufgaben zugeschnitten. Die Synthese langer Begründungsketten mit komplexen Strukturen, die beispielsweise Überprüfung, Rückverfolgung oder die Definition von Unterzielen umfassen, stellte eine besondere Herausforderung dar. Hier setzt "Long Grounded Thoughts" an und versucht, diese Lücke zu schließen.

"Long Grounded Thoughts": Ein detaillierter Blick auf die Pipeline

Das von NVIDIA entwickelte Framework ist als mehrstufige Pipeline konzipiert, die darauf abzielt, die Qualität und Komplexität der generierten Daten zu maximieren. Die Kernschritte lassen sich wie folgt zusammenfassen:

Phase 0: Videoereignis-Extraktion (Observe)

In dieser initialen Phase werden strukturierte temporale Metadaten aus den Videodaten extrahiert. Dies umfasst:

Sprachtranskription: Mithilfe von Modellen wie Whisper large-v3 werden Dialoge transkribiert und mit Zeitstempeln sowie Spracherkennung versehen. Ein Mechanismus zur Filterung von Halluzinationen stellt sicher, dass nur relevante Sprachsegmente berücksichtigt werden.
Szenengrenzen: Tools wie PySceneDetect identifizieren und markieren Schnittpunkte zwischen verschiedenen Szenen im Video.
Bewegungsanalyse: Die Analyse von Frame-Differenzen liefert Informationen über das Aktivitätsniveau in verschiedenen Videosegmenten.

Diese Metadaten bilden die Grundlage für die spätere, ereignisbasierte Fragengenerierung.

Phase 1: MCQ-Generierung (Ask)

Aufbauend auf den extrahierten Metadaten werden hier Multiple-Choice-Fragen generiert. Es gibt zwei Hauptaktionen:

Generierung neuer MCQs: Neue Fragen werden direkt aus den Ereignismetadaten und Videobildern erstellt.
Umschreibung bestehender MCQs: Vorhandene Fragen werden durch die Integration temporaler Verankerung verbessert.

Ein besonderes Augenmerk liegt auf der Diversität der Fragen. Pro Video werden verschiedene Fragetypen erzwungen, darunter Fragen zur zeitlichen Abfolge, zur Sprach-Bild-Ausrichtung, zu Szenenübergängen, Ursache-Wirkungs-Beziehungen, Zustandsänderungen und audiovisuellen Zusammenhängen. Dies stellt sicher, dass die Modelle ein breites Spektrum an visuellen Reasoning-Fähigkeiten trainieren.

Phase 2: Einfache CoT-Generierung (Think)

In dieser Phase werden erste, einfache "Chain-of-Thought"-Begründungen für die generierten MCQs erstellt. Hierfür kommt beispielsweise das Modell Qwen2.5-VL-Instruct zum Einsatz, das pro MCQ bis zu zehn Begründungen liefert.

Phase 3: Erweiterte CoT-Generierung (Think More)

Die einfachen CoTs werden in dieser Phase durch den Einsatz leistungsstärkerer LLMs wie DeepSeek-R1-Distilled-Qwen-32B erweitert. Dies führt zu tiefergehenden und komplexeren Begründungsketten.

Phase 4: Ereignis-bewusste CoT-Generierung (Ground)

Diese Phase ist entscheidend für die Qualität der Begründungen. Hier werden die in Phase 0 extrahierten Videoereignis-Metadaten direkt in die Begründungsketten integriert. Das bedeutet, dass die Modelle lernen, ihre Schlussfolgerungen explizit auf temporale Beweise aus dem Video zu stützen. Beispielsweise wird bei einer Frage nach einer Aktion im Video nicht nur eine textuelle Begründung geliefert, sondern auch auf den genauen Zeitpunkt und das entsprechende Ereignis im Video verwiesen (z.B. "Sprache: 5.2s-6.8s: 'Salz hinzufügen'"). Dies erhöht die Nachvollziehbarkeit und Genauigkeit der Reasoning-Prozesse erheblich.

Skalierung und Komplexität

Das Framework wurde mit dem Ziel entwickelt, sowohl in Bezug auf die Datenmenge als auch auf die Komplexität der generierten Probleme zu skalieren. Es nutzt fünf verschiedene Videodatensätze (LLaVA-Video-178K, NExT-QA, CLEVRER, PE-Video, Ego4D) und generiert insgesamt 196.000 MCQs. Ein besonderer Ansatz zur Erhöhung der Diversität und Komplexität der Fragen ist die Verwendung von objektzentrierten Metadaten, wie Bounding Boxes und Objekt-Tags. Diese Informationen leiten das LLM an, Fragen zu spezifischen visuellen Elementen zu formulieren.

Um die Komplexität weiter zu steigern, werden in einem zweiten Schritt einfachere MCQs zu komplexeren, mehrstufigen Problemen zusammengeführt. Dies erfordert von den Modellen, die Probleme zu zerlegen und höherstufige Schlussfolgerungen zu ziehen. Die Generierung der Begründungsketten erfolgt ebenfalls in zwei Stufen: Zuerst werden CoTs von VLMs destilliert und anschließend mit Reasoning LLMs erweitert, um eine größere Tiefe und Reichhaltigkeit zu erzielen.

Leistung und Transfer-Lernen

Die Evaluation des finetuned Qwen2.5-VL-7B-Modells auf den generierten Daten zeigt signifikante Verbesserungen gegenüber bestehenden Open-Data-Baselines in verschiedenen vision-zentrierten Benchmarks wie V*Bench, CV-Bench und MMStar-V. Bemerkenswert ist, dass die besten Konfigurationen des Modells sogar starke Closed-Data-Modelle wie MiMo-VL-7B-RL übertreffen oder erreichen.

Ein weiterer wichtiger Befund ist der positive Transfer-Effekt auf andere Modalitäten. Obwohl die Daten ausschließlich vision-zentriert sind, zeigt das trainierte Modell Verbesserungen beim reinen Text-Reasoning (MMLU-Pro) und sogar beim Audio-Reasoning (MMAU). Auch bei der Bewertung von Open-Ended Embodied QA-Aufgaben sind deutliche Fortschritte zu verzeichnen. Dies deutet darauf hin, dass die komplexen Reasoning-Strukturen in den generierten Daten generalisierbare interne Repräsentationen fördern, die über die ursprüngliche Modalität hinaus wirksam sind.

Bedeutung für die B2B-Anwendung von KI

Für Unternehmen, die an der Implementierung fortschrittlicher KI-Lösungen interessiert sind, bietet "Long Grounded Thoughts" mehrere entscheidende Vorteile:

Verbesserte visuelle Intelligenz: Die Fähigkeit von KI-Modellen, komplexe Videos zu verstehen und fundierte Schlussfolgerungen zu ziehen, ist für Anwendungen in der Überwachung, Qualitätskontrolle, Robotik und autonomen Fahren von immenser Bedeutung.
Hochwertige synthetische Daten: Das Framework bietet einen skalierbaren Ansatz zur Generierung großer Mengen an qualitativ hochwertigen Trainingsdaten. Dies ist besonders wertvoll in Bereichen, in denen manuell annotierte Daten teuer oder schwer zu beschaffen sind.
Transparenz und Nachvollziehbarkeit: Die Integration von "Chain-of-Thought"-Begründungen mit temporalen Verankerungen ermöglicht es, die Entscheidungsprozesse der KI nachzuvollziehen. Dies ist entscheidend für Vertrauen und Akzeptanz in regulierten Branchen oder bei kritischen Anwendungen.
Effizienteres Modelltraining: Durch die Bereitstellung reichhaltigerer und komplexerer Trainingsdaten können Unternehmen effizientere und leistungsfähigere multimodale Modelle entwickeln, die weniger anfällig für Halluzinationen sind und eine höhere Generalisierungsfähigkeit aufweisen.
Cross-modale Fähigkeiten: Die beobachteten positiven Transfer-Effekte auf Text- und Audio-Reasoning eröffnen Möglichkeiten für die Entwicklung ganzheitlicherer KI-Systeme, die Informationen aus verschiedenen Quellen integrieren können.

Fazit und Ausblick

NVIDIAs "Long Grounded Thoughts" stellt einen bedeutenden Schritt in der Entwicklung multimodaler KI-Modelle dar. Durch die systematische Generierung von zeitlich verankerten Video-MCQs und detaillierten Begründungsketten wird eine neue Qualität von Trainingsdaten geschaffen. Dies ermöglicht es KI-Modellen, ein tieferes Verständnis für visuelle Zusammenhänge zu entwickeln und komplexere Reasoning-Aufgaben zu bewältigen. Die erzielten Leistungsverbesserungen und die Fähigkeit zum Transfer-Lernen unterstreichen das Potenzial dieses Ansatzes für eine Vielzahl von B2B-Anwendungen, die eine fortschrittliche visuelle Intelligenz erfordern. Die kontinuierliche Forschung in diesem Bereich wird voraussichtlich zu noch robusteren und vielseitigeren KI-Systemen führen, die die Grenzen dessen, was maschinelles Lernen leisten kann, weiter verschieben.

Bibliographie

Acuna, D., Yang, C.-H. H., Deng, Y., Jung, J., Lu, X., Ammanabrolu, P., ... & Choi, Y. (2025). Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale. arXiv preprint arXiv:2511.05705.
NVIDIA. Long Grounded Thoughts. Verfügbar unter: https://nvlabs.github.io/LongGroundedThoughts/ (Zuletzt abgerufen: 17. Mai 2025).
NVIDIA. nvidia/LongGroundedThoughts-video-datagen. Hugging Face Datasets. Verfügbar unter: https://huggingface.co/datasets/nvidia/LongGroundedThoughts-video-datagen (Zuletzt abgerufen: 17. Mai 2025).
Hugging Face. Daily Papers. Verfügbar unter: https://huggingface.co/papers/week/2025-W15, https://huggingface.co/papers?q=Multimodal+Large+Language+Models, https://huggingface.co/papers/month/2024-04 (Zuletzt abgerufen: 17. Mai 2025).
Chen, Y., Huang, W., Shi, B., Hu, Q., Ye, H., Zhu, L., ... & Han, S. (2025). Scaling RL to Long Videos. arXiv preprint arXiv:2507.07966.
NVIDIA Technical Blog. Curating Synthetic Datasets to Train Physical AI Models with NVIDIA Cosmos Reason. Verfügbar unter: https://developer.nvidia.com/blog/curating-synthetic-datasets-to-train-physical-ai-models-with-nvidia-cosmos-reason (Zuletzt abgerufen: 17. Mai 2025).
NVIDIA Research Taiwan. OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM. Verfügbar unter: https://research.nvidia.com/labs/twn/publication/iclr_2026_omnivinci/ (Zuletzt abgerufen: 17. Mai 2025).