KI für Ihr Unternehmen – Jetzt Demo buchen

Effiziente Videoanalyse durch Codec-Primitive in neuen Video Language Models

Kategorien:
No items found.
Freigegeben:
February 16, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Video Language Models (VideoLMs) stehen vor Herausforderungen bei der Verarbeitung langer Videosequenzen aufgrund der Kontextfensterbeschränkung und des hohen Rechenaufwands.
    • Ein neuer Ansatz nutzt Video-Codec-Primitive (Bewegungsvektoren und Residuen) anstelle der vollständigen Bildkodierung, um die Effizienz zu steigern.
    • Diese Methode, CoPE-VideoLM, reduziert die "time-to-first-token" (TTFT) um bis zu 86 % und den Token-Verbrauch um bis zu 93 %.
    • Trotz der reduzierten Token-Nutzung kann CoPE-VideoLM die Leistung bei 14 verschiedenen Video-Verständnis-Benchmarks beibehalten oder übertreffen.
    • Die Technik ermöglicht eine skalierbare Videoanalyse, insbesondere für Anwendungen, die schnelle Reaktionszeiten und die Verarbeitung langer Videos erfordern.

    Revolution in der Videoanalyse: Wie Codec-Primitive Video Language Models effizienter machen

    Die Verarbeitung und das Verständnis von Videodaten durch Künstliche Intelligenz (KI) stellen eine zentrale Herausforderung in der aktuellen Forschung dar. Video Language Models (VideoLMs) haben sich als leistungsstarke Werkzeuge etabliert, um temporale Dynamiken in Videos zu erfassen und menschenähnliche Interaktionen zu ermöglichen. Dennoch stoßen bestehende Methoden an Grenzen, insbesondere bei der effizienten Verarbeitung langer Videosequenzen. Eine neue Forschungsarbeit, die von einem Team unter Beteiligung von Sayan Deb Sarkar, Rémi Pautrat und weiteren Forschenden von Stanford University, Microsoft Spatial AI Lab und ETH Zürich veröffentlicht wurde, präsentiert einen innovativen Ansatz zur Überwindung dieser Beschränkungen.

    Herausforderungen bestehender VideoLM-Ansätze

    Herkömmliche VideoLMs, die auf der Stichprobenentnahme von Schlüsselbildern basieren, sind oft nicht in der Lage, sowohl makro- als auch mikro-temporale Details vollständig zu erfassen. Dies liegt an der spärlichen zeitlichen Abdeckung, die durch die Entnahme einzelner Frames entsteht. Des Weiteren führt die Verarbeitung vollständiger Bilder und deren Token für jeden Frame zu einem erheblichen Rechenaufwand. Dies begrenzt die Länge der Videos, die ein Modell verarbeiten kann, und führt zu hohen Latenzzeiten, insbesondere bei der Generierung des ersten Tokens (Time-to-First-Token, TTFT).

    Proprietäre Modelle wie Gemini oder GPT können zwar längere Videosequenzen verarbeiten, indem sie auf erweiterte Kontextfenster zurückgreifen. Open-Source-Modelle verfügen jedoch oft über ein deutlich kleineres Budget und sind somit in ihrer Fähigkeit, längere Videos zu analysieren, eingeschränkt. Die inhärente Redundanz zwischen aufeinanderfolgenden Frames, selbst bei reduzierter Framerate, macht die Verarbeitung jedes Frames als vollständiges Bild ineffizient.

    CoPE-VideoLM: Ein neuer, effizienter Ansatz

    Um diesen Einschränkungen entgegenzuwirken, schlagen die Forscher CoPE-VideoLM vor. Dieser Ansatz nutzt Video-Codec-Primitive – insbesondere Bewegungsvektoren und Residuen –, die Video-Redundanz und -Sparsität auf native Weise kodieren. Dies eliminiert die Notwendigkeit einer teuren vollständigen Bildkodierung für die meisten Frames. Die Kernidee besteht darin, die traditionelle dense RGB-Frame-Kodierung durch leichtgewichtige, strukturierte Repräsentationen zu ersetzen, die aus diesen Codec-Primitiven abgeleitet werden.

    Die Architektur von CoPE-VideoLM integriert spezielle, leichtgewichtige Transformer-basierte Encoder. Diese Encoder aggregieren die Codec-Primitive und richten ihre Repräsentationen an den Einbettungen von Bild-Encodern aus. Eine spezielle Vortrainingsstrategie beschleunigt dabei die Konvergenz während des End-to-End-Feintunings.

    Funktionsweise und Vorteile

    Das Framework von CoPE-VideoLM nutzt die „Group of Pictures“ (GOP)-Struktur von Video-Codecs. I-Frames (Intra-Frames), die vollständige Bilder darstellen, werden weiterhin von einem Standard-Vision-Encoder verarbeitet. P-Frames (Predictive Frames), die nur die Änderungen zum vorherigen Frame enthalten, werden jedoch nicht vollständig dekodiert. Stattdessen werden ihre Rohkomponenten – Bewegungsvektoren und Residuen – von einem sogenannten Delta-Encoder (Δ-Encoder) verarbeitet, um eine kleine Menge hochkompakter Δ-Tokens zu erzeugen.

    Dieser Ansatz bietet zwei wesentliche Vorteile:

    -

    Reduzierter Rechenaufwand: Die teure vollständige Bildkodierung wird für die meisten Frames vermieden.

    -

    Geringerer Token-Verbrauch: Aufgrund der sparsamen Natur der Primitive können deutlich weniger Token verwendet werden, was die TTFT erheblich reduziert.

    Die Möglichkeit, mehrere aufeinanderfolgende P-Frames zusammenzufassen, ermöglicht zudem einen flexiblen Kompromiss zwischen feinkörniger Repräsentation und der Gesamtzahl der Tokens. Dies ist besonders wertvoll für Anwendungen, die eine Balance zwischen zeitlicher Auflösung und Effizienz erfordern.

    Leistungsfähigkeit und Effizienz

    Die Leistungsfähigkeit von CoPE-VideoLM wurde umfassend evaluiert. Die Ergebnisse zeigen, dass der Ansatz die Time-to-First-Token (TTFT) um bis zu 86 % und den Token-Verbrauch um bis zu 93 % im Vergleich zu Standard-VideoLMs reduziert. Trotz dieser signifikanten Effizienzsteigerungen konnte die Leistung bei 14 verschiedenen Video-Verständnis-Benchmarks beibehalten oder sogar übertroffen werden. Diese Benchmarks umfassen Kategorien wie allgemeine Video-Frage-Antwort-Systeme, temporales Reasoning, Langform-Verständnis und räumliches Szenenverständnis.

    Vergleich mit aktuellen Ansätzen

    CoPE-VideoLM wurde mit einer breiten Palette von Open-Source- und proprietären VideoLMs verglichen. Im Bereich der allgemeinen Video-QA-Benchmarks erzielte das Modell trotz des Trainings auf einem kleineren Korpus wettbewerbsfähige oder überlegene Ergebnisse. Dies deutet darauf hin, dass die direkte Nutzung von Bewegungsvektoren und Residuen aus dem komprimierten Stream eine verbesserte zeitliche Abdeckung ermöglicht, ohne die räumliche Genauigkeit zu beeinträchtigen.

    Besonders hervorzuheben sind die Ergebnisse im Bereich des temporalen Reasonings. Auf Benchmarks wie TempCompass, TOMATO und CVRR-ES erreichte CoPE-VideoLM die höchste Genauigkeit unter allen Open-Source-Modellen. Dies bestätigt, dass die explizite Kodierung von Bewegungsvektoren und Residuen ein stärkeres temporales Signal liefert als die Verarbeitung dichter RGB-Frames.

    Auch bei Langform- und instruktionsfolgenden Benchmarks zeigte CoPE-VideoLM überzeugende Leistungen. Durch die Komprimierung von P-Frames in kompakte Δ-Tokens kann das Framework deutlich mehr temporale Inhalte innerhalb desselben Token-Budgets verarbeiten, was Aufgaben wie das Langform-Verständnis und die Befolgung komplexer Anweisungen direkt zugutekommt.

    Laufzeit- und Speichereffizienz

    Neben der Genauigkeit bietet CoPE-VideoLM erhebliche Effizienzgewinne bei der Inferenz. Die TTFT und die End-to-End-Latenz (E2EL) für die Generierung von 64 Text-Tokens konnten drastisch reduziert werden. Im kompaktesten Fall (ein Schlüsselbild pro GOP) wurde eine Reduzierung der TTFT um 86,2 % und eine 56,01 % schnellere E2EL im Vergleich zu einem Standard-VideoLM erreicht. Diese Verbesserung resultiert aus der reduzierten Last der visuellen Einbettung und der kürzeren Gesamtsequenzlänge, die vom LLM verarbeitet wird.

    Die Skalierbarkeit des Rechenvorteils der Δ-Token-Formulierung ist ebenfalls bemerkenswert. Während das Standard-RGB-Sampling schnell an Speichergrenzen stößt, ermöglicht CoPE-VideoLM die Verarbeitung von Videos mit einer Länge von bis zu 8 Stunden (bei 1 FPS) innerhalb eines 1M-Token-Kontexts, was eine Erhöhung der Verarbeitungskapazität um eine Größenordnung gegenüber der Baseline darstellt.

    Fazit und Ausblick

    Die Forschungsergebnisse unterstreichen, dass die codec-bewusste Tokenisierung eine vielversprechende Alternative zur traditionellen Schlüsselbild-Sampling für VideoLMs darstellt. Durch die Nutzung der nativ in Videokompressionsalgorithmen kodierten Informationen (Bewegungsvektoren und Residuen) können erhebliche Effizienzgewinne erzielt werden, ohne die Leistung zu beeinträchtigen. Die Reduzierung der Time-to-First-Token auf bis zu 0,33 Sekunden ist für Echtzeitanwendungen von entscheidender Bedeutung.

    Mit der zunehmenden Größe von Kontextfenstern in KI-Modellen wird dieser Ansatz immer wertvoller, da er reichhaltigere temporale Repräsentationen mit deutlich geringerem Rechenaufwand ermöglicht. Diese Arbeit eröffnet neue Wege für das Videoverständnis und positioniert Codec-basierte Methoden als praktische und effiziente Grundlage für zukünftige VideoLMs. Zukünftige Arbeiten könnten die Integration von B-Frames, die direkte Verarbeitung roher Codec-Primitive und adaptive P-Frame-Fusionsfenster untersuchen, um die Effizienz und Detailgenauigkeit weiter zu optimieren.

    Bibliographie

    - Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu. (2026). CoPE-VideoLM: Codec Primitives For Efficient Video Language Models. arXiv preprint arXiv:2602.13191. - Microsoft - Hugging Face. (2026). Verfügbar unter: https://huggingface.co/microsoft/papers - alphaxiv.org. (o. D.). Explore. Verfügbar unter: https://alphaxiv.org/ - ChatPaper. (o. D.). Explore and AI Chat with the Academic Papers. Verfügbar unter: https://chatpaper.com/chatpaper?date=1771171200&id=4&page=1 - Sayan Deb Sarkar. (o. D.). Resume. Verfügbar unter: https://sayands.github.io/data/Resume_SayanDebSarkar.pdf - Xuyang Liu, Yiyu Wang, Junpeng Ma, Linfeng Zhang. (2025). Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models. arXiv preprint arXiv:2505.14454. - Jinwoo Hwang, Daeun Kim, Sangyeop Lee, Yoonsung Kim, Guseul Heo, Hojoon Kim, Yunseok Jeong, Tadiwos Meaza, Eunhyeok Park, Jeongseob Ahn, Jongse Park. (2025). Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse. arXiv preprint arXiv:2506.14107. - Yiyang Huang, Yizhou Wang, Yun Fu. (2025). D-CoDe: Scaling Image-Pretrained VLMs to Video via Dynamic Compression and Question Decomposition. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 11798–11811.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen