Große Multimodale Modelle (LMMs) haben in Aufgaben des Kurzvideoverständnisses beeindruckende Leistungen gezeigt, stehen aber vor großen Herausforderungen, wenn sie auf das Verständnis langer Videos angewendet werden. Im Gegensatz dazu weisen große Sprachmodelle (LLMs) herausragende Fähigkeiten bei der Modellierung langer Texte auf. Bestehende Arbeiten versuchen, dieses Problem zu beheben, indem sie während des Trainings lange Video-Text-Paare einführen. Diese Ansätze erfordern jedoch erhebliche Rechen- und Datenressourcen. In diesem Artikel befassen wir uns mit der Herausforderung des Verständnisses langer Videos aus der Perspektive von Kontextfenstern, mit dem Ziel, LMMs auf Aufgaben des Langvideoverständnisses anzuwenden, ohne sie mit langen Videodatensätzen neu trainieren zu müssen.
Zunächst führen wir eine eingehende Analyse durch, warum vortrainierte LMMs Schwierigkeiten haben, lange Videoinhalte zu verstehen, und stellen fest, dass Diskrepanzen zwischen visuellen und sprachlichen Modalitäten zu unterschiedlichen Kontextfenstern für visuelle und sprachliche Token führen, was es schwierig macht, die visuellen Token direkt zu erweitern, um sie an das sprachliche Kontextfenster anzupassen.
Auf dieser Grundlage schlagen wir vor, LMMs für Aufgaben des Langvideoverständnisses anzupassen, indem wir das visuelle Kontextfenster erweitern, wodurch die Notwendigkeit entfällt, mit großen langen Videodatensätzen neu zu trainieren. Um den erheblichen Speicherverbrauch durch lange Sequenzen weiter zu reduzieren, führen wir eine progressive Pooling-Inferenzstrategie ein, die die räumliche Auflösung von Frame-Einbettungen selektiv anpasst, wodurch die Anzahl der visuellen Token reduziert und gleichzeitig wichtige räumliche Informationen erhalten bleiben.
In mehreren Benchmarks für das Verständnis langer Videos verbessert unsere Methode die Leistung konsequent mit zunehmender Anzahl von Videoframes. Im MLVU-Benchmark übertrifft unsere Methode GPT-4o, obwohl unsere Modellgröße nur 7B beträgt. Darüber hinaus reduziert unsere Methode in der 256-Frame-Einstellung die Speichernutzung im Vergleich zur Basislinie um etwa 45%, ohne dass es zu Leistungseinbußen kommt.
## Die Herausforderung des Langvideoverständnisses
LMMs haben sich bei Aufgaben, die das Verständnis kurzer Videos erfordern, als äußerst effektiv erwiesen. Sie stoßen jedoch auf erhebliche Schwierigkeiten, wenn es um das Verständnis längerer Videos geht. Dies steht im Gegensatz zu LLMs, die sich bei der Modellierung umfangreicher Texte auszeichnen. Bisherige Bemühungen, dieses Problem anzugehen, konzentrierten sich auf die Einbeziehung langer Video-Text-Paare in den Trainingsprozess. Solche Ansätze erfordern jedoch einen immensen Rechenaufwand und umfangreiche Datenmengen.
## Kontextfenster: Ein neuer Blickwinkel
Dieser Artikel beleuchtet das Problem des Langvideoverständnisses aus der Perspektive der Kontextfenster. Unser Ziel ist es, LMMs für Aufgaben im Zusammenhang mit langen Videos nutzbar zu machen, ohne dass ein vollständiges Neutraining mit umfangreichen Datensätzen für lange Videos erforderlich ist.
## Analyse der Herausforderungen
Unsere Untersuchung hat ergeben, dass vortrainierte LMMs aufgrund von Diskrepanzen zwischen visuellen und sprachlichen Modalitäten Schwierigkeiten haben, lange Videos zu verstehen. Diese Diskrepanzen führen zu unterschiedlichen Kontextfenstern für visuelle und sprachliche Token. Daher ist eine einfache Erweiterung der visuellen Token, um sie an das sprachliche Kontextfenster anzupassen, nicht praktikabel.
## Unser Ansatz: Erweiterung des visuellen Kontextfensters
Um dieses Problem zu lösen, schlagen wir vor, das visuelle Kontextfenster von LMMs zu erweitern. Dieser Ansatz ermöglicht es, LMMs, die ursprünglich für kurze Videos trainiert wurden, für Aufgaben des Langvideoverständnisses einzusetzen, ohne dass ein erneutes Finetuning erforderlich ist.
## Progressive Pooling-Strategie
Um den hohen Speicherbedarf durch lange Sequenzen zu minimieren, führen wir eine progressive Pooling-Strategie ein. Diese Strategie passt die räumliche Auflösung von Frame-Einbettungen dynamisch an, wodurch die Anzahl der visuellen Token reduziert wird, ohne dass wichtige räumliche Informationen verloren gehen.
## Ergebnisse und Vorteile
Unsere Methode wurde anhand mehrerer Benchmarks für das Verständnis langer Videos bewertet. Die Ergebnisse zeigen, dass unsere Methode die Leistung konsistent verbessert, wenn die Anzahl der Videoframes zunimmt. Insbesondere übertrifft unsere Methode im MLVU-Benchmark GPT-4o, obwohl unsere Modellgröße deutlich kleiner ist (7B). Darüber hinaus konnten wir in einer 256-Frame-Einstellung den Speicherbedarf im Vergleich zur Baseline um etwa 45 % reduzieren, ohne dass dies zu Lasten der Leistung ging.
## Fazit
Zusammenfassend lässt sich sagen, dass dieser Artikel einen neuen Ansatz für das Verständnis langer Videos durch Erweiterung des visuellen Kontextfensters bietet. Unsere Methode ermöglicht es, bestehende LMMs effektiv auf lange Videos anzuwenden, ohne dass ein ressourcenintensives Training von Grund auf erforderlich ist. Die Einführung der progressiven Pooling-Strategie behebt außerdem Bedenken hinsichtlich des Speicherverbrauchs. Wir sind davon überzeugt, dass diese Arbeit die Forschung im Bereich des Langvideoverständnisses voranbringen und wertvolle Erkenntnisse für die Entwicklung zukünftiger Modelle liefern wird.
## Bibliographie
- https://www.arxiv.org/abs/2409.20018
- https://www.arxiv.org/pdf/2409.20018
- https://paperreading.club/page?id=255406
- https://huggingface.co/papers
- https://openreview.net/pdf?id=NaldExCoyW
- https://www.researchgate.net/publication/384266587_Video-XL_Extra-Long_Vision-Language_Model_for_Hour-Scale_Video_Understanding/download
- https://cvpr.thecvf.com/Conferences/2024/AcceptedPapers
- https://deepcast.fm/episode/iclr-2024-best-papers-talks-imagegen-vision-transformers-state-space-models-and-other-learning-representations-ft-christian-szegedy-ilya-sutskever-durk-kingma
- https://aclanthology.org/volumes/2024.acl-long/
- https://github.com/52CV/CVPR-2024-Papers