Die detaillierte Beschreibung von Videos, also die Generierung umfassender und kohärenter Textbeschreibungen von Videoinhalten, gewinnt in der künstlichen Intelligenz (KI) zunehmend an Bedeutung. Diese Technologie birgt großes Potenzial für verschiedene Anwendungsbereiche, darunter Videoverständnis, -generierung und verbesserte Mensch-Maschine-Interaktion. Ein Forschungsteam hat nun mit AuroraCap ein vielversprechendes System zur detaillierten Videobeschreibung vorgestellt und gleichzeitig einen neuen Benchmark für die Evaluierung solcher Systeme entwickelt.
Die detaillierte Videobeschreibung stellt die KI vor komplexe Herausforderungen. Anders als bei der Bildbeschreibung, die sich auf statische Inhalte konzentriert, müssen Videos in ihrer zeitlichen Abfolge und den darin ablaufenden Aktionen erfasst werden. Herkömmliche Modelle, die Videos lediglich als Abfolge von Einzelbildern betrachten, stoßen dabei schnell an ihre Grenzen. Sie kämpfen mit hohem Rechenaufwand und der Schwierigkeit, die zeitlichen Zusammenhänge in längeren Videosequenzen adäquat zu erfassen.
AuroraCap nutzt als Basis große, multimodale Sprachmodelle (LMMs), die sowohl Text- als auch Bilddaten verarbeiten können. Diese Modelle wurden ursprünglich für die Bildbeschreibung entwickelt und erreichen bereits beeindruckende Ergebnisse. Das Besondere an AuroraCap ist die effiziente Anpassung dieser Modelle an die Videobeschreibung, ohne dabei zusätzliche Parameter für die zeitliche Modellierung einzuführen. Um den Rechenaufwand zu reduzieren, kommt die sogenannte "Token Merging"-Strategie zum Einsatz. Dabei werden ähnliche Bildmerkmale (Tokens) in einem Transformer-Layer schrittweise zusammengefasst, wodurch die Anzahl der zu verarbeitenden Informationen reduziert wird. Überraschenderweise führt diese Strategie zu keinem nennenswerten Leistungsverlust. Im Gegenteil: AuroraCap zeigt in verschiedenen Benchmarks, wie beispielsweise Flickr30k, eine herausragende Leistung und übertrifft dabei sogar etablierte Modelle wie GPT-4V und Gemini-1.5 Pro.
Ein weiteres Problem bei der Weiterentwicklung der Videobeschreibung ist das Fehlen geeigneter Benchmarks. Bestehende Datensätze enthalten oft nur kurze, einfache Beschreibungen, die die Möglichkeiten fortschrittlicher KI-Modelle nicht ausreichend widerspiegeln. Um diese Lücke zu schließen, wurde im Rahmen der AuroraCap-Forschung der VDC-Benchmark (Video Detailed Captions) entwickelt. Dieser umfasst über tausend Videos mit detaillierten, strukturierten Beschreibungen, die vielfältige Informationen wie Objekterscheinungen, Kamerabewegungen und den zeitlichen Ablauf von Ereignissen umfassen.
Die Erstellung dieses Benchmarks erfolgte mithilfe von GPT-4o, einem fortschrittlichen Sprachmodell, das als Assistenzsystem für die Generierung von Beschreibungen eingesetzt wurde. Um die Qualität der Beschreibungen sicherzustellen, wurden die Videos in dichter Folge extrahiert und aus verschiedenen Perspektiven beschrieben. Abschließend erfolgte eine manuelle Qualitätsprüfung durch menschliche Experten.
Neben dem Benchmark wurde mit VDCscore auch eine neue Metrik zur Bewertung der Qualität von detaillierten Videobeschreibungen eingeführt. Herkömmliche Metriken wie METEOR, CIDEr und BLEU, die für maschinelle Übersetzungen oder kurze Bildunterschriften entwickelt wurden, erweisen sich bei längeren, detaillierten Beschreibungen als ungeeignet. VDCscore hingegen nutzt die Leistungsfähigkeit großer Sprachmodelle, um die Beschreibungen anhand kurzer Frage-Antwort-Paare zu bewerten.
Konkret wird die zu bewertende Beschreibung zunächst mithilfe des Sprachmodells in eine Reihe von prägnanten Frage-Antwort-Paaren zerlegt. Anschließend werden die Antworten des zu evaluierenden Systems mit den Referenzantworten verglichen. Durch den Einsatz von "Elo-Ranking", einer Methode zur Bewertung der Spielstärke im Schach, konnte gezeigt werden, dass VDCscore eine hohe Übereinstimmung mit menschlichen Beurteilungen der Beschreibungsqualität aufweist.
Die Kombination aus AuroraCap, VDC und VDCscore stellt einen bedeutenden Fortschritt im Bereich der detaillierten Videobeschreibung dar. AuroraCap demonstriert die Leistungsfähigkeit großer Sprachmodelle bei der Generierung umfassender Videobeschreibungen und der VDC-Benchmark setzt neue Maßstäbe für die Evaluierung solcher Systeme. Die neue Metrik VDCscore ermöglicht zudem eine objektive Bewertung der Beschreibungsqualität.
Diese Entwicklungen ebnen den Weg für eine Vielzahl neuer Anwendungen, die von detaillierten Videobeschreibungen profitieren können. Dazu zählen unter anderem die automatische Generierung von Untertiteln für Videos, die verbesserte Suche in Videoarchiven und die Entwicklung interaktiverer KI-Systeme, die Videos besser "verstehen" und darauf reagieren können.