Autoregressive Modelle haben sich als vielversprechender Ansatz für die visuelle Generierung etabliert, leiden jedoch unter langsamen Inferenzgeschwindigkeiten aufgrund ihrer sequentiellen, Token-für-Token-Vorhersage. Ein neuer Forschungsansatz verfolgt das Ziel, die Effizienz der Generierung zu verbessern, ohne die Vorteile autoregressiver Modelle zu beeinträchtigen. Der Schlüssel liegt im Verständnis der Abhängigkeiten zwischen visuellen Tokens. Tokens mit schwachen Abhängigkeiten können parallel generiert werden, während stark abhängige, benachbarte Tokens sequentiell verarbeitet werden müssen, da ihre unabhängige Stichprobennahme zu Inkonsistenzen führen kann.
Basierend auf dieser Erkenntnis wurde eine parallele Generierungsstrategie entwickelt, die weit entfernte Tokens mit schwachen Abhängigkeiten parallel generiert, während die sequentielle Generierung für stark abhängige lokale Tokens beibehalten wird. Dieser Ansatz lässt sich nahtlos in Standard-Autoregressive-Modelle integrieren, ohne die Architektur oder den Tokenizer zu verändern.
Die parallele Generierung hängt eng mit den Abhängigkeiten zwischen den Tokens zusammen. Stark abhängige Tokens erfordern eine sequentielle Generierung, während schwach abhängige Tokens parallel generiert werden können. In autoregressiven Modellen wird jedes Token durch Stichprobennahme (z. B. Top-k) generiert, um die Diversität zu gewährleisten. Die parallele Generierung erfordert die unabhängige Stichprobennahme mehrerer Tokens gleichzeitig. Die gemeinsame Verteilung stark abhängiger Tokens kann jedoch nicht für eine unabhängige Stichprobennahme faktorisiert werden, was zu inkonsistenten Vorhersagen führt. Bei visuellen Daten korrelieren solche Abhängigkeiten naturgemäß mit räumlichen Abständen – während lokal benachbarte Tokens starke Abhängigkeiten aufweisen, haben räumlich entfernte Tokens oft schwache Korrelationen.
Der neue Ansatz basiert auf der Identifizierung und Gruppierung von schwach abhängigen visuellen Tokens für die simultane Vorhersage, während die sequentielle Generierung für stark abhängige Tokens beibehalten wird. Dazu wird das Bild zunächst in lokale Regionen unterteilt, und deren initiale Tokens werden sequentiell generiert, um einen globalen Kontext zu etablieren. Anschließend erfolgt die parallele Generierung, indem Tokens an entsprechenden Positionen in räumlich getrennten Regionen identifiziert und gruppiert werden. Dieser Ansatz lässt sich durch einen Reorganisationsmechanismus in Standard-Autoregressive-Transformer implementieren, wobei einige lernbare Token-Einbettungen den Übergang zwischen sequentiellem und parallelem Generierungsmodus erleichtern. Indem sichergestellt wird, dass jeder Vorhersageschritt Zugriff auf alle zuvor generierten Tokens in allen Regionen hat, bleiben die autoregressive Eigenschaft und die Fähigkeit zur Modellierung des globalen Kontexts erhalten.
Experimente mit Bild- und Videogenerierungsaufgaben auf den Datensätzen ImageNet und UCF-101 bestätigen die Effektivität dieses Ansatzes. Bei der Bildgenerierung erreicht die Methode eine etwa 3,9-fach geringere Anzahl von Generierungsschritten und eine 3,6-fache Beschleunigung der tatsächlichen Inferenzzeit bei vergleichbarer Generierungsqualität. Mit einer aggressiveren Parallelisierung wird eine etwa 11,3-fache Reduzierung der Schritte und eine 9,5-fache Beschleunigung der Geschwindigkeit bei minimalem Qualitätsverlust erreicht (innerhalb von 0,7 FID für Bilder und 10 FVD für Videos). Die Experimente demonstrieren die Effektivität des Ansatzes in verschiedenen visuellen Bereichen und seine Kompatibilität mit verschiedenen Tokenizern wie VQGAN und MAGVIT-v2.
Diese Forschungsergebnisse eröffnen neue Möglichkeiten für die effiziente visuelle Generierung und ebnen den Weg für eine vereinheitlichte autoregressive Modellierung. Die Parallelisierung der Generierung durch geschickte Berücksichtigung von Token-Abhängigkeiten verspricht, autoregressive Modelle für praktische Anwendungen in der realen Welt attraktiver zu machen.
Bibliographie: https://arxiv.org/abs/2412.15119 https://arxiv.org/html/2412.15119v1 https://www.researchgate.net/publication/382178389_Parallelizing_Autoregressive_Generation_with_Variational_State_Space_Models https://huggingface.co/papers https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey/blob/main/README.md https://huggingface.co/papers/2411.00776 https://openreview.net/forum?id=gojL67CfS8 https://proceedings.mlr.press/v139/jayaram21b.html https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Towards_Accurate_Image_Coding_Improved_Autoregressive_Image_Generation_With_Dynamic_CVPR_2023_paper.pdf https://research.nvidia.com/labs/dir/diffcollage/